首页> 中文学位 >基于话题分布相似度的无监督关键词翻译技术研究
【6h】

基于话题分布相似度的无监督关键词翻译技术研究

代理获取

摘要

随着互联网的飞速发展,逐渐成为人们发布和获取信息的重要平台。在购买商品、选择服务之前,网络上的评论文章对决策者做出决策有重要的指导作用。然而,在获取跨语言信息时,非母语的语言障碍问题长期存在。在评论句子中,评论词是句子的核心,正确理解评论词的意思,才能够准确把握评论者对被评论话题的描述。但评论词常常具有较多词义,目前的机器翻译软件可以处理整句话,甚至整个段落,但对多义词的处理却不够准确,影响了使用者对关键信息的获取。在自然语言处理的许多应用领域中,多义词的词义选择问题都具有重要的研究意义,是进一步完成领域内其它工作的中间环节,包括机器翻译、信息检索在内的很多工作中扮演着重要的角色。
   在本文的研究中,尝试着找到一种无监督的方法,可以利用最少的资源,快速、准确的获取最关键的信息。这里主要做了如下方面的研究:
   一基于一个词的词义被其上下文中的词所决定,并且不同的词影响程度不同这样的假设,设计了无监督的词义选择算法,仅仅利用在线词典和网络搜索引擎便可以顺利完成任务。
   二在计算两个词的相关性时,针对本研究的特点改进了互信息公式,将其映射到一个指数函数上,避免了由于数据稀疏带来的计算困难,同时纠正了互信息为负值时的计算错误。
   三在计算两个词的相似程度时,不仅仅考虑位置、互信息等传统因素,还利用LDA模型计算评论词与周围词的话题分布,利用KL散度得到两者的差异度;在计算距离时添加句法信息,深层次的挖掘词与词之间的关系,以此衡量周围词对评论词的影响程度。
   试验结果表明,这种方法能够较为准确的对意见词进行翻译,在词义较多时效果更为明显,能够快速获取关键信息,帮助使用者做出正确决策。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号