首页> 中文期刊> 《中文信息学报》 >融合主题模型及双语词向量的汉缅双语可比文档获取方法

融合主题模型及双语词向量的汉缅双语可比文档获取方法

         

摘要

缅甸语属于资源稀缺型语言,汉缅双语可比文档是获取平行句对的重要数据资源.该文提出了一种融合主题模型及双语词向量的汉缅双语可比文档获取方法,将跨语言文档相似度计算转化为跨语言主题相似度计算问题.首先,使用单语LDA主题模型分别抽取汉语、缅甸语的主题,得到对应的主题分布表示;其次,将抽取到的汉缅主题词进行表征得到单语的主题词向量,利用汉缅双语词典将汉语、缅甸语单语主题词向量映射到共享的语义空间,得到汉缅双语主题词向量,最后通过计算汉语、缅甸语主题相似度获取汉缅双语可比文档.实验结果表明,该文提出的方法得到的F1值比基于双语词向量方法提升了5.6%.

著录项

  • 来源
    《中文信息学报》 |2021年第1期|88-95|共8页
  • 作者单位

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

    昆明理工大学信息工程与自动化学院 云南昆明650500;

    昆明理工大学云南省人工智能重点实验室 云南昆明650500;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    主题模型; 双语词向量; 文档相似度; 汉语—缅甸语; 双语可比文档;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号