首页> 中文会议>第十一届全国人机语音通讯学术会议 >基于向量空间模型的网页文本句子对齐方法研究

基于向量空间模型的网页文本句子对齐方法研究

摘要

平行网页文本中除了互为对照的内容,还存在一些无关的噪声,因此利用网页结构相似的方法解决平行网页中句对齐问题受到一定的限制。通过引入互译词典或同类词典的方法可以提高句对齐质量,但是双语词典的规模是有限的,不能覆盖所有对应的词汇。rn 本文利用基于向量空间模型提供的相似度计算方法对平行网页文本进行句子对齐,在向量空间模型中,网页文本中的句子为一维空间中的向量,选取实词作为特征项,利用CHI统计量计算词汇关联度,采用TF-IDF算法计算特征项权重,采用cosine距离计算句子向量之间的相似度,解决平行网页文本句对齐问题。以蒙古文-中文平行网页为实验对象,设计了相关实验。实验结果证实了本文方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号