首页> 中文期刊> 《中文信息学报》 >URL模式与HTML结构相结合的平行网页获取方法

URL模式与HTML结构相结合的平行网页获取方法

         

摘要

平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源.虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战.该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取.在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50%以上,准确率提高15%,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点).

著录项

  • 来源
    《中文信息学报》 |2013年第3期|91-99|共9页
  • 作者

    刘奇; 刘洋; 孙茂松;

  • 作者单位

    清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),北京100084;

    清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),北京100084;

    清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),北京100084;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 信息处理(信息加工);
  • 关键词

    平行网页获取; 平行语料库; URL模式; HTML结构;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号