URL模式与HTML结构相结合的平行网页获取方法

刘奇; 刘洋; 孙茂松

首页> 中文期刊> 《中文信息学报》 >URL模式与HTML结构相结合的平行网页获取方法

URL模式与HTML结构相结合的平行网页获取方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

平行语料库是对机器翻译、跨语言信息检索等应用技术具有重要支撑作用的基础数据资源.虽然互联网上的平行网页数量巨大且持续增长,但由于平行网站的异构性和复杂性,如何快速自动获取高质量的平行网页进而构造平行语料库仍然是巨大的挑战.该文提出了一种URL模式与HTML结构相结合的平行网页获取方法,首先利用HTML结构实现平行网页的递归访问,其次使用URL模式优化遍历平行网站的拓扑顺序,从而实现高效准确的平行网页获取.在联合国与香港政府①两个平行网站上的实验表明,该方法相对传统获取方法在获取时间上减少50％以上,准确率提高15％,并显著提高了机器翻译的质量(BLEU值分别提高1.6和0.7个百分点).

著录项

来源
《中文信息学报》 |2013年第3期|91-99|共9页
作者
刘奇; 刘洋; 孙茂松;
展开▼
作者单位

清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),北京100084;

清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),北京100084;

清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华信息科学与技术国家实验室(筹),北京100084;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
平行网页获取; 平行语料库; URL模式; HTML结构;

相似文献

中文文献
外文文献
专利

1. 基于双语URL匹配模式可信度的平行网页识别研究 [J] . 章成志 ,马舒天 ,揭春雨 . 中文信息学报 . 2018,第003期
2. 自动获取HTML表格语义层次结构的方法 [J] . 史瑞芳 . 电子技术与软件工程 . 2015,第022期
3. 基于最大熵模型的柬英平行网页获取 [J] . 莫源源 ,潘丽同 ,严馨 . 计算机工程 . 2016,第005期
4. 基于HTML树的网页结构相似度研究 [J] . 宋明秋 ,张瑞雪 . 情报学报 . 2011,第002期
5. URL模式与HTML结构相结合的平行网页获取方法 [C] . 刘奇 ,刘洋 ,孙茂松 . 第六届全国青年计算语言学会议 . 2012
6. 基于维基类目网络和URL模式树的网页分类方法探究 [A] . 赖龙彬 . 2013

URL模式与HTML结构相结合的平行网页获取方法

摘要

著录项

相似文献

相关主题

期刊订阅