首页> 中文会议>中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015） >一种挖掘网页标题中命名实体的远距监督方法

一种挖掘网页标题中命名实体的远距监督方法

页面导航

摘要
著录项
相似文献
相关主题

摘要

本文提出了一种利用百度百科自然标注数据来远距监督网页标题中命名实体挖掘的新方法.首先,通过关联规则挖掘,从百科词条标签数据集中挖掘出层次化的类别结构;然后,以特定类别下百科实体的参考资料网址和相应网页标题作为训练数据,利用一种基于跳跃二元语法模型的贪心策略,学习得到网址和网页标题的混合模板,用于从网页标题中挖掘对应类别的命名实体.实验结果表明,相较于其他使用同类数据源的挖掘方法,该方法在挖掘效率、召回量以及部分类别的准确率上都有显著提升.

著录项

来源
《中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015）》|2015年|1-10|共10页
会议地点广州
作者
Teng Hu; 胡腾; Houfeng Wang; 王厚峰; Shiqi Zhao; 赵世奇; Chao Zhang; 张超;
展开▼
作者单位

中国中文信息学会;

展开▼
会议组织
正文语种
原文格式 PDF
中图分类 TP311.13;
关键词
网页标题; 命名实体; 挖掘方法; 远距监督方法;

相似文献

中文文献
外文文献
专利

1. 中文网页搜索日志中的特殊命名实体挖掘 [J] . 张磊 ,王斌 ,靖红芳 . 哈尔滨工业大学学报 . 2011,第005期
2. 基于命名实体的网页推荐算法研究 [J] . 李娟 . 咸阳师范学院学报 . 2013,第006期
3. 基于网页结构特征的中文命名实体识别和关联算法 [J] . 任颖 ,李华伟 ,吕红 . 自动化技术与应用 . 2012,第001期
4. 基于命名实体及关系的网页文本关联分析方法 [J] . 席峰 . 微电子学与计算机 . 2011,第8期
5. 命名实体情报挖掘方法研究及其在图书馆中的发展 [J] . 袁慧 ,马建霞 . 图书馆理论与实践 . 2017,第010期
6. 中文网页搜索日志中的特殊命名实体挖掘 [C] . 张磊 ,王斌 ,靖红芳 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 大规模网页中双语命名实体挖掘的研究与实现 [A] . 焦世斗 . 2008

获取原文

客服邮箱：kefu@zhangqiaokeyan.com

京公网安备：11010802029741号 ICP备案号：京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有

客服微信
服务号