首页> 中文学位 >面向网络人物搜索的中文人名消歧
【6h】

面向网络人物搜索的中文人名消歧

代理获取

目录

面向网络人物搜索的中文人名消歧

CHINESE PERSONAL NAME DISAMBIGUATION IN WEB PEOPLE SEARCH

摘 要

Abstract

目 录

第1章 绪论

1.1 课题目的及意义

1.2 国内外研究现状

1.3 本文主要研究内容

第2章 人物搜索核心技术分析

2.1 垂直搜索技术概述

2.2 网页正文抽取概述

2.3 网页去重概述

2.4 人名消歧相关概述

2.4.1 文本表示模型

2.4.2 相似度衡量方法

2.4.3 特征选择方法

2.4.4 常用文本聚类算法

2.5 本章小结

第3章 人物搜索数据预处理

3.1 数据预处理框架

3.2 基于BK树检索的网页去重算法

3.3基于分布函数的网页正文抽取算法

3.4基于多重预处理与CRF相结合的中文分词算法

3.4.1 预处理器

3.4.2 分词器

3.4.3 后处理

3.5 人物属性抽取

3.6 本章小结

第4章 基于三层特征空间与两阶段聚类算法的 中文人名消歧

4.1 中文人名消歧算法框架

4.2 三层特征空间构造

4.2.1 基本特征空间

4.2.2 属性特征空间

4.2.3 语义特征空间

4.3 两阶段聚类算法

4.3.1 基于互斥人物基本属性特征的K-means文本聚类

4.3.2 基于EM算法的二阶段文本聚类

4.3.3 两阶段聚类算法优势

4.4 本章小结

第5章 人物搜索系统

5.1 系统框架

5.2 各模块功能介绍

5.2.1 网页数据采集模块

5.2.2 数据预处理模块

5.2.3 人名消歧模块

5.2.4 检索模块

5.3本章小结

第6章 实验评测与结果分析

6.1 实验环境

6.2 实验数据

6.3 算法评价方法

6.3.1 中文分词评价方法

6.3.2文本分类评价方法

6.3.3 人名消歧评价方法

6.4 实验结果分析

6.4.1 网页去重实验

6.4.2 中文分词实验

6.4.3 基于SVM的领域文本分类实验

6.4.4 基于语义理解的Bayesian-Boosting情感分类实验

6.4.5 基于三层次特征空间和两阶段聚类的人名消歧实验

6.5 本章小结

结 论

参考文献

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致 谢

展开▼

摘要

随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。目前通用搜索引擎在搜索人物上的表现已经远远无法满足人们的需求。如何以精准的方式把用户需要的信息呈现给用户已经是搜索引擎亟待解决的问题。人名消歧便是解决这一问题的核心技术。同时人名消歧在个性化搜索、自动问答、热点人物跟踪与发现等领域都有着广泛的应用。目前国内外基于人名消歧的中文人物搜索相关研究还比较少。
  人名消歧作为近几年刚兴起的一个热门研究方向,正受到越来越多国内外研究学者的关注。国际上在英文人名消歧方面已取得了一定的研究成果,但由于中文信息处理的特殊性,中文人名消歧仍然存在着很多亟待解决的问题。本文在前人的研究基础上,首创利用构造三层特征空间与两阶段聚类算法相结合的策略进行中文人名消歧。本文的研究内容主要包括以下几个方面:
  (1)首先对数据预处理中涉及到的技术进行研究改进,分别提出了基于BK树检索的高性能大规模网页去重算法、改进了基于分布函数的网页正文抽取算法、提出了基于多重预处理与CRF相结合的中文分词算法。数据预处理将为后面的人名消歧准备所需的语料。
  (2)本文提出了基于三层特征空间与两阶段聚类算法相结合的中文人名消歧。在特征选择及构造方面,根据不同文本特征对于区分人物作用的不同,构建三个不同层次的特征空间,并重点研究了如何采用机器学习算法构建语义特征,语义特征空间主要包括文本的领域属性特征、情感属性特征、句法属性特征和URL特征。在聚类策略设计方法,本文采用了两阶段聚类算法。首先在全局特征空间上,利用以基本属性序列对或唯一属性构建初始聚类中心的K-means算法,对文本进行初步聚类,得到类别粒度较大的类簇。最后采用EM算法对每个类簇再进行二次聚类,得到最终聚类结果。
  (3)结合本文提出的算法,设计并实现了中文人物搜索系统。
  本文在CIPS-SIGHAN2010中文人名消歧语料集上进行多个对比实验,实验结果表明,基于三层特征空间与两阶段聚类相结合的中文人名消歧效果良好,F-score达到了94.6%,比CIPS-SIGHAN2010中文人名消歧任务中排名第一的算法高了3.09%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号