面向网络人物搜索的中文人名消歧
CHINESE PERSONAL NAME DISAMBIGUATION IN WEB PEOPLE SEARCH
摘 要
Abstract
目 录
第1章 绪论
1.1 课题目的及意义
1.2 国内外研究现状
1.3 本文主要研究内容
第2章 人物搜索核心技术分析
2.1 垂直搜索技术概述
2.2 网页正文抽取概述
2.3 网页去重概述
2.4 人名消歧相关概述
2.4.1 文本表示模型
2.4.2 相似度衡量方法
2.4.3 特征选择方法
2.4.4 常用文本聚类算法
2.5 本章小结
第3章 人物搜索数据预处理
3.1 数据预处理框架
3.2 基于BK树检索的网页去重算法
3.3基于分布函数的网页正文抽取算法
3.4基于多重预处理与CRF相结合的中文分词算法
3.4.1 预处理器
3.4.2 分词器
3.4.3 后处理
3.5 人物属性抽取
3.6 本章小结
第4章 基于三层特征空间与两阶段聚类算法的 中文人名消歧
4.1 中文人名消歧算法框架
4.2 三层特征空间构造
4.2.1 基本特征空间
4.2.2 属性特征空间
4.2.3 语义特征空间
4.3 两阶段聚类算法
4.3.1 基于互斥人物基本属性特征的K-means文本聚类
4.3.2 基于EM算法的二阶段文本聚类
4.3.3 两阶段聚类算法优势
4.4 本章小结
第5章 人物搜索系统
5.1 系统框架
5.2 各模块功能介绍
5.2.1 网页数据采集模块
5.2.2 数据预处理模块
5.2.3 人名消歧模块
5.2.4 检索模块
5.3本章小结
第6章 实验评测与结果分析
6.1 实验环境
6.2 实验数据
6.3 算法评价方法
6.3.1 中文分词评价方法
6.3.2文本分类评价方法
6.3.3 人名消歧评价方法
6.4 实验结果分析
6.4.1 网页去重实验
6.4.2 中文分词实验
6.4.3 基于SVM的领域文本分类实验
6.4.4 基于语义理解的Bayesian-Boosting情感分类实验
6.4.5 基于三层次特征空间和两阶段聚类的人名消歧实验
6.5 本章小结
结 论
参考文献
攻读学位期间发表的学术论文
哈尔滨工业大学硕士学位论文原创性声明
哈尔滨工业大学硕士学位论文使用授权书
致 谢