首页> 中文学位 >文本聚类在话题检测与人名消歧中的应用研究
【6h】

文本聚类在话题检测与人名消歧中的应用研究

代理获取

目录

文本聚类在话题检测与人名消歧中的应用研究

TEXT CLUSTERING METHOD IN TOPIC DETECTION AND PERSON NAME DISAMBIGUATION

摘要

Abstract

第1章 绪论

1.1 课题背景

1.2 课题目的及意义

1.3 国内外相关技术发展现状

1.3.1 话题检测与跟踪概述

1.3.2 话题检测方法介绍

1.3.3 话题跟踪方法介绍

1.3.4 话题检测与跟踪系统性能评测方法

1.4 本文的主要研究内容和组织结构

第2章 基于仿射传播聚类与凝聚层次聚类结合的聚类方法及其应用

2.1 仿射传播聚类与凝聚层次聚类概述

2.2 基于仿射传播聚类与凝聚层次聚类结合的聚类方法

2.2.1 预处理及新闻报道表示

2.2.2 仿射传播聚类

2.2.3 二次特征选择

2.2.4 凝聚层次聚类

2.3 基于仿射传播聚类与凝聚层次聚类结合的聚类方法性能分析

2.3.1 数据集

2.3.2 评测方法

2.3.3 实验结果与分析

2.4 本章小结

第3章 基于层次聚类算法的中文人名消歧

3.1 人名消歧概述

3.2 人名识别

3.3 人名身份识别及抽取

3.4 基于文本聚类的人名消歧方法

3.4.1 特征选择和文档表示

3.4.2 相似度计算

3.4.3 基于文本聚类的人名消歧方法

3.5 评测方法及实验结果分析

3.5.1 数据集

3.5.2 评测方法

3.5.3 实验结果与分析

3.6 本章小结

第4章 金融新闻话题检测与跟踪系统

4.1 引言

4.2 金融新闻话题检测与跟踪系统框架

4.3 金融新闻话题检测与跟踪系统功能模块介绍

4.3.1金融爬虫模块

4.3.2预处理模块

4.3.3话题检测与跟踪模块

4.4 金融新闻话题检测与跟踪系统演示

4.4.1话题列表演示界面

4.4.2最新话题新闻演示界面

4.5 本章小结

结 论

参考文献

攻读学位期间发表的学术论文

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

致谢

展开▼

摘要

对于金融信息服务而言,用户希望能够全面掌握一个公司或个股的重大事件以及事件的前因后果。金融门户网站存在着覆盖面不广和众多公司的相关新闻混杂在一起的缺点,与此同时,不同的新闻媒体就同一事件会发布大量相似及后续报道,而转载又使得网络上存在大量重复的新闻报道,使得通过浏览金融新闻网站来查找其持有股票所属公司的相关信息成为一件费时费力的事。金融领域垂直搜索引擎,如Google财经,能够按公司或个股来为用户提供新闻浏览服务,但其检索结果不是按时间和话题组织的,不易于用户查看事件的首次报道以及跟踪事件的前因后果。因此如何从检索结果中识别和跟踪个股或公司的重大事件,以时间为主线将其以话题形式呈现给用户就成为金融垂直检索下一步需要解决的问题。
  本文通过话题检测与跟踪(TDT)技术来解决上述问题。话题检测与跟踪是一种把新闻报道流中的新闻报道组织成新闻话题的技术,一个话题由很多与该话题相关的新闻报道组成,一个话题包含初始新闻报道和后续相关新闻报道。本文将话题检测与跟踪技术应用到金融垂直检索系统中,以个股或公司为单位将检索结果组织成若干话题,并以时间为主线将话题呈现给用户,以此方便用户查看公司或个股的重大事件以及事件的前因后果。本研究把两种现有的聚类方法结合在一起,同时加以改进,提出了一种新的聚类方法,并将该聚类方法应用与金融新闻话题检测中。在文本分类语料集、标准的话题检测语料集和手工标注的语料集上分别进行了实验验证,结果表明,上述方法由于经典的K-Means方法和传统的凝聚层次聚类方法,而且可以有效地实现在话题检测。本文的研究已经成功应用到海天园金融新闻话题检测与跟踪系统中。
  除了金融新闻话题检测以外,本研究关注的另一个聚类技术的应用点是解决人名歧义问题。在人名歧义问题中,许多人有相同的名字,这一事实导致了很多歧义出现在文本中,尤其是对于一些普通人的名字,这一问题困扰了很多信息检索和自然语言处理任务,人名歧义问题在中文文本中更为严重。因此,除了将凝聚层次聚类方法作为本文提出的AP-HAC聚类算法的一部分用于金融新闻话题检测与跟踪以外,本文还探索了凝聚层次聚类算法的另一个应用,即将其用于解决中文人名歧义问题。本文把凝聚层次聚类技术和信息抽取技术结合起来用以解决中文人歧义问题,实验表明这种方法取得了很好的效果。

著录项

  • 作者

    戴祥鹰;

  • 作者单位

    哈尔滨工业大学;

  • 授予单位 哈尔滨工业大学;
  • 学科 计算机科学与技术
  • 授予学位 硕士
  • 导师姓名 王晓龙;
  • 年度 2010
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP391.43;
  • 关键词

    文本聚类; 话题检测; 人名消歧; 跟踪技术;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号