首页> 中文学位 >舆情系统中web信息抽取子系统的设计与实现
【6h】

舆情系统中web信息抽取子系统的设计与实现

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 选题背景与研究意义

1.2 国内外研究现状

1.3 本文研究内容与组织结构

第二章 相关技术基础

2.1 网络爬虫

2.2 HTML标签树

2.3 XML简介

2.4 通用网页正文提取技术

2.5 网页聚类

2.6 信息熵

2.7 正则表达式

2.8 本章小结

第三章 系统中关键技术的实现

3.1 网页聚类方法

3.2 自动生成模板

3.3 本章小结

第四章 舆情系统中Web信息抽取子系统总体设计

4.1 舆情系统简介

4.2 Web信息抽取子系统总体设计

4.3 本章小结

第五章 Web信息抽取子系统功能模块设计与实现

5.1 URL分类

5.2 新闻博客类抽取

5.3论坛类抽取

5.4 微博类抽取

5.5 数据库实现

5.6 本章小结

第六章 测试与分析

6.1 网页聚类测试

6.2 Web信息抽取实验结果

6.3 Web信息抽取评价标准

6.4 本章小结

第七章 总结与展望

7.1 总结

7.2 展望

致谢

参考文献

攻硕期间取得的研究成果

展开▼

摘要

网络舆情反映了广大民众对各种事件的态度,是国家相关部门了解民意的重要渠道。Web信息抽取是舆情系统进行舆情信息分析的输入,它性能的好坏直接影响了舆情信息的来源及判断。随着互联网的快速发展,网页形式越来越多,为了快速准确地获取舆情信息,舆情系统对Web信息抽取提出了越来越高的要求。
  本文正是针对上述问题提出解决方案,以Web信息抽取技术为研究对象,针对当前各种网页形式进行深入分析,并且结合舆情信息处理要求,针对新闻、博客、论坛及微博四种不同类型的舆情信息来源网页,提出不同的抽取方法。主要研究内容有:
  1.研究新闻博客类网页信息抽取技术,采用通用网页正文提取技术,对新闻博客类网页正文进行抽取,并利用正则表达式提取其他数据项,该方法不依赖于网页结构,抽取速度快,准确度高,通用性好。
  2.研究网页聚类方法,提出一种基于网页结构的聚类方法。该方法结合论坛类网页标签特性,由于每个标签节点因层次不同对网页结构相似性影响不同,对每个节点赋予权值,采用加权余弦相似性公式计算两棵网页标签树的相似性。该方法有很好的聚类效果,时间复杂度为O(n)。
  3.研究基于网页结构相似性比较的Web信息自动抽取技术,提出一种论坛网页信息全自动抽取方法。该方法对每个抽取的论坛网站自动生成一个抽取模板,模板中利用信息熵、结构相似性等来有效地识别论坛中的的具体信息,利用模板完成对该网站中其他网页的自动信息抽取。
  4.研究微博类网页的信息抽取方法,提出一种结合标签属性和正则表达式的微博网页抽取方法。该方法综合考虑待抽取数据项的特征,利用标签属性及属性值定位,并利用正则表达式完成精确抽取。
  经过实验证明,本文提出的新闻、博客、论坛及微博类网页信息抽取方法,能够对海量的网络信息进行快速准确的信息抽取,召回率达到93%以上,准确率达到95%以上,并可将抽取数据转化为结构化数据存入数据库,满足舆情系统对分析数据的要求。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号