舆情系统中web信息抽取子系统的设计与实现

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

网络舆情反映了广大民众对各种事件的态度，是国家相关部门了解民意的重要渠道。Web信息抽取是舆情系统进行舆情信息分析的输入，它性能的好坏直接影响了舆情信息的来源及判断。随着互联网的快速发展，网页形式越来越多，为了快速准确地获取舆情信息，舆情系统对Web信息抽取提出了越来越高的要求。
　　本文正是针对上述问题提出解决方案，以Web信息抽取技术为研究对象，针对当前各种网页形式进行深入分析，并且结合舆情信息处理要求，针对新闻、博客、论坛及微博四种不同类型的舆情信息来源网页，提出不同的抽取方法。主要研究内容有：
　　1.研究新闻博客类网页信息抽取技术，采用通用网页正文提取技术，对新闻博客类网页正文进行抽取，并利用正则表达式提取其他数据项，该方法不依赖于网页结构，抽取速度快，准确度高，通用性好。
　　2.研究网页聚类方法，提出一种基于网页结构的聚类方法。该方法结合论坛类网页标签特性，由于每个标签节点因层次不同对网页结构相似性影响不同，对每个节点赋予权值，采用加权余弦相似性公式计算两棵网页标签树的相似性。该方法有很好的聚类效果，时间复杂度为O(n)。
　　3.研究基于网页结构相似性比较的Web信息自动抽取技术，提出一种论坛网页信息全自动抽取方法。该方法对每个抽取的论坛网站自动生成一个抽取模板，模板中利用信息熵、结构相似性等来有效地识别论坛中的的具体信息，利用模板完成对该网站中其他网页的自动信息抽取。
　　4.研究微博类网页的信息抽取方法，提出一种结合标签属性和正则表达式的微博网页抽取方法。该方法综合考虑待抽取数据项的特征，利用标签属性及属性值定位，并利用正则表达式完成精确抽取。
　　经过实验证明，本文提出的新闻、博客、论坛及微博类网页信息抽取方法，能够对海量的网络信息进行快速准确的信息抽取，召回率达到93％以上，准确率达到95%以上，并可将抽取数据转化为结构化数据存入数据库，满足舆情系统对分析数据的要求。

著录项

作者
李媛;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科计算机技术
授予学位硕士
导师姓名刘丹;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
网络舆情; 信息抽取; 自动生成模板; 网页聚类; 信息熵;

相似文献

中文文献
外文文献
专利

1. 计算机应用系统中的菜单子系统及操作权限控制子系统在PB中的设计与实现 [J] . 王国军 . 计算机工程与应用 . 2001,第015期
2. 物联网业务系统中的流量查询子系统分析、设计与实现 [J] . 王禹皓 ,赵尔平 . 西藏科技 . 2021,第003期
3. 嵌入式电力控制系统中监控子系统的设计与实现 [J] . 奚小宁 . 通信电源技术 . 2020,第019期
4. 浅谈嵌入式电力控制系统中监控子系统的设计与实现 [J] . 梁琛 . 中国设备工程 . 2018,第015期
5. 中阿技术转移综合服务信息系统技术价格在线评估子系统的设计与实现 [J] . 许多行1 ,闫云山2 ,熊克炜3 . 中阿科技论坛（中英阿文） . 2018,第003期
6. 虚拟视景系统中粒子系统的接口设计与实现 [C] . 杨永强 ,高颖 ,金岩通 . 第四届全国虚拟现实与可视化学术会议 . 2004
7. 网络舆情系统中网络爬虫和报表生成子系统的设计与实现 [A] . 李静 . 2012

舆情系统中web信息抽取子系统的设计与实现

目录

摘要

著录项

相似文献

相关主题

期刊订阅