封面
声明
中文摘要
英文摘要
目录
第一章 绪 论
1.1 选题背景与研究意义
1.2 国内外研究现状
1.3 本文研究内容与组织结构
第二章 相关技术基础
2.1 网络爬虫
2.2 HTML标签树
2.3 XML简介
2.4 通用网页正文提取技术
2.5 网页聚类
2.6 信息熵
2.7 正则表达式
2.8 本章小结
第三章 系统中关键技术的实现
3.1 网页聚类方法
3.2 自动生成模板
3.3 本章小结
第四章 舆情系统中Web信息抽取子系统总体设计
4.1 舆情系统简介
4.2 Web信息抽取子系统总体设计
4.3 本章小结
第五章 Web信息抽取子系统功能模块设计与实现
5.1 URL分类
5.2 新闻博客类抽取
5.3论坛类抽取
5.4 微博类抽取
5.5 数据库实现
5.6 本章小结
第六章 测试与分析
6.1 网页聚类测试
6.2 Web信息抽取实验结果
6.3 Web信息抽取评价标准
6.4 本章小结
第七章 总结与展望
7.1 总结
7.2 展望
致谢
参考文献
攻硕期间取得的研究成果