基于Web信息提取的企业竞争情报获取研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网的迅速发展和普及，网络已成为人们生活中不可缺少的一部分。网络中存在着各式各样的信息，这些信息以网页为载体，呈现在用户面前。网页中蕴含的丰富信息为企业竞争情报系统提供了新的情报信息来源。本论文的目的就是研究一种通用的企业竞争情报获取方式。在研究现有的Web信息提取技术的基础上，本文提出了基于DOM树和DBSCAN算法的Web信息提取算法，接着研究并构建了基于Web信息提取的企业竞争情报获取模型。
　　首先，本论文全面系统的阐述了Web信息提取和企业竞争情报的研究现状，介绍了企业竞争情报系统和企业竞争情报获取的理论基础，并依次介绍了本论文将使用的几种网页数据处理技术，包括网络爬虫技术、Jsoup网页解析技术、DOM和DBSCAN算法。接下来详细介绍了Web信息提取的基本概念、技术分类和评价标准。
　　其次，本论文针对互联网中网页结构多样、易变等因素，通过研究网页结构中存在的一般规律，并结合DOM树和DBSCAN聚类算法提出了新的Web信息提取算法。并详细介绍了算法中的几个环节，包括Web页面预处理、构建DOM树及分段文本内容获取、基于 DBSCAN算法的网页内容提取。最后通过实验证明该算法能有效地获取网页中的正文文本信息，不依赖于网页结构，具有较强的通用性。
　　最后，针对某一行业内的企业，基于网络爬虫技术、网页解析技术和Web信息提取算法构建企业竞争情报获取模型。该模型首先根据预留的网站网址，通过网络爬虫获取该网址下的所有链接。然后通过网页标题来判断网页是否与行业领域相关，初步筛选网页。对筛选后的网页进行网页主要内容获取，即获取该网页的正文文本信息。再根据预留的企业关注信息，提取网页正文文本中的企业竞争情报信息。最后基于该模型设计并实现了企业竞争情报获取原型系统，通过实验验证基于Web信息提取的企业竞争情报获取模型的正确性。

著录项

作者
何云钢;
展开▼
作者单位

曲阜师范大学;

展开▼
授予单位曲阜师范大学;
学科计算机科学与技术
授予学位硕士
导师姓名曹宝香;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
Web信息提取; 企业竞争情报; 获取模型; 网页结构; 网络爬虫;

相似文献

中文文献
外文文献
专利

1. 基于Web2.0的企业竞争情报获取研究 [J] . 尹艳梅 . 有色金属文摘 . 2017,第006期
2. 基于Web2．0的企业竞争情报获取研究 [J] . 尹艳梅 . 资源信息与工程 . 2017,第006期
3. 基于Web文本挖掘的企业竞争情报获取方法研究 [J] . 张玉峰 ,朱莹 . 情报理论与实践 . 2006,第005期
4. 基于人际网络的企业竞争情报获取研究——以旅行社企业为例 [J] . 张悦 . 科技情报开发与经济 . 2016,第009期
5. 基于人际网络的企业竞争情报获取研究——以旅行社企业为例 [J] . 张悦 . 图书情报导刊 . 2016,第009期
6. 基于专利分析的企业竞争情报获取研究 [C] . 宋微 . 吉林省科技情报学会2010年学术年会 . 2010
7. Web信息提取技术在企业竞争情报平台的应用研究 [A] . 缪霖 . 2010

基于Web信息提取的企业竞争情报获取研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅