首页> 中国专利> Web主题倾向性挖掘与决策支持的方法

Web主题倾向性挖掘与决策支持的方法

摘要

本发明公开一种Web主题倾向性挖掘与决策支持的方法,包括步骤:S1.网络信息抽取与储存,通过网络挖掘技术,在互联网上获取信息,并将结果存入数据库和本地文件系统;S2.信息的观点主题检测与跟踪,利用专题评论数据,检测识别出感兴趣的具有完整语义信息的观点主题,并持续跟踪和关注该观点主题;S3.观点主题情感倾向性识别,对企业的热点话题进行话题情感倾向性分类,挖掘出观点主题的情感倾向性。本发明通过从互联网中获取相关商业资讯,快速有效地从海量网络资讯中挖掘企业相关的主题倾向性走势,实现即时商业智慧,更好地为企业提供决策支持服务。

著录项

  • 公开/公告号CN103116644A

    专利类型发明专利

  • 公开/公告日2013-05-22

    原文格式PDF

  • 申请/专利权人 华南理工大学;

    申请/专利号CN201310059170.2

  • 发明设计人 张振刚;徐浩;杨沛;丁卓;

    申请日2013-02-26

  • 分类号G06F17/30;

  • 代理机构广州粤高专利商标代理有限公司;

  • 代理人何淑珍

  • 地址 510640 广东省广州市天河区五山路381号

  • 入库时间 2024-02-19 18:53:05

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-04-13

    授权

    授权

  • 2013-06-19

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130226

    实质审查的生效

  • 2013-05-22

    公开

    公开

说明书

技术领域

本发明涉及Web数据的主题倾向性挖掘和决策支持的方法,尤其是针对海量Web数据的主题情感倾向性分析及决策支持。

背景技术

全球金融危机给许多传统产业带来了深度影响,使产业人士和投资者更加认识到可信赖商业资讯及其获取技术的重要性。对于企业来说,这些技术能辅助他们迅速有效地形成商业决策,有效地对风险进行管理和控制,提高他们的商业竞争力并最终令他们在市场竞争中获胜。基于上述共识,产业界对网络信息挖掘和智能决策服务的需求变得日益迫切。网络信息挖掘和智能决策服务涉及信息获取技术、文本分类技术、文本聚类技术、主题识别与跟踪技术以及文本倾向性分析等。这些技术一向是国内外资讯工作者关注的领域。文本检索会议(TREC)、情报检索专业组会议(SIGIR)、文本检测与跟踪会议(TDT)等都是展示此类技术最新研究成果的最主要的国际会议和论坛。

当前研究者提出了不少网络文本倾向性分析算法,主要集中在句子级和篇章级的文本倾向性分析上。目前的研究工作可分为两种研究思路:基于情感知识的方法以及基于特征分类的方法。前者主要是依靠一些已有的情感词典或领域词典,以及主观文本中带有情感极性的组合评价单元进行计算,来获取主观文本的极性。后者主要是使用机器学习的方法,选取大量的有意义的特征来完成分类任务。这两种研究思路有很多代表性的研究工作。在基于特征分类的方法中,Pang首次将机器学习的方法应用于篇章级的情感分类任务中。他们尝试使用了n-gram词语特征和词性特征,并对比了Navie Bayes、Max Entropy 和Support Vector Machine(SVM)三种分类模型,发现unigram 特征效果最好。然而, Cui通过实验证明,当训练语料较少的时候,unigram 的效果较优,但随着训练语料的增多,n-gram(n>3)发挥了越来越重要的作用。 Kim除了考察传统的n-gram 模型外,还引入了位置特征和评价词特征来完成句子级的褒贬分类。Zhao则将句子级情感分类任务提炼为一个三层分类任务,利用各层之间类别标签的相互作用,并考虑上下句之间情感的互相影响,使用Conditional Random Field(CRF) 模型将这些特征进行融合。类似于主客观信息分类任务,基于特征的方法的研究重点在于有效特征的发现,以及特征选择和特征融合等问题的研究。除了对主观文本信息的褒贬二元分类之外,还有一些研究工作进行更细致的情感分类任务。Pang将褒贬等级分为三类,并使用了one-vs-all 多元分类算法和回归分类算法完成情感分类。Goldberg则使用了一种基于图的半指导的分类算法,完成评论的褒贬包括四个等级的分类。

      综上所述,目前针对互联网上企业热点话题的倾向性情感分析和挖掘的方法还很少,距离即时商业智慧尚有距离。因此,有必要提供一种Web主题倾向性情感分析挖掘和决策支持的方法与系统,以弥补现有技术的不足。主题检测与跟踪可自动从Web数据流中自动发现主题并把主题相关的内容联系在一起,对企业相关的Web主题进行倾向性情感分析和挖掘,实现即时商业智慧,能更好地为企业提供决策支持服务。

发明内容

基于此,针对上述现有技术中存在的问题,本发明的目的在于提供一种Web主题倾向性挖掘与决策支持的方法,旨在针对互联网上企业热点话题的倾向性情感分析和挖掘,为企业的决策提供参考与支持。

为达到上述目的,本发明技术方案为:

一种Web主题倾向性挖掘与决策支持的方法,包括步骤:

S1. 网络信息抽取与储存,通过网络挖掘技术,在互联网上获取信息,并将结果存入数据库和本地文件系统;

S2. 信息的观点主题检测与跟踪,利用专题评论数据,检测识别出感兴趣的具有完整语义信息的观点主题,并持续跟踪和关注该观点主题;

S3. 观点主题情感倾向性识别,对企业的热点话题进行话题情感倾向性分类,挖掘出观点主题的情感倾向性。

进一步地,所述步骤S1还包括:

S11. 自然语言处理对原始网络信息进行预处理,包括:中文分词、词性标注、停用词处理,命名实体识别。

进一步地,所述步骤S2中网络资讯的观点主题检测与跟踪的过程具体包括:

S21.从网络上采集到的信息,经过基于模板的信息分类,过滤噪声信息;

S22. 将过滤后的相关信息,采用基于时间函数的增量聚类方法,实现子话题的检测,并将结果存储到数据库子话题表中;

S23.根据子话题的结果,提取出子话题的摘要和关键词,并修改子话题表相关信息;

S24.在根据子话题的信息,再次根据间窗口相似度比较的增量聚类方法,进行话题检测,并提取关键词,得到话题信息存入数据库;

S25.根据话题中信息的时间和话题中信息的数量,发现热点话题,并呈现给用户。

进一步地,所述步骤S22中子话题的检测的过程具体包括:

S221. 顺序处理信息中的每篇文档;

S222.利用层次聚类方法对未处理过的文档进行聚类;

S223.若不存在历史聚类,则根据当前聚类结果,存储子话题;

S224.若存在历史聚类,则对历史子话题和新聚类出的子话题,再次进行层次聚类;

S225.将新产生的子话题存入数据库;

S226.更新子话题与文档的关系;

S227.计算新产生和更新过的子话题的关键词、多文档摘要等信息存入数据库。

进一步地,所述步骤S24中话题的检测的过程具体包括:

S241.顺序处理每个子话题;

S242.第一个子话题的向量自动成为第一个聚类的聚类中心;

S243.如果相似度大于某个阈值,则该子话题被分配给这个聚类;

S244.当一篇子话题分配给某个聚类的时候,重新计算这个聚类的聚类中心;

S245.若某子话题没有分配给任何的聚类,则该子话题成为一个新的聚类,同时也是这个聚类的聚类中心;

S246.将新产生的话题,添加到数据库;

S247.更新话题的信息。

进一步地,所述步骤S3中网络主题情感倾向性识别的过程具体包括:

S31.训练话题情感分类模型,读取标注好的话题语料和情感词典,利用SVM分类算法,通过训练得到话题情感分类模型;

S32.子话题情感分类,对子话题抽取情感特征,利用话题情感分类模型及SVM分类算法获取子话题分类结果;

S33.话题情感分类,利用子话题情感分类的结果,构建基于子话题的图模型,根据图模型输出话题情感分类结果;

进一步地,所述步骤S31中训练话题情感分类模型的过程具体包括:

S311. 读入标注好的话题情感分类语料;

S312. 通过自然语言处理,得到经中文分词和词性标注好的语料;

S313. 根据情感词典和语法模式库,从语料中抽取情感特征,构造话题分类训练数据集;

S314. 分类器读取训练数据集,利用SVM分类算法,通过训练得到话题情感分类模型。

进一步地,所述步骤S32中子话题情感分类的过程具体包括:

S321. 读入待分类的子话题;

S322. 通过自然语言处理,得到经中文分词和词性标注好的子话题;

S323. 根据情感词典和语法模式库,从子话题中抽取情感特征,构造测试数据集;

S324. 分类器读取测试数据和之前训练好的话题情感分类模型,利用SVM分类算法,输出子话题情感分类结果。

进一步地,所述步骤S33中话题情感分类的过程具体包括:

S331. 读入待分类话题;

S332. 对待分类话题进行解析,得到子话题集;

S333. 调用子话题情感分类器,对每个子话题进行分类,得到子话题情感分类结果;

S334. 根据子话题之间的相似度,构建LexRank图模型,利用所构建的图模型, 计算子话题的重要性和冗余度,最终输出话题情感分类结果。

与现有技术相比,本发明具有如下有益效果:本发明通过网络挖掘和信息抽取技术从互联网中获取相关商业资讯,对商业资讯进行分析,发现新的话题,并持续跟踪和关注该话题,通过对话题的得到话题的情感倾向性及情感趋势。本发明能快速有效地从海量网络资讯中挖掘企业相关的主题倾向性走势,实现即时商业智慧,能更好地为企业提供决策支持服务。

附图说明

图1是本发明的实施例一流程示意图。

图2是本发明的实施例二流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细的说明。

实施例一

图1 中示出了本发明实施例一的流程示意图。

如图1所示,在该实施例中,一种Web主题倾向性挖掘与决策支持的方法,包括步骤:

S101. 网络信息抽取与储存,通过网络挖掘技术,在互联网上获取信息,并将结果存入数据库和本地文件系统;

S102. 自然语言处理对原始网络信息进行预处理,包括:中文分词、词性标注、停用词处理,命名实体识别;

S103. 信息的观点主题检测与跟踪,利用专题评论数据,检测识别出感兴趣的具有完整语义信息的观点主题。并持续跟踪和关注该观点主题;

S104. 观点主题情感倾向性识别,对企业的热点话题进行话题情感倾向性分类,挖掘出观点主题的情感倾向性。

实施例二

图2 中示出了本发明实施例二的流程示意图。

如图2所示,在该实施例中,

一种Web主题倾向性挖掘与决策支持的方法,包括步骤:

S201. 网络信息抽取与储存,通过网络挖掘技术,在互联网上获取信息,并将结果存入数据库和本地文件系统;

S202. 自然语言处理对原始网络信息进行预处理,包括:中文分词、词性标注、停用词处理,命名实体识别;

S203.将从网络上采集到的信息,经过基于模板的信息分类,过滤噪声信息;

S204. 将过滤后的相关信息,采用基于时间函数的增量聚类方法,实现子话题的检测,并将结果存储到数据库子话题表中;

S205.根据子话题的结果,提取出子话题的摘要和关键词,并修改子话题表相关信息;

S206.在根据子话题的信息,再次根据间窗口相似度比较的增量聚类方法,进行话题检测,并提取关键词,得到话题信息存入数据库;

S207.根据话题中信息的时间和话题中信息的数量,发现热点话题,并呈现给用户;

S208.训练话题情感分类模型,读取标注好的话题语料和情感词典,利用SVM分类算法,通过训练得到话题情感分类模型;

S209.子话题情感分类,对子话题抽取情感特征,利用话题情感分类模型及SVM分类算法获取子话题分类结果;

S210.话题情感分类,利用子话题情感分类的结果,构建基于子话题的图模型,根据图模型输出话题情感分类结果。

 实施例三

一种Web主题倾向性挖掘与决策支持的方法,包括步骤:

S301. 网络信息抽取与储存,通过网络挖掘技术,在互联网上获取信息,并将结果存入数据库和本地文件系统;

S302. 自然语言处理对原始网络信息进行预处理,包括:中文分词、词性标注、停用词处理,命名实体识别;

S303.从网络上采集到的信息,经过基于模板的信息分类,过滤噪声信息;

S304. 顺序处理信息中的每篇文档;

S305.利用层次聚类方法对未处理过的文档进行聚类;

S306.若不存在历史聚类,则根据当前聚类结果,存储子话题;

S307.若存在历史聚类,则对历史子话题和新聚类出的子话题,再次进行层次聚类;

S308.将新产生的子话题存入数据库;

S309.更新子话题与文档的关系;

S310.计算新产生和更新过的子话题的关键词、多文档摘要等信息存入数据库;

S311.根据子话题的结果,提取出子话题的摘要和关键词,并修改子话题表相关信息;

S312.顺序处理每个子话题;

S313.第一个子话题的向量自动成为第一个聚类的聚类中心;

S314.如果相似度大于某个阈值,则该子话题被分配给这个聚类;

S315.当一篇子话题分配给某个聚类的时候,重新计算这个聚类的聚类中心;

S316.若某子话题没有分配给任何的聚类,则该子话题成为一个新的聚类,同时也是这个聚类的聚类中心;

S317.将新产生的话题,添加到数据库;

S318.更新话题的信息;

S319.根据话题中信息的时间和话题中信息的数量,发现热点话题,并呈现给用户;

S320. 读入标注好的话题情感分类语料;

S321. 通过自然语言处理,得到经中文分词和词性标注好的语料;

S322. 根据情感词典和语法模式库,从语料中抽取情感特征,构造话题分类训练数据集;

S323. 分类器读取训练数据集,利用SVM分类算法,通过训练得到话题情感分类模型;

S324. 读入待分类的子话题;

S325. 通过自然语言处理,得到经中文分词和词性标注好的子话题;

S326. 根据情感词典和语法模式库,从子话题中抽取情感特征,构造测试数据集;

S327 分类器读取测试数据和之前训练好的话题情感分类模型,利用SVM分类算法,输出子话题情感分类结果;

S328. 读入待分类话题;

S329. 对待分类话题进行解析,得到子话题集;

S330. 调用子话题情感分类器,对每个子话题进行分类,得到子话题情感分类结果;

S331. 根据子话题之间的相似度,构建LexRank图模型,利用所构建的图模型, 计算子话题的重要性和冗余度,输出话题情感分类结果。

如采用爬虫负责从互联网上目标网站下载网页,并对网页进行解析和信息抽取,处理结果存入数据库和本地文件系统。采用聚焦爬虫,根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜 索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。

在子话题检测和话题检测中,具体的聚类方法如下:

先对文本进行预处理, 然后提取并选择言论特征从而合理表示言论, 最后根据言论特征和话题特征计算相似度进行话题聚类。进行话题聚类后,再更新话题特征。首先,将每一个言论看作一个只含有一个言论的话题,并且计算每一个言论队的相似度。其次,计算每一个类簇的相似度。类簇A和类簇B的相似度可以看作是每个类簇中的言论队的相似度的算数平均值。最后,假设A和B是相似度最高的类簇对,如果相似度高于预先设定的阈值,则将类簇A,B合并成一个新的类簇,并且继续执行第二步,否则停止话题聚类。

以上仅为本发明的优选实施例,但本发明的设计构思并不局限于此,凡利用此构思对本发明做出的非实质性修改,也均落入本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号