法律状态公告日
法律状态信息
法律状态
2017-09-15
授权
授权
2015-02-04
实质审查的生效 IPC(主分类):G06F17/30 申请日:20140928
实质审查的生效
2015-01-07
公开
公开
技术领域
本发明涉及观点挖掘技术领域,更具体地,涉及一种基于异质图随机游走的中文微博客观点探测方法,能应用于多话题主流观点的发现和排序,适用于中文微博客,包括新浪微博、腾讯微博、网易微博等。
背景技术
在现有技术中,有很多技术方法可用于网民群体观点探测。传统的观点挖掘方法通过文本的倾向性分析进行观点挖掘,这些方法包括观点识别、观点检索、观点要素抽取、垃圾评论识别等。对这些方法进一步分类,大致包括两个方面。一方面采用基于观点词表的简单统计模型、基于机器学习的方法和基于自然语言处理的观点挖掘模型等方法来挖掘网民观点,这些方法主要利用了观点词表、上下文信息、句子级信息、词位置邻近关系、词背景知识等文本信息。另一方面借助当前信息检索和文本挖掘领域的最新模型提出了基于一体化模型的观点检索算法检索网民对特定话题的观点看法,典型的有:基于词典的产生式倾向性检索模型、基于观点词查询扩展的观点相关模型、基于主题-观点混合的主题模型、基于外部数据集的产生式语言模型等。基于一体化模型的观点挖掘由于具有坚实的统计理论基础、更容易解释,在观点挖掘相关研究工作中被广泛研究。
然而,这些方法主要从文本内容角度出发分析挖掘网民群体观点,缺乏考虑“网民”的信誉度、影响力等用户关系对观点度量的影响。并且,社会媒介的数据蕴含非常丰富可以利用的数据特征:网页之间的链接关系、用户之间的好友关系、网页内容的转载关系、用户之间的隐性交互关系等。
在现有技术中,存在着一些基于图模型的方法被广泛应用于对社会媒介数据的挖掘。它擅长针对对象之间的各种联系建立模型,并根据模型对社会媒介中的对象进行排序。如何基于对象之间的相互关系构建适应各种任务需求的网络图是基于图模型方法的基础。典型的方法有基于网页的出、入链构建网页链接图对网页进行排序;搜索引擎的PageRank算法;HITS算法;LexRank算法;个性化PageRank算法;流形学习模型等。这些方法通过定义网络图空间中对象之间的度数、距离长短等,采用随机游走算法或流形学习模型挖掘对象的信誉度或影响力。
然而,这些基于图模型的方法并没有充分地被使用在观点探测中。
现有的观点探测方法没有充分考虑新型短文本媒体的社会化特征。随着近年来微博客这类社交媒介消息的不断产生,产生了大量的富含网民观点的数据资源,并需要通过数据挖掘技术来发现其中的热点话题、意见领袖等信息,这就对观点探测技术提出了一个挑战:如何构建一个统一有效的观点探测系统来满足针对微博客进行观点挖掘的需要。因此,迫切需要有一种高效准确的观点探测方法,该方法应能够在具有多个话题的微博数据中发现话题关键词、构建出微博关系图,探测每个话题的主流观点,同时能够在不同的微博类网站、不同领域方便地使用。
发明内容
本发明的目的在于提供一种基于异质图随机游走的中文微博客观点探测方法,该方法探测速度快、准确度高,通用性强,适用范围广。
为实现上述目的,本发明的技术方案是:一种基于异质图随机游走的中文微博客观点探测方法,包括以下步骤:
步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的微博帖子进行预处理,去除噪声,形成词的集合的形式;
步骤2:从微博中识别出话题的关键词:计算微博中每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词;
步骤3:基于图模型探测微博中针对话题的主流观点:构建每条微博帖子的特征向量,然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点构建出微博图,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博帖子的排序列表。
进一步的,在步骤1中,所述去除噪声的规则为去除微博中的以下内容:
a) 网页链接;
b) 特殊字符;
c) 广告相关的特殊字符;
d) 表达情感的拟声词。
进一步的,在步骤2中,采用类TF*IDF计算每个词对于相应话题的权重方法如下:
其中,t表示微博集合中按话题划分的子集,tfj(wi)表示第i个词在第j个话题的微博集合中出现的频次,T代表话题的个数;
然后按照tfj(wi)*idf(wi)值的大小来描述第i个词对于第j个话题的重要性,选取排名靠前的词得到话题相关的关键词集合。
进一步的,在步骤3中,所述微博帖子的特征向量由两部分构成:
a) 微博帖子中包含的关键词;
b) 按小时划分的时间戳信息。
进一步的,在步骤3中,所述微博图的构建方法,包括以下步骤:
步骤a1;分别以微博用户、微博帖子、关键词为节点,根据微博用户之间的关注与被关注关系,将微博用户节点相连;根据微博用户与微博帖子之间的发布关系,将微博用户节点与微博帖子节点相连;根据微博用户发布的微博帖子与关键词之间的包含关系,将微博用户节点与关键词节点相连;
步骤a2:根据微博帖子之间的相似度关系,将余弦相似度大于0的微博帖子节点相连;根据微博帖子与关键词之间的包含关系将微博帖子节点与关键词节点相连;
步骤a3:根据关键词在同一微博帖子的共现关系,将关键词节点相连。
进一步的,在步骤3中,所述微博图中各节点的得分的计算方法为:
Score(r)(w)、Score(r)(p)、Score(r)(u)分别表示关键词、微博帖子和微博用户节点在第r轮迭代时候的评分;Sim(pi, pj)表示微博帖子pi和pj的余弦相似度,adj[pi]表示与微博帖子pi相连的微博集合;
表示微博用户ui发布的微博帖子,w表示微博用户ui发布微博用到的关键词,flw[ui]表示微博用户ui的粉丝集合,frd[uj]表示微博用户uj关注的微博用户集合;
表示包含有关键词wi的微博帖子,wj是和关键词wi出现在相同微博帖子中的关键词,adj[wj]表示和关键词wi相连的关键词集合,表示使用了关键词wi的微博用户集合;
通过迭代上述的公式收敛得到微博帖子、微博用户、关键词三类节点的排序结果。
相较于现有技术,本发明的有益效果是提供了中文微博客的观点探测方法,该方法可以高效、准确地对中文微博网站内针对某一话题的微博中探测出主流观点,克服了现有的观点检测方法对微博媒介中数量大、语法不规范、具有大量噪声等特点缺乏考虑的问题,不仅抽取速度快,准确度高,稳定性高,而且通用性强,适用范围广,能够针对不同领域的话题方便地应用,具有很强的实用性和广阔的应用前景。
附图说明
图1是本发明实施例的实现流程图。
图2是本发明实施例中的微博图示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细说明。
本发明提供一种基于异质图随机游走的中文微博客观点探测方法,如图1所示,包括以下步骤:
步骤1:按话题采集微博帖子,形成多个以话题为单位的微博集合;对按话题采集到的微博帖子进行预处理,去除噪声,形成词的集合的形式。所述去除噪声的规则为去除微博中的以下内容:
a) 网页链接,如“http://t.cn/”;
b) 特殊字符;
c) 广告相关的特殊字符;
d) 表达情感的拟声词。
步骤2:从微博中识别出话题的关键词:使用类TF*IDF计算方法计算微博中每个词对于相应话题的权重,然后所有词根据权重的大小进行排序,将各话题中排序结果的前K个词作为相应话题的关键词。所述类TF*IDF计算方法如下:
该计算方法把和某一话题相关的微博集合当作一个文档,根据数据的特点改造成上述公式。其中,t表示微博集合中按话题划分的子集,tfj(wi)表示第i个词在第j个话题的微博集合中出现的频次,T代表话题的个数;
然后按照tfj(wi)*idf(wi)值的大小来描述第i个词对于第j个话题的重要性,选取排名靠前的词得到话题相关的关键词集合。
步骤3:基于图模型探测微博中针对话题的主流观点:在识别出话题的关键词后,构建每条微博帖子的特征向量,然后利用微博用户、微博帖子和关键词之间的关系,以微博用户、微博帖子、关键词为节点构建出微博图,如图2所示,再通过随机游走算法计算微博图中各节点的得分,最终得到针对各话题的微博帖子的排序列表。
在步骤3中,所述微博帖子的特征向量由两部分构成:
a) 微博帖子中包含的关键词;
b) 按小时划分的时间戳信息。
所述微博图的构建方法,包括以下步骤:
步骤a1;分别以微博用户、微博帖子、关键词为节点,根据微博用户之间的关注与被关注关系,将微博用户节点相连;根据微博用户与微博帖子之间的发布关系,将微博用户节点与微博帖子节点相连;根据微博用户发布的微博帖子与关键词之间的包含关系,将微博用户节点与关键词节点相连;
步骤a2:根据微博帖子之间的相似度关系,将余弦相似度大于0的微博帖子节点相连;根据微博帖子与关键词之间的包含关系将微博帖子节点与关键词节点相连;
步骤a3:根据关键词在同一微博帖子的共现关系,将关键词节点相连。
所述微博图中各节点的得分的计算方法为:
Score(r)(w)、Score(r)(p)、Score(r)(u)分别表示关键词、微博帖子和微博用户节点在第r轮迭代时候的评分;Sim(pi, pj)表示微博帖子pi和pj的余弦相似度,adj[pi]表示与微博帖子pi相连的微博集合;
如果微博用户使用了比较重要的关键词发布了比较有代表性的微博,那么这个用户被认为是有更强的影响力的。表示微博用户ui发布的微博帖子,w表示微博用户ui发布微博用到的关键词,flw[ui]表示微博用户ui的粉丝集合,frd[uj]表示微博用户uj关注的微博用户集合;
如果一个词出现在比较具有代表性的微博中,被有影响力的用户使用了,说明这个关键词是比较重要的。表示包含有关键词wi的微博帖子,wj是和关键词wi出现在相同微博帖子中的关键词,adj[wj]表示和关键词wi相连的关键词集合,表示使用了关键词wi的微博用户集合;
通过迭代上述的公式收敛得到微博帖子、微博用户、关键词三类节点的排序结果。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。
机译: 基于随机游走和基于集群的随机游走的方法,装置和设备
机译: 器件零修正拥有器件次要分量的磁场,而中央端修正与器件一起显示的磁场和异质特性图,异质特性图根据器件和SIMD梯度来计算,而异质特性图决定了这三个强度的三维波动
机译: 一种正面认证方法,其增强了计算机生成全息图转换的数字全息图标记的安全级别,这是一种基于计算机生成的全息图的正认证系统数字全息图标记发生器,用于基于计算机生成的全息图的正验证系统