首页> 中国专利> 一种基于有限节点驱动的微博社会网络信息推荐方法

一种基于有限节点驱动的微博社会网络信息推荐方法

摘要

本发明公开了一种基于有限节点驱动的微博社会网络信息推荐方法,可以求得近似最优的驱动节点集合,使得推荐信息通过这些驱动节点集合驱动后,能够在微博网络中传播能达到近似最大的广度。其中,本发明综合考虑用户间的连接结构、用户对话题的兴趣分布以及用户的转发行为来选择近似最优的驱动用户节点的集合,通过该驱动节点集合进行发布的推荐信息或话题的信息传播广度近似最大。

著录项

  • 公开/公告号CN103412872A

    专利类型发明专利

  • 公开/公告日2013-11-27

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN201310285214.3

  • 发明设计人 杜友田;苏畅;管晓宏;吴陈鹤;

    申请日2013-07-08

  • 分类号G06F17/30(20060101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人汪人和

  • 地址 710049 陕西省西安市咸宁西路28号

  • 入库时间 2024-02-19 21:01:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-23

    未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20170426 终止日期:20190708 申请日:20130708

    专利权的终止

  • 2017-04-26

    授权

    授权

  • 2013-12-18

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130708

    实质审查的生效

  • 2013-11-27

    公开

    公开

说明书

技术领域

本发明属于在线社会网络技术领域,涉及一种基于有限节点驱动的微博社会网络信息推荐方法。

背景技术

近年来,微博、博客和论坛等新型网络应用服务的出现深刻改变了人们的信息交流方式,成为了人们获取、传播信息的重要平台。由此形成的在线社会网络(Online Social Networks,OSN)已经成为了当前研究的热点。微博是在线社会网络的典型代表之一,已成为一种重要的信息交流平台和公共话题传播平台。

在线社会网络研究主要涉及网络结构和用户行为分析、信息传播建模以及内容推荐等。目前,内容推荐研究侧重于通过分析用户关注的内容将符合用户兴趣的内容直接推荐至用户,在电子商务系统和视频分享网站等领域得到广泛应用。采用的技术主要是协同过滤,即通过对用户的显式输入或隐式输入的历史数据收集并统计,预测与此用户兴趣相似的用户,并将相似用户感兴趣的对象或信息推荐给此用户。

基于协同过滤的内容推荐研究主要考虑了内容的匹配程度。实际上,对于微博社会网络来说内容推荐还有另外一种类型:将内容推荐至多个用户节点,基于这些驱动节点及其粉丝的关注和转发来实现信息传播并将内容推荐至更多的用户。该问题的核心是:如何确定多个驱动用户节点,使得由这些节点联合驱动时话题的传播广度最大。信息传播受用户兴趣度、用户粉丝数、用户的转发行为等多种因素影响。以往研究表明,由于用户对话题存在不同喜好,同一节点对不同话题的传播能力有很大差异。此外,信息内容对相关用户的提及率也是影响该信息传播速度、规模以及范围的重要因素。

发明内容

本发明解决的问题在于提供一种基于有限节点驱动的微博社会网络信息推荐方法,使得推荐信息在微博网络中传播能达到近似最大的广度。

本发明是通过以下技术方案来实现:

一种基于有限节点驱动的微博社会网络信息推荐方法,包括以下操作:

1)在微博社会网络中,构建以用户节点为顶点,顶点之间的边包括关注边和转发边的双边双权值网络,其中关注边和转发边分别有各自的权重;

按照下式计算微博社会网络中节点的影响力IR,并选取C个影响力最大的节点构成候选节点集QC

>IR(qv)=dN+(1-d)[ΣquBv,ftu,fwuv,f+ΣquBv,rtu,rwuv,r]>

其中,d为跳变概率,N为网络中的用户节点数,Bv,f和Bv,r分别为节点qv关注和转发过的节点集;

>tu,f=α·IR(qu)ODf(qu),>>tu,r=(1-α)·IR(qu)ODr(qu)>

ODf(qu)表示从节点qu发出的关注边数目,ODr(qu)表示从节点qu发出的转发边数目,α表示调节两类边的重要程度;wuv,f为关注边权值,wuv,r为转发边权值,等于节点qu转发节点qv话题的概率;

wuv,f=Iv,>wuv,r=Muv,rMv>

Iv为节点qv对所推荐的信息或话题的兴趣度,Mv是节点qv的发帖总数,Muv,r是节点qv转发节点qu的帖子数量;

2)对于候选节点集QC中的单个节点q,q∈QC,建立由q作为单一驱动节点时的推荐话题转发网络,并基于该网络计算单个节点驱动时的推荐信息或话题传播广度的期望值;

3)计算候选节点集QC中个节点n个节点联合驱动下信息传播的广度的期望值,n<C,选取使得信息传播广度最大的n个用户节点,以所选择的n个用户节点作为驱动节点进行推荐信息或话题的传播。

所述的兴趣度Iv通过LDA算法计算用户节点qv历史发帖内容和推荐信息的相似度,以所计算的结果作为qv对推荐话题的兴趣度。

所述在步骤2)中,在构建推荐话题转发网络时以网络拓扑结构和用户转发行为基础进行构建,并用动态贝叶斯网络推理方法进行推理,从而计算以单个节点q为信息传播的驱动节点时,网络中的所有节点参与推荐信息或话题传播的概率,在所构建的网络中当某用户节点接收推荐信息或话题时,则该用户节点被激活并以概率p转发该信息或话题,通过计算网络中被激活用户的概率和数量来计算单个节点驱动时的信息传播广度的期望值。

所述在构建的推荐话题转发网络中,每个节点qi对应一个二值随机变量Xi,其中Xi=1表示转发,Xi=0表示不转发;用户的转发行为用条件概率Pr(Xi|F(Xi))表示,其中F(Xi)为推荐信息或话题被节点qi转发过的用户节点状态;获知各节点转发信息的条件概率后,推理出每个节点转发信息的概率Pr(Xi)。

所构建的推荐话题转发网络为动态贝叶斯网络,包括初始网B0和转移网B,变量集表示t时刻的随机变量集,

令初始网B0中的其它变量均为0;在t时刻上的联合概率分布Pr(Xt)为:

>Pr(Xt)=Σpa(Xit)Pr(pa(Xit))·Πi=1NPr(Xit|pa(Xit))>

其中,表示在动态贝叶斯网络中的父节点,随着t的增大,将收敛于Pr(Xi);选取预定义阈值δ,使得时停止计算;

为节点转发推荐信息的条件概率Pr(Xi|pa(Xi)),在计算过程中不随t的变化而变化,则用户节点qi转发推荐话题的概率为

>Pr(Xit)=ΣXjtXitPr(X1t,X2t,...,Xnt)>

并对条件概率进行如下分解:

>Pr(Xit|pa(Xit))=ΣXjt-1pa(Xit)θij·Pr(Xit|Xjt-1)>

其中,为需要学习的参数,对于所有节点qi选取其中表示的个数,不受时间t影响,其中Xj∈F(Xi);而Pr(Xi|Xj)按下式进行计算:

>Pr(Xi|Xj)=Mji,rMi>

其中Mji,r为节点qi转发qj的帖子数,Mi为节点qi发表的帖子数。

所述在进行步骤3)的计算时,采用贪婪策略:先选择候选节点集QC中对推荐话题传播广度最大的节点,通过该节点与其它节点之间的连接强度,选出第二个节点,使得两者联合传播广度最大;以此类推,最终得到n个节点。

所述在进行步骤3)的计算时,n个节点联合驱动下信息传播的广度的期望值的计算为:

任意两个节点qu和qv之间的连接强度定义为:

>w(qu,qv)=ouvku-1+kv-1-ouv>

其中,ku、kv为qu、qv的粉丝数目,ouv为qu、qv的公共粉丝数;而驱动节点集Q与单一驱动节点qv之间的连接强度为:

>w(Q,qv)=1|Q|ΣquQw(qu,qv)---(10)>

其中|Q|为Q包含的节点数;

当一个节点接收到推荐信息或话题时,认为其被激活,且其接收到推荐信息或话题的概率为激活概率;通过激活期望AE来度量单一节点qv的传播能力,即

>Ea(qv)=1NΣk=1Npkv>

其中,为当qv为驱动节点时节点qk的激活概率;

则节点集Q的联合激活期望JAE为:

>Ea(Q)=Σk=1NpkQ/N;>

其中为给定点集Q时qk的激活概率;

多个节点联合驱动话题传播的能力与各单节点的驱动能力的连接强度呈线性关系:

Ea(Q)=Aw(Q′,qv)+BEa(qv)+b+ε    (12)

其中Q′为给定的驱动点集,Q={Q′,qv},A、B、b为待估参数,待估参数根据实际数据利用最小二乘算法进行估计,ε为随机噪声。

进一步,基于贪婪算法的策略,依次选择驱动节点,最终得到次优解:

a)初始化选择QC中驱动能力最大的节点qp∈QC放入QP,同时将它从候选节点集QC中删除,即QP←QP∪qp,QC←QCqp

b)根据公式(10),计算点集QP与QC中各节点的连接强度,并选取使得公式(12)最大化的节点qp∈QC放入QP,即QP←QP∪qp,QC←QCqp

重复步骤b),直到QP包含n个驱动节点。

与现有技术相比,本发明具有以下有益的技术效果:

本发明提供的基于有限节点驱动的微博社会网络信息推荐方法,可以求得近似最优的驱动节点集合,使得推荐信息通过这些驱动节点集合驱动后,能够在微博网络中传播能达到近似最大的广度。其中,本发明综合考虑用户间的连接结构、用户对话题的兴趣分布以及用户的转发行为来选择近似最优的驱动用户节点的集合,通过该驱动节点集合进行发布的推荐信息或话题的信息传播广度近似最大。

进一步,本发明除了综合考虑了微博社会网络中用户的连接关系、用户转发行为和对话题的兴趣度等要素,设计合适的网络数学模型之外,还提出了改进的PageRank算法,并基于改进的PageRank算法并结合动态贝叶斯网络推理计算,准确地度量信息传播广度,在此基础上选取信息传播能力最强的驱动节点集合。

附图说明

图1为双边双权值网络的示意图;

图2为信息转发网络的示意图;

图3为动态贝叶斯网络的示意图;其中1~7均为用户节点;

图4为联合激活期望的示意图;其中x坐标为连接强度,y坐标为单节点驱动的激活期望值;z坐标为多节点联合驱动的激活期望值。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。

本发明提供的基于有限节点驱动的微博社会网络信息推荐方法,可以求得近似最优的驱动节点集合,使得推荐信息在微博网络中传播能达到近似最大的广度。该方法综合考虑了微博社会网络中用户的连接关系、用户转发行为和对话题的兴趣度等要素,设计了合适的网络数学模型,并提出了改进的PageRank算法,进一步结合动态贝叶斯网络推理计算,准确地度量信息传播广度,在此基础上选取信息传播能力最强的驱动节点集合。

一种基于有限节点驱动的微博社会网络信息推荐方法,包括以下操作:

1)首先计算所有节点的影响力,选取C个影响力最大的节点构成候选节点集QC

2)其次,候选节点集QC的节点影响力粗略地反映该节点对话题的传播能力,但是还不够精确。因此,构建信息转发网络,准确计算以QC中的单个节点为信息传播的驱动节点时,网络中的所有节点参与推荐信息传播的概率,并基于得到的概率来计算单个节点驱动时的信息传播广度的期望值。

3)最后,计算n(n<C)个节点联合驱动下信息传播的广度的期望值,选取使得信息传播广度最大的n个驱动节点作为近似最优的信息推荐节点。

下面对各个步骤进行详细的说明。

步骤1,基于修正PageRank的节点影响力计算

在微博社会网络中,构建以用户节点为顶点,顶点之间的边包括关注边和转发边的双边双权值网络,其中关注边和转发边分别有各自的权重;计算微博社会网络中节点的影响力,并选取C个影响力最大的节点构成候选节点集QC

PageRank算法是用于计算网页权威度的方法,该算法也常用于计算在线社会网络中节点的权威度。因为微博社会网络中,节点发布的话题主要依靠其朋友的关注和转发进行传播,具有类似于网页连接的特点:被大量节点或高影响力节点进行关注(或话题转发)的用户节点具有较高的影响力。

但PageRank算法只考虑了网络结构,而没有考虑用户节点的转发行为以及对话题的兴趣分布。本发明提出一种修正的PageRank算法(本发明称为InfluentialRank,简称IR算法)并用于节点影响力的计算。在话题的传播中,节点影响力与话题兴趣度、粉丝数量及粉丝对话题的转发概率等多个要素相关。

图1是基于这些要素构建的双边双权值网络,其中顶点为用户,边包括关注关系(follow)与转发关系(retweet),两种边都有各自的权重,分别对应于兴趣度和转发率。

在图1所示的双边双权值网络中,qu,qv,qm和qn为用户节点;从qu指向qv的实线边表示qv是qu的粉丝;从qu指向qv的虚线边表示qv转发过qu的帖子。qv的影响力IR(qv)与其粉丝的关注边和转发边都有关系,其粉丝的关注边和转发边都会从自身节点上分配到一定比例的影响力,并传递给qv

令每条关注边分配到的影响力tu,f相同,每条转发边分配到的影响力tu,r相同,即:

>tu,f=α·IR(qu)ODf(qu),>>tu,r=(1-α)·IR(qu)ODr(qu)---(1)>

其中,ODf(qu)表示从qu发出的关注边数目,ODr(qu)表示从qu发出的转发边数目,α用来调节两类边的重要程度;

关注边权值wuv,f,用qv对推荐话题的兴趣度Iv来度量;

转发边权值wuv,r,其值等于qu转发qv话题的概率,即:

wuv,f=Iv,>wuv,r=Muv,rMv---(2)>

其中Mv是节点qv的发帖总数,Muv,r是节点qv转发qu的帖子数量。节点对话题的兴趣度Iv采用LDA(Latent Dirichlet Allocation)算法计算。通过LDA计算用户历史发帖内容和推荐信息的相似度,可作为用户对话题的兴趣度。

在图1的网络构建基础上,InfluentialRank算法用下式表示:

>IR(qv)=dN+(1-d)[ΣquBv,ftu,fwuv,f+ΣquBv,rtu,rwuv,r]---(3)>

其中,跳变概率d取经验值0.15,N为网络中的用户节点数,Bv,f和Bv,r分别为节点qv关注和转发过的节点集。

最后,根据式(3)选取C个影响力最大的节点构成QC

步骤2,对于候选节点集QC中的单个节点q,q∈QC,建立由q作为单一驱动节点时的推荐话题转发网络,并基于该网络计算单个节点驱动时的推荐信息或话题传播广度的期望值;

对于步骤1求得的用户节点q∈QC,建立由q作为单一驱动节点时的话题转发网络,并基于该网络计算话题传播广度。在构建推荐话题转发网络时以网络拓扑结构和用户转发行为基础进行构建,并用动态贝叶斯网络推理方法进行推理,从而计算以单个节点q为信息传播的驱动节点时,网络中的所有节点参与推荐信息或话题传播的概率,在所构建的网络中当某用户节点接收(即关注)推荐信息或话题时,则该用户节点被激活并以概率p(p可能为0)转发该信息或话题,通过计算网络中被激活用户的概率和数量来计算单个节点驱动时的信息传播广度的期望值。

图2是基于转发关系构建的网络,为了使该图清晰,关注关系被省略掉。在该网络中,每个节点qi对应一个二值随机变量Xi,其中Xi=1表示转发,Xi=0表示不转发。于是用户的转发行为可以用条件概率Pr(Xi|F(Xi))表示,其中F(Xi)为帖子被节点qi转发过的用户节点状态。该转发网络是一个有向有环概率图(Directed Cyclic Graph,简称DCG)。若已知各节点转发信息的条件概率,则可以推理出每个节点转发信息的概率Pr(Xi)。

有向有环概率图的推理较为复杂,不能直接采用贝叶斯网络推理的算法进行计算,通常采用迭代的近似算法进行计算。本发明将该概率图转化为动态贝叶斯网络(DBN),每一次迭代计算对应到DBN的一个时间片,如图3所示。

动态贝叶斯网络包括初始网B0和转移网B,变量集表示t时刻的随机变量集。此步骤计算在单一用户节点驱动下的话题传播情况,故可令初始网B0中的其它变量均为0。在t时刻上的联合概率分布Pr(Xt)为:

>Pr(Xt)=Σpa(Xit)Pr(pa(Xit))·Πi=1NPr(Xit|pa(Xit))---(4)>

其中,表示在动态贝叶斯网络中的父节点,即图2中节点qi对其帖子进行过转发行为的用户节点。随着t的增大,将收敛于Pr(Xi)。这里选取预定义阈值δ,使得时停止计算。即为节点转发信息的条件概率Pr(Xi|pa(Xi)),在计算过程中不随t的变化而变化。用户节点qi转发话题的概率为

>Pr(Xit)=ΣXjtXitPr(X1t,X2t,...,Xnt)---(5)>

实际上,由于节点数目较大,直接根据式(4)和(5)计算难以进行。式(4)中,条件概率表随着数目的增多呈指数增加,致使计算复杂度很高。因此对条件概率进行如下分解:

>Pr(Xit|pa(Xit))=ΣXjt-1pa(Xit)θij·Pr(Xit|Xjt-1)---(6)>

其中,为需要学习的参数。简化计算,对于所有节点qi选取其中表示的个数。不受时间t影响,即等于Pr(Xi|Xj),其中Xj∈F(Xi)。由(6)可知,只需知道qi转发qj话题的概率Pr(Xi|Xj)即可。该概率可按下式进行计算:

>Pr(Xi|Xj)=Mji,rMi---(7)>

其中Mji,r为节点qi转发qj的帖子数,Mi为节点qi发表的帖子数,一旦节点qi转发了目标帖,则认为其粉丝均接收到了该帖子信息。也就是说,qi的粉丝qk接收到该信息的概率为Pr(Xi=1)。若qk为已经接收到推荐信息的节点集QF中节点的公共粉丝,则其接收到该信息的概率可近似为:

>pk=maxi:qiQF{Pr(Xi=1)}---(8)>

步骤3:计算候选节点集QC中个节点n个节点联合驱动下信息传播的广度的期望值,n<C,选取使得信息传播广度最大的n个用户节点,以所选择的n个用户节点作为驱动节点进行推荐信息或话题的传播,使推荐信息或话题传播广度最大化。

优选的该环节采用贪婪策略:先选择传播广度最大的节点,通过该节点与其它节点之间的连接强度,选出第二个节点,使得两者联合传播广度最大;以此类推,最终得到c个节点。由于采用贪婪策略,故得到的节点可能不是全局最优解,但计算效率高,且大多情况下完全满足需要。

具体的,由于各个驱动节点引起的信息传播范围可能有交叠,所以多个节点联合驱动时话题的传播广度通常不等于多个单节点驱动时的传播广度之和。研究表明,多个节点联合驱动话题传播的能力与各单节点的驱动能力以及它们之间的连接强度近似呈线性关系。这里,任意两个节点qu和qv之间的连接强度定义为:

>w(qu,qv)=ouvku-1+kv-1-ouv---(9)>

其中,ku、kv为qu、qv的出度(即粉丝数目),ouv为qu、qv的公共粉丝数。进一步,扩展定义一个驱动节点集Q与单一驱动节点qv之间的连接强度为:

>w(Q,qv)=1|Q|ΣquQw(qu,qv)---(10)>

其中|Q|为Q包含的节点数。

当一个节点接收到目标主题时,认为其被激活,且其接收到目标主题的概率为激活概率。为此引入激活期望(activation expectation,AE)来度量单一节点qv的传播能力,即

>Ea(qv)=1NΣk=1Npkv---(11)>

其中,为当qv为驱动节点时,节点qk的激活概率,由式(8)计算得到。

相似地,可以得到节点集Q的联合激活期望(joint activationexpectation,JAE):其中为给定点集Q时,qk的激活概率。

如图4所示,多个节点联合驱动话题传播的能力与各单节点的驱动能力以及它们之间的连接强度呈线性关系,具体可以表示为:

Ea(Q)=Aw(Q′,qv)+BEa(qv)+b+ε    (12)

其中Q′为给定的驱动点集,Q={Q′,qv},A、B、b为待估参数,待估参数根据实际数据利用最小二乘算法进行估计,ε为随机噪声。

为了提高计算效率,本发明基于贪婪算法的策略,依次选择驱动节点,最终得到次优解:

1)初始化选择QC中驱动能力最大的节点qp∈QC放入QP,同时将它从候选节点集QC中删除,即QP←QP∪qp,QC←QCqp

2)根据公式(10),计算点集QP与QC中各节点的连接强度,并选取使得公式(12)最大化的节点qp∈QC放入QP,即QP←QP∪qp,QC←QCqp

重复第2)步,直到QP包含n个驱动节点。

从而以所选择的n个用户节点作为驱动节点进行推荐信息或话题的传播,使得推荐信息或话题在微博网络中传播能达到近似最大的广度。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号