首页> 中国专利> 移动阅读中的社交关系挖掘方法及装置

移动阅读中的社交关系挖掘方法及装置

摘要

本发明提供了移动阅读中的社交关系挖掘方法,所述社交关系例如是用户之间的关联度。该方法首先对用户书籍阅读过程中访问的知识点形成的知识结构进行相似度计算,然后,根据所计算的知识结构相似度,并结合用户交互记录获取两个用户之间的关联度。该方法综合考虑了用户阅读过程中的知识结构和用户之间的交互行为模式,所获取的用户关联度可以很好地反映出人与人的关系。

著录项

  • 公开/公告号CN102663047A

    专利类型发明专利

  • 公开/公告日2012-09-12

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN201210088773.0

  • 申请日2012-03-29

  • 分类号G06F17/30;G09B5/02;

  • 代理机构北京泛华伟业知识产权代理有限公司;

  • 代理人王勇

  • 地址 100190 北京市海淀区中关村科学院南路6号

  • 入库时间 2023-12-18 06:28:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-11-05

    授权

    授权

  • 2012-11-07

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120329

    实质审查的生效

  • 2012-09-12

    公开

    公开

说明书

技术领域

本发明涉及知识挖掘领域,尤其涉及移动阅读中的社交关系挖掘方 法。

背景技术

随着智能手机、无线网和互联网技术的不断发展,移动阅读越来越受 人欢迎。通常用于移动阅读的电子产品主要包括传统的阅读类电子产品和 交互式电子产品(也可被称为阅读社交平台)。

现有阅读类电子产品的交互方式只是局限于电子资源的阅读,忽视了 电子资源之间的知识关联和阅读过程中的知识查询需求。因此,交互式电 子课本正逐渐发展起来,在这种新型的阅读社交平台中充分考虑了知识点 应答和用户交流这两种需求。其充分发挥电子课本的智能交互能力,建立 电子教材之间的知识关联,采用文本、多媒体、Flash等多种方式,实现 智能的教材知识点的关联“闪答”。同时,用户在书籍阅读过程中,如果 对某些内容感兴趣,还可以与同时在阅读此书的用户进行交流。

在阅读社交平台中,知识点一般是书籍中的关键人物、事件以及重要 的名词术语,当用户对某一知识点进行查询时,屏幕上能够显示知识点的 简短描述、详细信息、相关知识点及相关的音频视频。用户可以浏览知识 点的详细信息、听相关音频或看相关视频。当用户通过点击相关知识点来 访问新的知识点时,将形成一条条的知识点访问子路径,这些访问子路径 集中体现了用户的知识结构。用户在阅读过程中形成的知识结构在一定程 度上反映了用户的兴趣和爱好。

但是在现有的阅读社交平台中缺少通过利用用户在阅读时形成知识 结构、用户交互记录等信息来对用户之间的社交关系(例如用户之间的关 联度)进行定性或定量的描述的技术方案。因而,也不能通过用户之间的 社交关系(例如用户之间的关联度)来为用户提供诸如推荐好友或资源等 个性化服务。例如,向用户推荐与其相似的用户作为好友,以便在阅读中 进行交流和讨论,或者推荐与其兴趣和爱好相似的用户曾经阅读的书籍等 等。

发明内容

因此,本发明的目的在于克服上述现有技术的缺陷,提供一种基于阅 读社交平台的用户关联度获取方法。

本发明的目的是通过以下技术方案实现的:

一方面,本发明提供了一种基于阅读社交平台的用户关联度获取方 法,所述方法包括:

步骤1)计算用户A和用户B的知识结构的相似度,所述知识结构是 由用户在书籍阅读过程中访问的知识点形成的;

步骤2)根据用户A和用户B的知识结构的相似度来获取用户A和用 户B的关联度。

又一方面,本发明提供了一种基于阅读社交平台的用户关联度获取方 法,所述方法包括:

步骤1)计算用户A和用户B的知识结构的相似度,所述知识结构是 由用户在书籍阅读过程中访问的知识点形成的;

步骤2’)基于所述知识结构的相似度并结合用户交互记录,来获取这 用户A和用户B的关联度,所述用户交互记录包括用户加入的聊天室、用 户在聊天室中发言的次数、与哪个用户在哪个聊天室进行过私聊。

上述技术方案中,步骤1)可包括以下步骤:

步骤1-1)分别获取用户A和用户B的阅读书目,得到用户A和用户 B的阅读书目交集;

步骤1-2)对于所获得的阅读书目交集中的每一本书,分别计算用户 A和用户B在看该书时形成的知识结构的相似度;

步骤1-3)基于用户A和用户B在看阅读书目交集中每本书时形成的 知识结构的相似度,计算用户A和用户B的知识结构的相似度。

上述技术方案中,所述阅读书目交集可表示为Bookcommon={b1,b2...,bt},t表 示用户A和用户B共同访问的书的个数;所述步骤1-2)可包括以下步骤:

a)根据用户A和用户B在阅读书bk时的相关知识点访问路径,得到 这两个用户访问知识点的交集Kcommon={K1,K2...,Kl},l表示用户A和用户B 共同访问的知识点的个数,bk表示阅读书目交集Bookcommon中的第k本书;

b)用户A和用户B在看某书bk时的知识结构相似度为

Sim(A,B)bk=1m+n-l×Σi=1lmin(tAi*tBi*,tBi*tAi*)

其中m表示用户A访问的知识点的个数,n表示用户B访问的知识点 的个数,和分别表示用户A和用户B在知识点Ki(Ki∈Kcommon)的停留时 间。

上述技术方案中,tAi*=tAi+Σj[Cor(i,j)tAj],tBi*=tBi+Σj[Cor(i,j)tBj],

其中j为用户A或B访问的知识点i的相关知识点,tAi为用户A浏览知识 点i的时间,tAj为用户A浏览知识点j的时间,tBi为用户B浏览知识点i 的时间,tBj为用户B浏览知识点j的时间,Cor(i,j)为相关知识点i和j之 间的关联度Cor(i,j)。

上述技术方案中,在步骤1-3)可以如下公式计算用户A和用户B的 知识结构的相似度Sim(A,B)

Sim(A,B)=Σk=1k=tSim(A,B)bkr+s-t

其中r表示用户A阅读的书的个数,s表示用户B阅读的书的个数, t表示用户A和用户B共同访问的书的个数。

上述技术方案中,所述步骤2’)可包括以下步骤:

步骤2-1)对用户A和用户B的用户交互记录进行统计,以分别得到 每个用户加入的聊天室的个数,用户A和用户B共同加入的聊天室的个数, 以每个用户在共同加入的聊天室中的发言次数,以及用户A和用户B进行 过私聊的聊天室的个数;

步骤2-2)计算用户A和用户B在聊天室中发言次数的相似度;

步骤2-3)根据所述用户A和用户B的知识结构的相似度、在聊天室 中发言次数的相似度以及这两个用户进行过私聊的聊天室的个数,来获取 用户A和用户B的关联度。

上述技术方案中,所述步骤2-2)可以如下公式计算用户A和用户B 在聊天室中发言次数的相似度Stalk(A,B)

Stalk(A,B)=m2N1×N2Σi=1mmin(sAi,sBi)

N1为用户A加入的聊天室的个数,N2为用户B加入的聊天室的个数, m为用户A和用户B共同加入的聊天室的个数,SAi表示用户A在这m个 聊天室中的第i个聊天室中的发言次数,SBi表示用户B在这m个聊天室 中的第i个聊天室中的发言次数。

上述技术方案中,在步骤2-3)可根据所述用户A和用户B的知识结 构的相似度、在聊天室中发言次数的相似度以及用户A和用户B进行过私 聊的聊天室的个数,以如下公式来获取用户A和用户B的关联度 Correlation(A,B)

Correlation(A,B)=λ1Sim(A,B)2Talk(A,B)3Chat(A,B)

其中,(λ123=1;0<λ1<1;0<λ2<1;0<λ3<1),Sim(A,B)为用户A和B的知识结 构的相似度,Stalk(A,B)为用户A和B在聊天室中发言次 数的相似度,X为与用户A加入过同一个聊天室的用户,∑Stalk(A,X)为用户 A和与其加入过相同聊天室的所有用户的发言次数的相似度的总和; Schat(A,B)为用户A和用户B进行过私聊的聊天室个数, Y为与用户A私聊过的用户,∑Schat(A,Y)为用户A和与其有过私聊的所有用 户进行过私聊的聊天室的总数。

又一方面,本发明提供了一种基于阅读社交平台的用户关联度获取装 置,所述装置包括:

用户知识结构相似度计算模块,用于计算用户A和用户B的知识结构 的相似度,所述知识结构是由用户在书籍阅读过程中访问的知识点形成 的;

用于根据用户A和用户B的知识结构的相似度来获取用户A和用户B 的关联度的模块。

又一方面,本发明提供了一种基于阅读社交平台的用户关联度获取装 置,所述装置包括:

用户知识结构相似度计算模块,用于计算用户A和用户B的知识结构 的相似度,所述知识结构是由用户在书籍阅读过程中访问的知识点形成 的;

用户关联度计算模块,用于基于所述知识结构的相似度并结合用户交 互记录,来计算用户A和用户B的关联度,所述用户交互记录包括用户加 入的聊天室、用户在聊天室中发言的次数、与哪个用户在哪个聊天室进行 过私聊。

上述技术方案中,用户知识结构相似度计算模块分别获取用户A和用 户B的阅读书目,得到用户A和用户B的阅读书目交集,并且对于所获 得的阅读书目交集中的每一本书,分别计算用户A和用户B在看该书时形 成的知识结构的相似度;最后,计算用户A和用户B的知识结构的相似度。

上述技术方案中,所述用户关联度计算模块对用户A和用户B的用户 交互记录进行统计,以分别得到每个用户加入的聊天室的个数,用户A和 用户B共同加入的聊天室的个数,以每个用户在共同加入的聊天室中的发 言次数,以及用户A和用户B进行过私聊的聊天室的个数;并计算用户A 和用户B在聊天室中发言次数的相似度;最后,根据用户A和用户B的 知识结构的相似度、在聊天室中发言次数的相似度以及用户A和用户B 进行过私聊的聊天室的个数,来计算用户A和用户B的关联度。

与现有技术相比,本发明的优点在于:

综合考虑了用户的阅读行为和用户之间的交互行为模式,从知识点访 问记录挖掘出客观的知识结构相似度,从用户的交互记录挖掘出主观的用 户关系强度,并由此从主观和客观两个方面对用户之间的关联度给予了定 量的描述。利用该方法分析出的用户关联度可以很好地刻画出人与人的关 系。而利用这种关系,可以提供一些个性化的服务,如好友推荐及基于协 同过滤的资源推荐。

附图说明

以下参照附图对本发明实施例作进一步说明,其中:

图1为根据本发明实施例的对两个用户在书籍阅读过程中形成的知识 结构进行相似度计算的流程示意图;

图2为根据本发明实施例的对于两个用户在阅读单本书时形成的知识 结构相似度计算的过程示意图;

图3为根据本发明实施例的获取两个用户之间的关联度的方法的过程 示意图。

具体实施方式

为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图 通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本发明,并不用于限定本发明。

为了更好地理解本发明,首先对阅读社交平台进行简单介绍,在这种 交互式的阅读平台中,为知识点建立了标注。知识点一般是书籍中的关键 人物、事件以及重要的名词术语。为知识点标注的信息可包括知识点的简 短描述、详细信息、相关知识点及相关的音频视频。例如,为知识点“贾 宝玉”标注的详细信息为“贾宝玉,中国古典小说《红楼梦》主要的人物, 别号怡红公子、绛洞花主、富贵闲人。由神瑛侍者脱胎而成,对绛珠仙草 有灌溉之恩”。“贾宝玉”的相关知识点为“林黛玉”、“薛宝钗”、“袭人”、 “晴雯”、“贾政”、“王夫人”等,相关的音频为《枉凝眉》,相关的视频 为《宝玉挨打》等。

当用户对某一已标注的知识点感兴趣时,可以对其查询访问,获取知 识点的详细信息、相关的知识点,也可以听相关的音频或看相关的视频来 加深对知识点的理解。用户可以顺次访问知识点的相关知识点,比如用户 访问“贾宝玉”时,访问了“贾宝玉”的相关知识点“林黛玉”,然后又 访问了“林黛玉”的相关知识点“林如海”,这样就形成了“贾宝玉”一 “林黛玉”一“林如海”这样的访问子路径。用户不断地访问新的知识点, 知识点的访问记录体现了用户的知识结构,其表示为一系列访问子路径的 集合。每个用户在阅读某一本书时,都有许多条相关知识点的访问路径。 例如“贾宝玉-林黛玉-薛宝钗”是一条相关知识点的访问路径,知识点“薛 宝钗”访问结束后,需要逐级后退,先退回到“林黛玉”,再退回到“贾 宝玉”,即任何一条路径都是闭合的。这样一条路径结束后,才会有一条 新的访问路径。

另外,用户在阅读书籍的过程中,除了希望查询知识点外,可能希望 就书中某些感兴趣的内容,与同时在阅读此书的用户进行讨论。因此,在 阅读社交平台中,用户不仅可以通过点击相关知识点来访问新的知识点, 而且可以申请加入该书的主题聊天室。在聊天室中,用户可以自由发言, 另外,如果对某一用户的发言特别感兴趣的话,在征得对方同意的情况下, 可以选择私聊。可见,用户之间的交互行为在一定程度上也可以反映用户 之间的关系。

在本发明的一个实施例中,提供了一种基于阅读社交平台的用户关联 度获取方法。该方法首先对用户书籍阅读过程中访问的知识点形成的知识 结构进行相似度计算;然后根据所述知识结构相似度,结合用户交互记录 计算两个用户之间的关联度。该方法结合用户的知识结构和用户的兴趣爱 好对用户间的关联度进行了定量分析。所获得的用户间的关联度可以更准 确地反映出以移动阅读中用户间的社交关系。因此,基于所计算的用户关 联度所反映出的用户间的社交关系,可以在SNS(Social Networking  Services社会性网络服务)社区中进行好友推荐或在电子商务系统中利用 相似用户进行基于协同过滤的资源推荐。

更具体地,该方法包括以下步骤:

步骤1,计算两个用户的知识结构的相似度(也可以简称为知识结构 相似度)。

其中,用户的知识结构是由该用户在书籍阅读过程中访问的知识点形 成的。每个用户都可能会阅读多本书,用户在阅读每一本书时都会形成一 定的知识结构,例如,可以用相关知识点的访问路径和在知识点的停留时 间来描述知识结构。该用户所阅读的多本书可以综合体现了用户的知识存 储和用户的访问习惯,而不同用户的知识结构的相似也可以在一定程度上 体现了用户阅读行为的相似。

图1给出了根据本发明实施例的计算用户知识结构相似度的流程示意 图。如图1所示,以计算用户A与用户B在书籍阅读时形成的知识结构相 似度为例,进行说明。主要的计算步骤如下:

步骤1-1)分别获取每个用户的阅读书目以得到用户之间阅读书目交 集。

设用户A阅读的书的集合(即用户A的阅读书目)为 BookA={bA1,bA2...,bAr},r表示用户A阅读的书的个数;用户B阅读的书的 集合(即用户B的阅读书目)为BookB={bB1,bB2...,bBs},s表示用户B阅读的 书的个数;用户A和用户B阅读的书的交集(即用户A和用户的阅读书 目交集)为Bookcommon={b1,b2...,bt},t表示用户A和用户B共同访问的书的个数。

步骤1-2)对于所获得的阅读书目交集中的每一本书,分别计算两个 用户在阅读该书时形成的知识结构的相似度。(下文将参考图2对该步骤 进行详细的描述)

步骤1-3)基于用户A和用户B在看阅读书目交集中每本书时形成的 知识结构的相似度,计算用户A和用户B的综合知识结构相似度(可参见 下文对Sim(A,B)的计算)。

图2给出了在步骤1-2)对于两个用户在阅读单本书时形成的知识结 构相似度计算的过程示意图。例如,假设用户A和用户B在看书bk时的知 识结构相似度为其计算包括以下步骤:

a)获取用户A和用户B在阅读书bk时的相关知识点访问路径,以得到 A和B访问知识点的交集。

每个用户在阅读某一本书时,形成的所有相关知识点的访问路径中所 涉及的知识点构成该用户在阅读该书时的访问知识点列表。例如,用户A 阅读《(红楼梦》时,一条相关知识点访问路径为“贾宝玉-林黛玉-薛宝钗- 薛蟠-香菱-甄士隐”;则{贾宝玉,林黛玉,薛宝钗,薛蟠,香菱,甄士隐} 这几个知识点将会被包含在用户A的访问知识点列表中。在计算用户A 和用户B在看同一本书bk时的知识结构相似度时,用户A在阅读书bk时的 所有访问路径中的知识点构成一个知识点列表。例如,用户A在阅读书bk时有20条访问路径,每一条访问路径都有5个知识点,则取这20*5=100 个知识点的并集作为A访问的知识点列表,由于不同路径中知识点可能重 复,故并集中的A访问的知识点的个数可能小于100个。同理,用户B 在阅读书bk时也会有一个知识点列表。

假设用户A访问的知识点集合为KA={KA1,KA2...,KAm},m表示用户A访 问的知识点的个数;用户B访问的知识点集合为KB={KB1,KB2...,KBn},n表示 用户B访问的知识点的个数;则用户A和用户B访问的知识点的交集为 Kcommoon={K1,K2...,Kl},l表示用户A和用户B共同访问的知识点的个数。

b)对于A和B访问知识点交集中的每一个知识点,分别计算用户A 和用户B在该知识点的停留时间。

例如用户A在知识点i时的停留时间为

tAi*=tAi+Σj[Cor(i,j)tAj]

其中j为访问的i的相关知识点,tAi为用户A浏览知识点i的时间,tAj为用户A浏览知识点j的时间,相关知识点(i,j)之间的关联度Cor(i,j)作为 衰减系数对知识点访问的时间进行修正。举例说明,下面的公式(1)表 示用户顺次访问了i的相关知识点y,又返回知识点i并继续访问了i的相 关知识点k,接着访问了k的相关知识点x。

i→k→x

y    (1)

则用户在知识点i的停留时间而用户在知识 点k的停留时间如果在A的另一条知识点访问路径中也 出现了知识点i,则将进行累加,作为新的例如,用户A在阅读某一 本书时,有多条知识点访问路径。如“贾宝玉-林黛玉-薛宝钗”,“贾宝玉- 贾母-史湘云”是两条路径,但知识点“贾宝玉”出现了两次,要将两次的 “贾宝玉”的停留时间累加起来,作为新的在知识点“贾宝玉”的停留时间。 用户A在某个知识点的停留时间,只与A的知识点访问路径有关,与其他人 的知识点访问路径无关。同理,用户B在知识点i时的停留时间为 tBi*=tBi+Σj[Cor(i,j)tBj]

其中,可以采用如下方法来计算相关知识点之间的关联度Cor(i,j)。在 一个实施例中,使用带重启机制的随机游走算法(random walk with restart, RWR)计算知识点i与知识点j的关联度Cor(i,j)。RWR模型数学表示为

c(t+1)=(1-a)Sc(t)+aq

其中,矩阵c(t)为第t步时图中的概率分布,矩阵q为初始状态,为对角 矩阵,对角线上元素为1,其余元素均为0。S为转移概率矩阵,Si,j为当前 在点i,下一步达到顶点j的概率,Si,j计算公式为

Si,j=Freq(ij)Freq(i)(ij)

Freq(i →j)表示通过访问知识点i来访问知识点j的次数,Freq(i)为访问 知识点i的次数,若i和j不是相关知识点,则Si,j=0。a为重启概率,取经 验值0.8。对于一个非周期不可约的图,多次迭代后,公式收敛,图中概 率达到稳定分布,再次迭代也不会改变图中的概率分布。知识点i与知识 点j的关联度Cor(i,j)=c+∞(i,j),其中c+∞(i,j)表示稳定分布时知识点i到知识 点j的概率。

在又一个实施例中,也可以直接将作为知识点i和 知识点j的关联度Cor(i,j),如上所述,Freq(i →j)表示通过访问知识点i来访 问知识点j的次数,Freq(i)为访问知识点i的次数。不过这样计算的相关知 识点关联度可能不够准确。

c)计算用户A和用户B在看某书bk时的知识结构相似度:

Sim(A,B)bk=1m+n-l×Σi=1lmin(tAi*tBi*,tBi*tAi*)

其中m+n-l表示用户A和用户B访问的知识点的并集中知识点的个 数,和分别表示用户A和用户B在知识点Ki(Ki∈Kcommon)的停留时间, 为和中的小数除以大数,衡量了用户A和用户B在访问知 识点Ki时停留时间的相似程度,则表示了用户A和用户B在 共同访问的l个知识点总的相似程度。

在经上述步骤对于所获得的阅读书目交集中的每一本书,分别计算出 两个用户在阅读该书时形成的知识结构的相似度之后,计算用户A和用户 B的综合知识结构相似度。

步骤1-3)基于用户A和用户B在看阅读书目交集中每本书时形成的 知识结构的相似度,计算用户A和用户B的综合知识结构相似度Sim(A,B)

Sim(A,B)=Σk=1k=tSim(A,B)bkr+s-t

其中表示用户A和用户B在看公共的t本书时的知识结构相 似度之和,r+s-t表示用户A和用户B一共看的书本的个数。

步骤2,根据所计算的两个用户间的知识结构相似度,并结合用户交 互记录来获取两个用户之间的关联度。

其中,用户交互记录主要包括用户加入的聊天室、用户在聊天室发言 的次数、与哪个用户在哪个聊天室进行过私聊、私聊的次数等。例如,当 用户在阅读书籍时,如果对某些内容感兴趣,希望与同时在阅读此书的用 户进行交流,可以申请加入该书的主题聊天室。比如用户在阅读《红楼梦》 时,如果对贾宝玉、林黛玉等人物感兴趣,可以申请加入“红楼梦”的主 题聊天室。在此聊天室中,所有用户可以自由发言。用户发言的次数体现 了用户对该聊天室的兴趣度,如果两个用户的发言次数比较接近,且发言 次数都比较多,则这两个用户阅读兴趣较为接近。同时,如果某一用户对 当前聊天室中另一用户的发言特别感兴趣的话,在征得对方同意的情况 下,可以选择私聊,私聊内容是非公开的,即聊天室的其它成员是看不到 聊天记录的。如果两个用户共同加入的聊天室较多,且在聊天室中发言次 数以及私聊的次数比较多时,这两个用户的关联度可能会比较大的。也就 是说用户交互记录也可以在一定程度上反映用户之间的关联度。

图3给出了根据本发明实施例的结合用户交互记录计算用户关联度的 方法的过程示意图。以获取用户A与用户B进行书籍阅读时的用户关联度 为例,如图3所示,在计算两个用户之间的关联度时,不仅考虑了两个用 户问的知识结构相似度,而且还结合用户交互记录考虑了两个用户在聊天 室中发言次数相似度和这两个用户进行过私聊的聊天室的个数。

其中,用户A和用户B之间的知识结构相似度Sim(A,B)可以采用上文介 绍的方法计算得到。通过对用户交互记录进行统计,可以得到用户A和用 户B进行过私聊的聊天室的个数为Schat(A,B)。用户A和用户B在聊天室里 发言次数相似度为Stalk(A,B),其是通过下面的公式计算的:

Stalk(A,B)=m2N1×N2Σi=1mmin(sAi,sBi)

其中,N1为用户A加入的聊天室的个数,N2为用户B加入的聊天 室的个数,m为用户A和用户B共同加入的聊天室的个数。在这m个聊 天室中,用户A在第i个聊天室中的发言次数用sAi表示,用户B在第i个 聊天室中的发言次数用sBi表示。对于A和B来说,Stalk(A,B)是同一个值,只 考虑加入相同聊天室时各自的发言次数,如果没有加入相同聊天室,则发 言次数不做考虑。其中,min(sAi,sBi)表示用户A和用户B在第i个聊天室 里发言次数的较小值。上述参数的具体值均可以通过对用户交互记录的统 计而得到。例如,可以通过分别对用户A和用户B的用户交互记录进行统 计,从而得到用户A加入的聊天室个数,用户B加入的聊天室个数、用户 A和用户B共同加入的聊天室个数,用户A和用户B在共同加入的聊天 室中的发言次数,以及用户A和用户B进行过私聊的聊天室的个数等。

继续参考图3,基于获得的用户A和用户B之间的知识结构相似度 Sim(A,B)、用户A和用户B在聊天室里发言次数相似度为Stalk(A,B)、用户A 和用户B进行过私聊的聊天室的个数为Schat(A,B),来计算用户A和用户B之 间的关联度。

在本发明的实施例中,还可以对Stalk(A,B)和Schat(A,B)进行如下的归一化处 理,也就是分别将其值映射到[0,1]中的某个值:

(X为与A加入过同一个聊天室的用户),该式计算的是 Stalk(A,B)在与A加入过相同聊天室的所有用户的发言次数相似度中所占的比 例,∑Stalk(A,X)表示用户A和与其加入过相同聊天室的所有用户的发言次数 的相似度的总和。对A来说,比例越大,说明A与B的相似程度比与其它用 户的相似程度更大。

同理,对Schat(A,B)进行归一化,(Y为与A私聊过的用户), 该式计算的是用户A和用户B的私聊聊天室个数在与A有过私聊的所有 用户的私聊聊天室个数中所占的比例,该比例越大,说明A与B的兴趣越 相似。其中∑Schat(A,Y)为用户A和与其有过私聊的所有用户进行过私聊的聊 天室的总数。

根据本发明的一个实施例,可以通过对Sim(A,B)、Talk(A,B)、Chat(A,B)进行 线性加权,计算用户A和用户B之间的关联度Correlation(A,B),其计算公 式如下:

Correlation(A,B)=λ1Sim(A,B)2Talk(A,B)3Chat(A,B)

λ1、λ2、λ3表示Sim(A,B)、Talk(A,B)、Chat(A,B)三者的权值, (λ123=1;0<λ1<1;0<λ2<1;0<λ3<1)。在一个实施例中,可以通过如下方法来确定 λ1、λ2、λ3的值:抽取200个用户进行问卷调查,对知识结构相似度Sim(A,B)、在 聊天室中的发言次数Talk(A,B)、私聊次数Chat(A,B)的重要程度分别进行打分,每 项打分分为1到5分五个等级,5分表示非常重要,1分表示非常不重要, 按所有用户取平均值,可以得到每项的平均得分,分别为s1、s2、s3,则 λ1∶λ2∶λ3=s1∶s2∶s3,且λ123=1,则可以计算出λ1、λ2、λ3的值,代入公式,即求得 用户关联度的值。在其他实施例中,可以根据需求直接指定各个系数所占 的比重,也就是直接指定λ1、λ2、λ3。也可以通过调查问卷来确定各个系数(即 λ1、λ2、λ3)。例如,可以通过如下方法确定λ1、λ2、λ3的值:抽取50个用户(人 数可以调整)作为样本进行问卷调查,对每个用户提供其它用户(也就是 其它49个用户)的阅读记录及与本人的交互记录,阅读记录为用户的知 识点访问路径,交互记录为加入的聊天室,在聊天室中发言的次数及与本 人私聊的聊天室个数。然后每个用户对其余用户与本人的关联度进行打 分,打分的满分为10分,打分值可以为小数,这样就通过调查问卷的形 式获取了任意两个用户的关联度作为训练集,然后利用线性回归的方法, 计算出系数λ1、λ2、λ3。然后就能用这三个系数和用户关联度计算公式来计算获 任意两个用户的间的关联度了。

应指出,以上对Sim(A,B)、Talk(A,B)、Chat(A,B)采用线性加权方式来获取用 户关联度意在说明而非限制,本领域技术人员可以使用其他方式来根据 Sim(A,B)、Talk(A,B)、Chat(A,B)获取用户关联度Correlation(A,B),例如 函数模型、广义线性模型、非参数模型方法等。

而且,上述实施例仅是一种优选的实施例,通过将所计算的两个用户 间的知识结构相似度与用户交互记录相结合来获取两个用户之间的关联 度,可以从主观和客观两个方面对用户之间的关联度给予更准确的定量描 述。在其他实施例中,在步骤2)中,也可以仅基于根据上文提到的方法 所计算的两个用户间的知识结构相似度来获取这两个用户之间的关联度, 而不必结合用户交互记录。例如,可以直接将根据上文提到的方法所计算 的两个用户间的知识结构相似度作为这两个用户之间的关联度。

在本发明的又一个实施例中,提供一种基于阅读社交平台的用户关联 度获取装置,所述装置包括用于计算用户A和用户B的知识结构的相似度 的模块,以及用于根据用户A和用户B的知识结构的相似度来获取用户A 和用户B的关联度的模块。

在本发明的又一个实施例中,提供了一种基于阅读社交平台的用户关 联度获取装置。该装置包括用户知识结构相似度计算模块,用于对用户书 籍阅读过程中访问的知识点形成的知识结构进行相似度计算;以及包括用 户关联度计算模块,用于根据所述知识结构相似度,结合用户交互记录计 算两个用户之间的关联度。

虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于 这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种 改变以及变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号