首页> 中国专利> 利用社会化网络学术资源交互平台进行信息交互的方法

利用社会化网络学术资源交互平台进行信息交互的方法

摘要

本发明提出一种利用社会化网络学术资源交互平台进行信息交互的方法,包括以下步骤:1)根据采集到的文献摘要数据建立学术专家库;2)采集所有用户为学术专家标注的专家标签;3)构造专家-学术关键词矩阵D1,专家-专家标签矩阵D2;4)将矩阵D1和D2分别分解为UT·T1和UT·T2;5)对用户输入的查询条件Q进行分解,并计算相关度函数f(u)=t·u,;6)对f(u)进行排序,向用户返回相关度最高的前N个专家信息。本发明采取的技术方案能够综合利用网络资源与用户自定义数据,针对用户感兴趣的学术话题实现最相关专家及资源的推荐,该方法基于大数据的统计运算,无需大规模的人工干预。

著录项

  • 公开/公告号CN103034728A

    专利类型发明专利

  • 公开/公告日2013-04-10

    原文格式PDF

  • 申请/专利权人 北京中加国道科技有限责任公司;

    申请/专利号CN201210556369.1

  • 发明设计人 刘玉良;刘延军;刘晓华;

    申请日2012-12-19

  • 分类号G06F17/30(20060101);

  • 代理机构11401 北京金智普华知识产权代理有限公司;

  • 代理人皋吉甫

  • 地址 100085 北京市海淀区清河安宁庄西路9号29号楼金泰富地大厦1109室

  • 入库时间 2024-02-19 17:57:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-09-09

    授权

    授权

  • 2013-05-08

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121219

    实质审查的生效

  • 2013-04-10

    公开

    公开

说明书

技术领域

本发明涉及网络学术资源的信息交互领域,特别涉及一种利用了互联网 数据挖掘和机器学习实现社会化网络学术资源的搜索和信息交互。

背景技术

目前网络资源蓬勃发展,读者可以通过一些网络学术资源库大量收集自 己感兴趣的学术资源,网络学术资源库是从互联网收集的具有一定学术价值的 序化的资源集合。网络学术资源库实现内容交互的方式主要包括两种,第一种 是利用网络爬虫等技术从互联网上自动抓取网络学术资源,自动提取标题、关 键词等元数据,并建立相应索引,并提供搜索服务。它们的特点是其实现过程 几乎是全自动的,因而只能提供比较有限的搜索手段。第二种是引入了专业的 编辑团队,按照预先定义好的元数据规范对收集的网络学术资源进行了标引, 因而库的质量较高,提供的功能非常丰富:包括文献查新级别的专业检索和各 种分类导航。

网络学术资源库在目前的教学科研等应用中已经发挥了巨大作用。但目 前网络学术资源库仍面临着如下的不足:1)主要是以文献服务为中心的,提 供的主要功能是允许用户以搜索或者导航的方式找到感兴趣的学术资源。由于 网络学术资源来自互联网,其数量大,并且质量参差不齐,所以读者还要花费 相当的精力从返回的结果中挑出真正高价值的内容。2)缺乏读者和学术专家 的交流互动。学术专家是比学术文献更有价值的信息资源。目前的网络学术资 源库,普遍是把学术专家库看成一个从资源库中派生出来的处于从属地位的 库。读者和学术专家之间的联系是单向的,设置是割裂的。

发明内容

本发明旨在至少解决上述技术缺陷之一,构建了一种智能化的社会化网 络学术资源交互平台,利用该交互平台能够主动收集普通用户对学术专家的分 类标签,结合文献的摘要信息,描述专家专业技术简况,并根据用户感兴趣的 学术话题推荐最为相关的学术专家推荐,提供用户与学术专家的双向交互链 路,使用户得到最核心、最便利的咨询。

如图1所示,社会化网络学术资源平台是以人为中心的网络学术资源平 台。本质上,它是由专家、学术文献、话题(也称主题)和用户为节点,它们 之间的联系为边构成的网络。专家、学术文献和话题构成了社会化网络学术资 源平台的三个内部维度(或视图),通过内部维度的任何一个节点出发(例如 某个专家),可以获得与该节点相关的其他两个维度的相关节点(相关文献和 相关话题)。用户是社会化网络学术资源的外部维度(或视图):开始时,读者 通过查询话题得到相关专家,然后就会和专家建立直接联系,并以专家为中心, 得到文献。社会化网络学术资源的社会性则体现在两个方面:1)用户和专家 的紧密互动;2)利用社会群体智慧实现网络的持续进化。

本发明的第一个目的在于提出一种利用社会化网络学术资源交互平台 进行信息交互的方法,其特征在于,所述方法包括以下步骤:

步骤一,社会化网络学术资源交互平台对从网络上采集到的学术文献摘要 数据进行分类,建立以每个学术专家为单元的学术专家库,其中学术专家库中 学术专家的个数为M;

步骤二,采集所有用户为学术专家标注的专家标签;

步骤三,构造专家-学术关键词矩阵D1和专家-专家标签矩阵D2,其中, D1为M×N1矩阵,D2为M×N2,N1表示学术专家库中关键词的总个数,N2表示 所有用户设置的专家标签的总个数;

步骤四,将矩阵D1和D2分别分解为UT·T1和UT·T2,其中U是L×M矩阵,T1和T2分别是L×N1和L×N2矩阵,其中,L为经验值;

步骤五,获取用户输入的查询条件Q,将查询条件分解为K个学术关键词 和P个学术专家标签:Q={k1,…,ki,…,kK}U{p1,…,pi,…,pP},定义 计算f(u)=t·u,其中,T1i表示学术关键词ki在隐空间的L维隐变量,T2i表示专家标签pi在隐空间的L维隐变量;

步骤六,对f(u)进行排序,向用户返回相关度最高的前N个学术专家 的专家信息。

优选地,所述步骤一包括以下子步骤:

1.1提取学术文献摘要数据中的作者姓名,建立以不同姓名为类别的分 类On,n代表所有作者姓名的数目;

1.2对每个分类按照该分类作者所发表的学术文献的关键词进行聚类, 将每个分类分为若干子类;

1.3将每个分类On的每个子类的作者对应于一个学术专家,建立学术专 家库。

优选地,所述步骤四中利用随机梯度下降算法进行最优的矩阵分解。

优选地,L≤50。

优选地,步骤六中返回的专家信息包括学术专家的接入地址信息。

优选地,所述方法包括步骤七:用户根据所述接入地址信息与专家进行 双向交互。

本发明的技术方案把海量的文献资源和社会群体智慧结合起来,结合数学 模型自动推断出专家的专业技能简况。海量的文献资源提供了专家技能的内部 视图,是从专家提供的信息出发进行考虑的;而读者的社会群体智慧,则是从 用户对专家提供的反馈信息角度出发进行考虑的。两者结合起来,比较全面地 反应了学术专家的专业技能。此外,专家的专业技能,是动态演化的。随着读 者与系统的不断交互,系统将收集到越来越多关于学术专家的反馈,这些反馈 信息将用来更新学术专家的专业技能简况。

本方案通过互联网挖掘技术,系统性的收集网络文献(摘要)库,并以 收集的学术文献为基础,整理出学术专家库,并通过对用户标注信息的利用, 使得无需人工编辑,就能通过自动的运算而不断完善专家的专业简况,节约了 大量的人工干预,仅需要一定的计算资源和带宽资源,就能完成海量文献资源 的查询和信息交互。

本技术方案实现了以学术专家为中心的文献组织和查新,构建了学术专 家库,通过用户的话题查询,可以得到针对该话题最为权威的专家,即针对该 话题发表文献最多,且被多数读者关注的专家,通过与学术专家的互动,获得 最为权威和核心的信息咨询,并能随时跟踪学术专家动态。

附图说明

图1为本发明中社会化网络学术资源平台的交互示意图;

图2为本发明具体实施例中利用社会化网络学术资源交互平台进行信息 交互的流程图;

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其 中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功 能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发 明,而不能解释为对本发明的限制。

以下结合附图2,对本发明利用社会化网络学术资源交互平台实现信息交 互的方法进行详细描述,本实施例中进行信息交互的方法主要包括以下步 骤:

步骤一,社会化网络学术资源交互平台对采集到的文献摘要数据进行分 类,建立学术专家库。

从互联网收集学术文献的摘要数据,自动从摘要数据提取作者、机构、文 献标题、文献摘要、关键词等字段,基于所提取的文献摘要数据,对学术文献 的作者进行分类识别,每个作者对应于一个学术专家,建立以每个学术专家为 单元的学术专家库。其中,学术专家库中每一个学术专家的描述信息包括姓名、 专业、电子邮件、机构、发表学术文献的文献摘要、关键词等专家信息,并包 括学术专家所发表学术文献的链接地址,在学术专家和学术文献间建立了关 联,每个学术专家可以通过超链接关联到以该学术专家为作者的所有学术文 献。

为了将不同的作者区分为各个学术专家,步骤一可以分为以下几个子步 骤:

1.1提取学术文献摘要数据中的作者姓名,建立以不同姓名为类别的分 类On,n代表所有学术文献的作者姓名的数目;

1.2对每个分类按照该分类作者发表学术文献的关键词进行聚类,将每 个分类分为若干子类;

由于可能存在同名同姓的作者,因而每个分类On中可能存在不同的学术 专家。而每个学术专家的学术研究的领域、课题是不同的,因而发表的学术文 献的关键词信息也是不同的,基于此,可以利用学术文献的关键词进行聚类获 得不同的子类On,每个子类代表一个学术专家。

1.3将每个分类On的每个子类的作者对应于一个学术专家,建立学术专 家库。其中,学术专家库中学术专家的个数为M。

经过步骤1.1和1.2的处理,获得各个子类对应的学术专家,每个学术专 家可以包括姓名、机构、电子邮件、发表学术文献的摘要数据等专家信息,同 时,在学术专家和学术文献间建立了关联,能够直接获取学术专家所发表的所 有学术文献。

步骤二,采集所有用户为学术专家标注的专家标签;

建立学术专家库后,用户(读者)可以通过学术专家库获取感兴趣的学术 专家及其学术文献,与此同时,社会化网络学术资源交互平台还为用户端提供 交互界面,例如:WEB应用界面,允许用户创建一个或多个的专家列表,并把 若干个学术专家添加到对应的专家列表中。用户为每个专家列表设置一个合适 的标题,称之为专家标签。也就是说针对每个用户都可以对其所感兴趣的专家 赋予一个专家标签。

社会化网络学术资源交互平台获取用户创建的专家列表,采集专家列表的 专家标签及专家列表中的各个专家,获取该用户设置的每个专家所对应的专家 标签。

采集所有用户为自己感兴趣的学术专家设置的专家标签,并进行汇总,由 于专家标签是各个用户自定义的,汇总后每个学术专家可能对应于一个或多个 专家标签。

步骤三,根据步骤一获得的学术专家库中的所有关键词构造专家-学术关 键词矩阵D1,根据步骤二采集的专家标签构造专家-专家标签矩阵D2,其中, D1为M×N1矩阵,D2为M×N2,M表示学术专家库中学术专家的总个数,N1表示 学术专家库中关键词的总个数,N2表示所有用户设置的专家标签的总个数。

D1矩阵中每一行代表一个学术专家,每一列代表一个关键词,每一个元素 d1ij代表第i行学术专家发表学术文献的关键词为第j列关键词的频率;D2矩 阵中每一行代表一个学术专家,每一列代表一个专家标签,每一个元素d2ij代 表第i行学术专家被标注为第j列专家标签的频率。

步骤四,将矩阵D1和D2分别分解为UT·T1和UT·T2,其中U是L×M矩阵,T1和T2分别是L×N1和L×N2矩阵,其中,L为经验值。

通过矩阵分解,每个专家、每个学术关键词以及每个学术专家标签均映射 为隐空间的L维隐变量,其中,每个关键词在D1矩阵中所对应的列向量对基 矩阵UT进行投影映射,既获得T1矩阵中的一个L维列向量,每个学术专家标 签在D2矩阵中所对应的列向量对基矩阵UT进行投影映射,即获得的T2矩阵中 的一个L维列向量。

考虑到采集的学术资源是海量数据,专家数量M、关键词数量N1以及用户 标注的专家标签N2的数量极大,也就是说获得的D1和D2都是超高维矩阵,为 了避免维数灾难,实现对D1和D2的降维,本发明利用矩阵分解算法将D1和D2分解为UT·T1和UT·T2,其中,U是L×M矩阵,T1和T2分别是L×N1和L×N2矩阵, L是远小于M正整数。考虑到数据计算的复杂性,可以将L的取值范围限定在 50以内。

为了得到最佳的分解矩阵U、T1以及T2,可以构造评测函数 F=|D1-UT·T1|F2+|D2-UT·T2|F2+α·(|U|F2+|T1|F2+|T2|F2),其中,|A|F2=Σi,jaij2,即矩阵A中每 个元素aij(第i行,第j列)的平方和,之后获得评测函数F的最优解 argminU,T1,T2|D1-UT·T1|F2+|D2-UT·T2|F2+α·(|U|F2+|T1|F2+|T2|F2),其中α为第二类经验 错误的权重。

上述最优解的获得可以通过随机梯度下降法获得。具体方式如下:

用ui表示U的第i列,用t1j和t2k分别表示T1的第j列和T2的第k列,d1ij表示位于D1矩阵的第i行第j列的元素,d2ik表示位于D2矩阵的第i行第k列 的元素,那么:

每次随机获取一个三元组(ui,t1j,t2k),如果e1ij≠0或e2ik≠0,则并按下面 的规则更新:

ui←ui+γ(e1ij·t1j+e2ik·t2k-α·ui)

t1j←t1j+γ(e1ij·ui-α·t1j)

t2k←t2k+γ(e2ik·ui-α·t2k)

其中:

α为第二类经验错误的权重,γ为学习 速率。

重复上面的随机获取步骤若干次,直到解稳定,即获得局部最优解。

步骤五,获取用户输入的查询条件Q,将查询条件分解为K个学术关键词 和P个学术专家标签:Q={k1,…,ki,…,kK}U{p1,…,pi,…,pP},定义 则各专家与查询条件Q的相关度可以利用f(u)表 示,f(u)=t·u,其中,T1i表示学术关键词ki在隐空间的L维隐变量, 即关键词ki在D1矩阵中所对应的列向量对基矩阵UT进行投影映射获得的T1矩 阵中的L维列向量,其中T2i表示学术专家标签pi在隐空间的L维隐变量,即 学术专家标签pi在D2矩阵中所对应的列向量对基矩阵UT进行投影映射获得的 T2矩阵中的L维列向量。

用户通过交互界面输入查询条件Q,社会化网络学术资源交互平台获取 查询条件Q并将其分为两个集合:关键词集合k、专家标签集合p,其中关键 词集合k的元素个数为K,专家标签集合p的元素个数为P。

步骤六,对f(u)进行排序,向用户返回相关度最高的前N个专家信息。

根据f(u)排序的结果,相关度f(u)越高该学术专家越符合用户输入 的查询条件Q,针对相关度最高的前N位专家,社会化网络学术资源交互平台 可以将专家数据库中存储的所述专家的专家信息返回给用户,包括专家姓名、 专业、机构、发表学术文献的摘要数据等专家信息,将所述学术专家发表的学 术文献的链接地址发送给用户,以便用户查阅。

为了便于用户和学术专家之间的双向交流,社会化网络学术资源交互平 台向用户返回的专家信息还包括学术专家的接入地址信息,包括网络通讯地址 信息,如邮箱地址、MSN等,或社会化网络学术资源交互平台提供的专家入口 信息,同时还将实时检测的网络通讯地址或专家入口等接入地址的在线状态返 回给用户。

当专家信息包括学术专家的接入地址信息时,用户可以根据所述接入地 址信息与专家进行双向交互。

用户可以根据返回的专家信息与在线专家进行实时交流,或者通过发送 邮件、留言信息等方式与学术专家进行沟通。

社会化网络学术资源交互平台提供定时更新功能。以学术专家为线索, 定时定向到互联网挖掘与之相关的文献摘要。社会化网络学术资源交互平台提 供的专家入口,方便专家直接通过专家入口更新他/她发表的学术文献资料。 系统保存文献更新的结果,定时更新专家数据库,并基于新的专家数据库更新 专家-学术关键词矩阵D1;此外,社会化网络学术资源交互平台还提供专家标 签的定时更新,不断采集扩充用户设置的专家标签,基于新的专家标签更新专 家-专家标签矩阵D2。交互平台可以根据情况设置更新周期,例如一个月更新 一次。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员 而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例 进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等 同限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号