法律状态公告日
法律状态信息
法律状态
2015-04-22
授权
授权
2012-11-14
实质审查的生效 IPC(主分类):G06F17/24 申请日:20120515
实质审查的生效
2012-09-19
公开
公开
技术领域
本发明属于计算机科学与应用技术领域,具体地说,一种面向开放知识社区的内容编 辑智能审核方法,应用于各种开放知识社区的资源建设与管理。
背景技术
近年来,以维基百科(Wikipedia)为代表的开放知识社区越来越流行,国外的有Google Knol、Cloudworks、Freebase等,国内的有百度知道、百度百科、互动百科、学习元平台等。 开放的知识平台固然有其独特的优势,可以吸引大量用户参与、发挥集体智慧、促进知识 流通与分享。然而,开放的同时也带来了不可回避的麻烦。维基百科完全开放式的编辑与 组织方式使开放知识社区中资源的质量和可靠性问题成为关注的焦点。Web2.0时代人人可 以生产、消费、传播资源,用户群体的复杂性和生产的自由化直接导致开放知识社区中资 源数量的爆炸式增长和资源质量的良莠不齐。
为了保证开放知识社区中的资源质量的可靠性,当前各种开放知识社区主要采用人工 决策与手动内容编辑审核的方式来实现对资源内容质量的控制。维基百科采用的是一套基 于人工协作的协调机制和一系列的约束规则(3R规则、事实校验和实时同级评审规则等) 来实现信息的有序进化。其它各种开放知识社区(百度百科、Google Knol、Freebase等) 也基本上沿用维基百科的控制模式,在反馈、交流的基础上最终通过人工审核的方式实现 内容版本的不断更迭和进化。近年来,有研究者(Javanmardi et al.,2010;Moturu&Liu, 2009)开始尝试构建维基百科中的信任评估模型,来帮助用户筛选高质量的资源。但是, 这些信任评估模型大都是基于编辑历史数据构建的,忽视了其他更加丰富的有助于判断用 户和资源信任度的交互性信息,比如收藏、订阅、分享等操作数据。
随着资源群体和用户群体规模的不断扩大,内容编辑审核的工作量将急速增加,必然 给知识的创作者、管理者带来巨大的工作负担。当前的人工决策与内容审核技术已经无法 适应开放知识社区发展的需要,因此,急需探索一种可以有效减轻开放知识社区中用户进 行内容编辑审核负担和压力的智能化方法。
发明内容
本发明要解决的技术问题是:克服现有人工审核内容编辑的不足,提供一种智能化的 内容编辑审核方法,该方法可以有效减轻开放知识社区中人工审核内容编辑的负担,且具 有较高的准确率。
本发明解决其技术问题所采用的技术方案是:一种面向开放知识社区的内容编辑智能 审核方法,其特征在于包括以下步骤:
(1)抽取资源内容的语义特征信息(语义基因),计算新添加内容的特征项与语义基 因的语义相似度;
(2)基于用户的交互操作数据,应用信任评估模型计算用户的信任度;
(3)综合语义相似度和用户信任度两个指标,判断是否接受此次内容编辑。
上述步骤(1)中的语义基因是指学习资源背后的内在知识结构,能够反映资源所要表 达的核心内容,可以形式化表示为基于本体描述的带有权重的概念集合以及概念间的语义 关系。语义基因提取方法为:基于领域本体提取资源内容的特征项;根据特征评价函数计 算特征项的权重;将特征项映射为领域本体中的概念;基于JENA框架提取概念在本体库 中存在的语义关系。所述的特征评价函数采用词频统计TF(Term Frequency)法。
上述步骤(1)中的新添加内容的特征项集与语义基因的语义相似度计算方法为:应用 哈工大扩展版的同义词词林将特征项集和语义基因中的同义词进行替换;采用余弦系数法 计算语义相似度。
上述步骤(2)中的信任评估模型核心设计思路是:包含资源信任度和用户信任度两个 核心部件;资源信任度依据直接信任度评价数据(用户直接对资源信任度进行打分)和间 接信任度评价数据(用户对资源的交互操作信息,如订阅、收藏等)采用加权平均的方法 计算得出;用户信任度依据用户之间的交互信息和其创作知识的可信度采用加权平均的方 法计算得出;资源信任度和用户信任度之间相互影响,采用迭代逼近法交叉计算二者的信 任度。迭代逼近法核心思想是通过设定一个最大误差值max_error,通过多次的迭代计算, 至到前后两次计算结果中对应的所有信任度之差的绝对值都小于max_error,才结束运算, 生成逼近真实的资源信任度和用户信任度。
上述步骤(3)中的内容编辑是否接受的判断方法为:设定一个内容编辑可以被接受的 最低阈值AT;对语义相似度和用户信任度两个指标采用加权求和法;若计算结果大于或等 于AT,则接受此次内容编辑;否则,拒绝此次内容编辑。
本发明与现有技术相比的有益效果:
(1)本发明方法通过综合应用语义基因和信任评估模型,可以实现对开放知识社区中 内容编辑的自动审核,大大减轻人工审核的负担和压力,同时具有较高的准确性。
(2)本发明基于领域本体提取资源内容的语义特征信息(语义基因),较之常规的文 本特征提取技术,能达到更好的提取效果。
(3)本发明提出的信任评估模型,可以有效评价开放知识社区中用户信任度和资源信 任度,具有计算数据丰富、考虑到用户信任和资源信任间的联动关系、更加接近现实社会 中的信任关系等特点。
附图说明
图1为本发明的语义基因的提取过程;
图2为本发明的基于领域本体的特征项提取过程;
图3为本发明提出的信任评估模型;
图4为本发明提出的迭代逼近法解决交叉计算问题的过程;
图5为本发明的内容编辑智能审核过程。
具体实施方式
下面结合附图及具体实施方式详细介绍本发明。
本发明的一种面向开放知识社区的内容编辑智能审核方法,采用如下步骤:
(1)抽取语义基因,计算语义相似度
语义基因的概念是指学习资源背后的内在知识结构,能够反映资源所要表达的核心内 容。区别于文本相似度比较中的文档特征项,语义基因不是简单的关键词集合,而是资源 背后所隐藏的语义概念网络。
语义基因可以被形式化地表示为有序三元组,即SG=<CS,WS,RS>,其中CS是核心 概念集合,集合大小不超过10,CS={C1,C2,C3,…,Cn},1≤n≤10,;WS是概念项的 权重集合,WS={W1,W2,W3,…,Wn},其中Wi为Ci的权重,1≤i≤n,且所有权重之 和为1;RS为核心概念间的关系集,RS={R1,R2,R3,…,Rn},每个关系采用领域本体中 的RDF三元组<Subject,Predicate,Object>表示,R1=<Concept1,Relationship,Concept2>, 这里的Concept1和Concept2不一定包含在CS中,可以是领域本体库的其他概念, Relationship是从领域本体库中提取的概念关系。
语义基因提取的过程如图1所示,包含四个关键性步骤:基于领域本体的特征项提取; 根据特征评价函数计算特征项的权重;特征词到本体概念的映射;基于语义网开源框架— JENA提取特征项(概念)在本体库中存在的语义关系。基于领域本体的特征项提取流程见 图2,特征评价函数采用词频统计TF(Term Frequency)法。
算法1基于JENA的特征词到本体概念的映射算法(Term Mapping to Concept,TM2C)
输入:资源的特征项集合TS={ti|i=1,2,3,...,n}
输出:资源的概念集合CS={Cj|j=1,2,3,...,n}
算法的伪代码如下:
算法1使用语义Web领域流行的JENA框架,将资源内容中提取的特征项逐个映射为 领域本体中对应的概念。
算法2基于JENA的概念关系抽取(Concept Relationship Extraction,CRE)
输入:资源的概念词集合CS={Cj|j=1,2,3,...,n}
输出:概念关系集合RS={Rj|j=1,2,3,...,m}
算法的伪代码如下:
算法2使用语义Web领域流行的JENA框架,将算法1获取到的概念集合在领域本体 中存在的概念关系提取出来。
算法3语义基因提取算法
输入:资源的Title、Tag、Content和SemanticData
输出:资源的语义基因SG=<CS,WS,RS>
关键步骤:
步骤1调用ICTCLAS将Title进行分词处理和噪音过滤
步骤2调用ICTCLAS将Tag进行切割和噪音过滤
步骤3调用ICTCLAS对Content进行html标签过滤,分词处理,噪音过滤(去除虚词)
步骤4获取语义描述信息中的本体类
步骤5对Step2到Step5中得到的特征词集合,结合领域本体进行词语组合,识别新的特 征词
步骤6调用停用词表,将Step6得到的词语集合进行停用词过滤
步骤7结合哈工大的扩展版同义词词林和领域本体进行同义词替换,得到特征词集TS
步骤8应用特征评价函数计算各特征词的权重,得到特征词的权重集合WS
步骤9应用TM2C算法得到概念集合CS
步骤10应用CRE算法提取概念关系集合RS
步骤11算法结束,输出CS、WS和RS
采用余弦系数法计算当前学习资源的语义基因和用户新添加内容的文本特征项集的语 义相似度。用X表示资源的语义基因:X=(C1,WC1;C2,WC2;…;Cn,WCn),其中Ck是语 义基因中的概念项,WCk是Ck的权重,1≤k≤n;用Y表示新内容的文本特征向量:Y=(T1, WT1;T1,WT1;…;Tm,WTm),其中Tk是特征向量中的特征词,WTk是Tk的权重,1≤k≤m。 进行余弦相似度计算之前,需要将X和Y中的元素进行同义词替换。同义词替换一方面基 于LCS中内置的哈工大扩展版的同义词词林,另一方面,可以从资源语义基因中包含的概 念关系三元组中查找X和Y中的同义词,并进行替换。语义相似度计算公式如下:
(2)应用信任评估模型计算用户的信任度
本发明提出一种面向开放知识社区的信任评估模型——双向互动反馈模型(Twoway Interactive Feedback Model,TIFM),见图3。TIFM包括资源信任度和用户信任度两个核心部 件,二者相互影响;两侧是信任度的各项影响因素;中心是有关信任评估的四条假设。需 要说明的是,这里的信任指的是全局信任,而非P2P网络中两个对等节点间的信任关系。 资源信任度表示所有社区用户对资源节点的整体信任评价,用户信任度表示社区中的所有 其他用户对当前用户的整体信任评价。
资源信任度(Resource Trust,RT)包含直接信任度和间接信任度两部分:直接信任度 (Direct Resource Trust,DRT)根据用户进行的显性信任评价计算得出;间接信任度评价 (Indirect Resource Trust,IRT)根据用户与资源的交互记录计算得出。在资源创建初期,由于 用户参与直接信任评价的次数较少,因此DRT在资源的总体信任度评价中所占权重w偏低。 权重w是以直接信任评价次数为自变量的增函数,将根据直接评价次数的变化动态调整, 随着直接信任评价次数的增多,DRT将越来越能够代表RT,w值也将逐渐提高。资源信任 度的计算公式可以表示为:RT=w×DRT+(1-w)×IRT。DRT采用加权平均法;IRT先采 用加权求和法,然后进行归一化处理。
开放知识社区中的用户信任度表征为四元组:UT={UTres,UTcol,UTfri,UTrev},UTres表 示由用户所创建资源的信任度计算得出的用户信任度,UTcol表示由用户之间协作关系计算 得出的用户信任度,UTfri,表示由用户之间的好友关系计算得出的用户信任度,UTrev表示 由编辑历史计算得出的用户信任度。用户信任度的计算公式采用加权求和法,可以表示为: UT=UW1×UTres+UW2×UTcol+UW3×UTfri+UW4×UTrev。
TIFM存在交叉计算的问题,即资源信任度的计算用到了用户信任度,而用户信任度的 计算又用到了资源的信任度。本发明采用迭代逼近法解决此问题,流程见图4,核心思路是 通过多次迭代计算系统中所有资源和所有用户的信任度,直到前后两次计算结果中各项信 任值之差的绝对值都小于设定的最大误差值,表明所有信任值的计算结果趋于稳定,接近 真实值。
(3)内容编辑智能审核
内容编辑智能审核的流程见5。内容编辑的可信度通过语义相似度和用户信任度两个指 标进行加权求和得出,公式可以表示为:CT=W1×SS+W2×UT,SS表示资源语义基因 与新添加内容文本特征项集的语义相似度,UT表示用户的信任度,W1为语义相似度所占 权重,W2为用户信任度所占权重,其中W1+W2=1,CT∈[0,1]。如果CT大于或等于AT, 则此次内容编辑将被系统自动审核通过;否则,将被系统自动拒绝。
其中AT为预设的内容编辑可接受阈值。AT可以根据实际应用效果进行调整。AT可用 于调控内容编辑智能审核的严厉程度,AT越高,用户进行的内容编辑越不容易被自动接受; AT越低,用户进行的内容编辑将越不容易被自动拒绝。
机译: 一种跨虚拟社区共享声誉知识的方法
机译: 一种跨虚拟社区共享声誉知识的方法
机译: 一种在智能网络中审核呼叫处理的方法以及根据该方法发送和接收呼叫处理信息的方法