首页> 中国专利> 一种自动检测学术不端文献的方法及系统

一种自动检测学术不端文献的方法及系统

摘要

本发明公开了一种自动检测学术不端文献的方法及系统,所述方法将待检测文献的层级内容及文献内表格数据创建特征;对所存有的文献层级内容及文献内的表格数据创建特征;将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。所述系统包括待检测文献特征区、待检测文献比对资源区、分层内容特征匹配区及不端学术文献及类型判定区。本发明通过分层多阶特征结构,不仅可以对超长文献进行快速检测,而且,也满足了文献最小特征粒度短句的检测,提高了检准率和检全率;而且该发明还支持文献内表格数据特征的创建及匹配全部文献的一次性匹配。

著录项

  • 公开/公告号CN101833579A

    专利类型发明专利

  • 公开/公告日2010-09-15

    原文格式PDF

  • 申请/专利权人 同方知网(北京)技术有限公司;

    申请/专利号CN201010168294.0

  • 发明设计人 张振海;孙雄勇;

    申请日2010-05-11

  • 分类号G06F17/30(20060101);

  • 代理机构北京捷诚信通专利事务所;

  • 代理人魏殿绅

  • 地址 100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室

  • 入库时间 2023-12-18 00:52:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2012-09-05

    授权

    授权

  • 2010-11-03

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20100511

    实质审查的生效

  • 2010-09-15

    公开

    公开

说明书

技术领域

本发明涉及智能信息处理和计算机技术领域,尤其涉及一种自动检测学术不端文献及文献内表格数据的方法及系统。

背景技术

随着网络的快速发展和迅速普及,目前在互联网上发布的电子文本成为当前知识产权保护的一个重点。由于电子文本易于复制和下载,已成为许多人研究、引用的对象,一些电子文本被大版面的复制而被认为抄袭的案例时有发生。而目前网络上的电子文本保护措施主要通过阻止和检测法。

目前,也出现了电子文本内容剽窃的方法,如专利申请号为“200810232309.8一种检测及定位电子文本内容剽窃的方法”与专利申请号为“03134562.X一种利用计算机程序检测电子文本剽窃的方法”该现有专利主要是通过向计算机系统提交被检测文本,提取特征模块生成项序列,然后从项序列中依次取出每个项映射到已知项表上,生成疑似剽窃队列,获取剽窃证据表;最后计算文本的雷同度,判断被检测文本中是否含有剽窃的内容。上述检测过程只是单层特征的检测,不能针对文献内的表格创建特征;其匹配也不是一篇文献针对多篇文献同时进行匹配,只是一篇针对一篇,两篇文献之间的匹配(如图1所示)浪费了匹配的时间;而且对内容也只是检测抄袭的过程。

发明内容

为解决上述中存在的问题与缺陷,本发明提供了一种不仅支持一篇文献针对多篇文献间的一次性匹配,而且还可检测文献内表格数据、判断不端文献抄袭、篡改、一稿多投类型的自动检测学术不端文献的方法及系统。所述技术方案如下:

一种自动检测学术不端文献的方法,包括:

将待检测文献的层级内容及文献内表格数据创建特征;

对所存有的文献层级内容及文献内的表格数据创建特征;

将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;

判断待检测文献中是否含有学术不端内容、不端表格数据及不端内容的类型。

一种自动检测学术不端文献的系统,包括:

待检测文献特征区,用于对接收到的待检测文献的层级内容及文献内表格数据创建特征;

待检测文献比对资源区,用于对所存有的文献层级内容及文献内的表格数据创建特征;

分层特征匹配区,用于接收待检测文献特征区创建的文献的层级内容特征及文献内的表格数据特征,并将所述待检测文献的层级内容特征和文献内的表格数据特征与待测文献比对资源区所存有的文献的层级内容特征及文献内的表格特征进行匹配;

不端学术文献及类型判定区,用于判断待检测文献中是否含有学术不端内容、不端表格数据及不端学术内容的类型。

本发明提供的技术方案的有益效果是:

通过分层多阶特征结构,不仅可以对超长文献进行快速检测,而且,也满足了文献最小特征粒度短句的检测,提高了检准率和检全率;而且该发明还支持文献内表格数据特征的创建及匹配全部文献的一次性匹配。

附图说明

图1是现有技术文本内容匹配方法结构图;

图2是检测学术不端文献方法流程图;

图3是学术不端文献匹配方法结构图;

图4是文献多层特征生成方法结构图;

图5是文献内表格数据特征生成方法结构图;

图6是检测学术不端文献系统结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述:

实施例1

本实施例提供了一种自动检测学术不端文献的方法如图2所示,该方法包括:

步骤101将待检测文献的层级内容及文献内表格数据创建特征。

步骤102对所存有的文献层级内容及文献内的表格数据创建特征;

上述待检测文献与所存有的文献是指任意文献,对其文献进行分层处理,按照篇章、段落、句子等层级分别创建唯一特征。

步骤103将待检测文献的层级内容特征和待检测文献内的表格数据特征与所存有文献的层级内容特征及所存有文献内的表格特征进行匹配;

首先是进行篇章级别的特征匹配,如果整个篇章级别匹配成功,则不再对其段落级别进行匹配,如果整个篇章级别匹配不成功的话,则继续对其段落级别进行匹配。如果整个段落级别匹配成功,则不再对其句子级别进行匹配;如果整个段落匹配不成功的话,则继续对其句子级别进行匹配,总之,各层如果匹配成功,则不再进行该特征下更小粒度层的匹配。其对待测文献特征与所存有文献特征库的匹配方法如图3所示,待测文献多层特征库中的特征所存有全部文献特征库集成倒排索引中的特征ID进行相匹配,如果匹配成功则判断出所述文献的ID、特征匹配的数量及特征原始文本的长度。

步骤104判定学术不端文献及类型;

不端文献的类型为抄袭与剽窃、或者篡改、或者一稿多投等学术不端文献类型。

如图4所示,为全文特征、章节特征、段落特征及句子特征的生成方法结构图,其中全文特征提取方法、章节特征提取方法是利用关键词词典对全文分词(对表征文献主题内容具有实质意义的词),只保留关键词词典中的词,全部词排序并统计词频,照词频比例排序,得到词序列表,依据该列表生成全文级别的一个特征,或按照词拼写排序得到一个词序列表,依据该列表生成全文级别的一个特征。段落特征生成方法,利用单元词词典对段落分词,(从文献内容中抽出的最基本的、字面上不能再分的词。如“经济、美国、鲁迅”等无定语的词都是单元词,单元词不包括虚词、介词、连词、助词等无实质表征的词汇)只保留单元词词典中的词,并统计频率,按照词频比例排序,依据该列表生成段落级别的一个特征。句子特征生成方法,利用单元词词典对句子分词,(从文献内容中抽出的最基本的、字面上不能再分的代表实质意义的词。如“经济、美国、鲁迅”等无定语的词都是单元词。单元词不包括虚词、介词、连词、助词等无实质表征的词汇)只保留单元词词典中的词,利用同义词词典更新该列表中词,例如“电脑”一词全部替换为“计算机”“ontology”全部替换为“本体”,针对替换之后的列表按照词形排序。依据排序好的列表生成句子级别的一个特征。

如图5所示,文献内表格数据生成方法结构图,首先是根据文献表格内容提取表格的属性信息,特征库根据表格内容中的标题信息、行数据信息、列数据信息、多行组合信息及多列组合信息来提取表格特征的特征。在提取时,其全部表格内容作为文字处理,数字如果有小数点则循环乘10至转化为整数为止。根据表格列数、行数及列数的多少分别组合多行、多列表格,参见表1和表2。

             表1

行数  组合粒度<9行  不组合,单行为一个特征单位>8行<20行  2行组合为一个特征单位>19行  3行组合为一个特征单位

           表2

列数  组合粒度<9列  不组合,单列为一个特征单位>8列<20列  2列组合为一个特征单位>19列  3列组合为一个特征单位

上述检测学术不端的方法适用于任何语言文献,在检测其它语言特征库时,其特征库的生成方法过程与所用词词典内容有所区别。

实施例2

如图6所示,为检测学术不端文献系统结构图,包括待检测文献特征区、待测文献比对资源区、分层特征匹配区及不端学术文献及类型判定区,其中待测文献特征区,对接收到的待检测文献的层级内容及文献内表格数据创建特征;待测文献比对资源区,用于对所存有的文献层级内容及文献内的表格数据创建特征;要检测的文献来源可以是用户自由指定,实时生成文献多层内容特征加入到文献特征库中;待测文献比对资源区的文献可以是中国学术文献网络出版总库中的文献,也可以来源用户自由指定的文献。分层特征匹配区,用于接收待检测文献特征区创建的文献的层级内容特征及文献内的表格数据特征,并将所述待检测文献的层级内容特征和文献内的表格数据特征与待测文献比对资源区所存有的文献的层级内容特征及文献内的表格特征进行匹配;不端学术文献及类型判定区,用于判断待检测文献中是否含有学术不端内容、不端表格数据及不端学术内容的类型。

所述待检测文献层级内容与所存有文献层级内容创建的特征为唯一特征,其文献层级是按照文献篇幅、段落、句子进行划分,这种分层多阶特征结构,不仅可以满足对超长文献的快速检测,而且也满足了对文献的最小特征粒度的短句。上述文献内表格特征的生成方法是在特征库中通过提取表格的属性信息,即文献的标题信息、行数据信息、列数据信息、多行组合信息及多列组合信息进行提取表格特征。

上述不端学术文献及类型判定区的判断是根据待检测文献与所存有文献中的相似阈值、文献时间属性及文献作者属性,其不端内容的类型包括抄袭与剽窃、篡改及一稿多投。

当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,本领域技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号