首页> 中国专利> 供作者和出版者验证参考文献的方法和系统

供作者和出版者验证参考文献的方法和系统

摘要

本发明涉及在以结构化格式制备文档时用于作者(例如研究者、科学家、以及学术作者)和出版者(例如杂志和专业及技术协会)的加强工作流程解决方案以便促进在论文和其他提交物中所引用的或包括的参考文献的高效和准确验证以供出版或供审查。作者使用格式化结构来制备包含一组引用参考文献的文档。一种系统包括处理器,该处理器处理文档以提取与该组引用参考文献相关的嵌入的元数据。所述处理器执行与参考文献验证软件模块相关的代码并自动地识别格式化结构和嵌入的元数据。所述处理器自动地提取嵌入的元数据并对照权威数据库来比较所提取的元数据以确定该组引用参考文献的有效性。

著录项

  • 公开/公告号CN101952802A

    专利类型发明专利

  • 公开/公告日2011-01-19

    原文格式PDF

  • 申请/专利权人 汤姆森路透社全球资源公司;

    申请/专利号CN200880103918.1

  • 发明设计人 J·E·罗林斯;N·J·默里特;

    申请日2008-06-23

  • 分类号G06F9/44(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人马永利;王忠忠

  • 地址 瑞士巴尔

  • 入库时间 2023-12-18 01:39:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-05-31

    专利权的转移 IPC(主分类):G06F9/44 登记生效日:20170509 变更前: 变更后: 申请日:20080623

    专利申请权、专利权的转移

  • 2014-04-02

    授权

    授权

  • 2011-03-16

    实质审查的生效 IPC(主分类):G06F9/44 申请日:20080623

    实质审查的生效

  • 2011-01-19

    公开

    公开

说明书

技术领域

本发明的领域一般而言涉及信息科学和情报计量学(或信息计量学),更具体而言涉及文献计量学和科学计量学以及验证包括在原作者的作品中的参考文献信息的领域。

背景技术

随着印刷机、排版、打字机、以及计算机实施的字处理和存储的出现,人类所产生的信息量已显著上升并且步伐不断加快。结果,持续地并且日益地需要准确地收集并存储、标识、跟踪、分类和编目录这种不断增加的海量信息以用于检索和分发。

在学术和科学研究以及撰写复杂的过程和惯例以用于将研究整理成文档的领域中,已出现支持材料和组织领域的研究,其被称为“文献目录引用”。此类科学著作尤其包括书籍、在杂志中发表的文章、杂志或其他期刊、手稿、以及例如在会议录和学报出版物中由协会、行业和专业组织提供、提交和出版的论文。为了促进在学术著作中出版的信息的广泛分发以便更高效且有效地推进研究主体,学者和科学家使用文献目录引用来识别其他人、乃至他们自己先前的作品,在其著作中所阐述的进步基于此。包括在任何特定作品或作品主体中的“引用”或“引用参考文献”在本文中被用来泛指所引用的参考文献、文献目录或其他参考文献数据,其共同形成文本内引用、脚注、尾注、以及文献目录,并且被用来标识作者所依赖的或考虑的信息源以及为读者提供确认内容的准确性和进一步研究的方向的方法。“文献目录”可以指作者、出版者或给定学科专用的著作的完整的或选择性的列表或汇编中的任何一种,或者其可以指作者在制备诸如论文、文章、书籍或其他信息对象之类的特定作品时所依赖的或考虑的著作的列表或汇编。

引用简要地描述每个引用的著作并将其标识为信息源或对权威(authority)的参考。引用和文献目录遵循特定的格式化惯例以加强解释信息时的一致性。每个引用通常包括以下信息:完整标题、(一个或多个)作者姓名、出版数据(包括出版者身份、卷、版本和其他数据)、以及出版的日期和地点。在给定与每个引用相关的格式化要求和许多字段的情况下,并且如果在给定论文中存在几十个以及在某些情况下为几百个引用,则出现误拼和排字错误的可能性在出版和研究过程中造成相当大的问题。也许除了与给定论文相关的标题之外,大部分字段固有地是模糊的。例如,在出现错误的情况下,甚至给定参考文献的卷、页和日期字段或数据也不是特别有帮助。与其中来自一串单词的一个单词中的一个字母遗漏或误拼仍留下可用信息的标题信息相反,遗漏或错误的日期或卷符号使得数据的其余部分在很大程度上无用或至少不可靠。而且,作者姓名通常大部分是缩写的形式,例如是首字母而不是完整的名或中名(例如J.Smith),或者自然地遭遇与其他作者的共同性,例如具有共同的名或姓或者二者均相同,例如John Smith。这导致关于作者的实际身份的潜在模糊性。已进行了许多尝试来消除作者和其他引用信息的歧义。在2007年5月2日提交的题为Method and System forDisambiguating Information Objects的美国顺序号No.11/799,786中公开了用于消除信息的歧义的系统和方法,该专利申请为本申请的受让人所拥有并通过引用被结合到本文中。

为了支持科学和研究数据库的追踪,已经使用并开发了数据库管理工具、引用管理和分析工具、研究著作工具、以及其他强大的工具和资源以供学者、研究者以及科学家有益地使用。用户可以在联机环境中、通过因特网或某一其他计算机网络而获得这些工具和资源,并且这些工具和资源可以采取客户端-服务器架构、中央和/或本地数据库、应用服务提供商(ASP)、或用于有效地传送和访问电子数据库和软件工具的其他环境的形式。此类工具和资源的实例是Thomson Scientific的Web ofScienceTM(WoS)、Web of KnowledgeTM(WoK)、以及发布包括EndNoteTM、EndNoteWebTM、ProCiteTM、Reference ManagerTM、以及RefVizTM的解决方案以及诸如Scholar One的Manuscript CentralTM的解决方案的ResearchSoftTM套装。出版过程中的长期问题是在创作期间在论文中准确地输入引用信息和在出版之前人工检验引用的准确性的耗时且乏味的过程。诸如不完整信息和不正确信息(例如误拼和排字错误)之类的小的但关键的错误导致作者和出版者失去可信性,并导致读者浪费搜索在文档中不正确地引用的参考材料的努力。

用来帮助增建数据库并确认数据库信息的技术包括对电子文档执行的诸如对来自句子或单词结构的数据的解析之类的提取和分类以便从论文和引用中提取信息以进行进一步处理。

本文所使用的“著作”、“手稿”、以及“论文”应是指“硬”文档和“软”电子文档二者,并且应可互换地使用以及被给予最广泛的共同含义。原作者的此类作品现在完全地或部分地以电子方式被创作、编辑、维护、存档、编目录和研究。因特网以及其他网络和内联网促进此类信息的电子分发和访问。数据库、数据库管理系统和搜索语言、特别是诸如DB2以及由IBM、Oracle、Sybase、Microsoft和其他公司开发的其他关系数据库之类的关系数据库的出现,已提供了强大的研究和开发工具和环境,其中所有科学和科学研究领域进一步前进。存在已创建了诸如WoS和WoK之类的被专门设计成帮助组织和利用巨大知识阵列的电子数据库和相关服务的公司和机构。

数千论文和手稿每天被作者提交给审阅者和出版者,并且许多提交包括形式错误的参考文献。为了捕捉并修正这些错误,到出版的当前路径通常包括由样式和内容准确性检查组成的人工参考文献验证步骤。可以由多种角色、最常见的是由文字编辑或制作编辑、而且可能由排字工人(typesetter)来执行验证任务。在论文和手稿一般包含几十个(或几百个)引用参考文献的情况下,验证过程是乏味且耗时的,并且向出版过程增加显著的成本,其已被估计占出版者的修正和格式化工作量的高达60%。

近期发展已提供了在手稿创作、提交、批准、校对、以及制作过程的背景内开发参考文献验证工具的重要机会。在本文中可以称为权威数据库的许多参考文献数据库已变得可经由web服务连接获得。现在有可能高效地将参考文献列表从手稿或电子文档中拉或提取到XML中。而且,在论文创作和提交过程中使用的过程可以扩展至出版过程的制作阶段以提供免费赠送的(complimentary)、协调的且高效的整体过程。

需要稳健且准确的参考文献标记和验证工具来有效地降低与在出版之前验证参考文献相关的成本和负担。

针对“验证、XML、学术元数据等”的现有努力和系统包括以下各项。XML验证,其目前应用于文档中的XML标签和模式的验证,并且不验证相关数据。学术元数据和链接指的是例如特定学术作品的数字对象标识符(DOI)或唯一数字标识符(例如URL)的创建。DOI可以被用来标识数字环境中的内容对象。通过数字网络运行的实体被赋予DOI“名称”,并且具有与之相关的“当前”信息,包括地址信息。名称信息不变,但是诸如地址之类的其他信息可以随时间而变。DOI系统提供用于管理以下各项的框架:标识、内容;元数据、链接、以及媒体。

发明内容

本发明提供在验证在论文及其他提交物中所引用或包括的参考文献以供出版或审查时用于作者(例如研究者、科学家、以及学术作者)和出版者(例如杂志和专业及技术协会)的加强的工作流程解决方案。本发明加快出版或销售论文、杂志、会议摘要、以及会议录的时间,并在该过程中给予显著的生产力提高。本发明使用户能够在全世界例如经由因特网来远程地访问研究及其他生产力解决方案。本发明利用帮助用户变得消息更为灵通并作出更好的决定以及更高效地做这两件事的软件工具和应用程序来提供增值信息。虽然在本文中可以在科学研究的背景下描述本发明,但是本发明还适用于其他应用和环境,包括在法律、税收、会计、高等教育、参考文献信息、公司电子化学习和评估、金融服务、以及保健领域帮助用户。

在一个实施例中,本发明提供一种研究和创作生产力软件以供结合感兴趣的数据库一起使用的集成的或能够集成的系统,例如WoS、WoK、CrossRef、以及PubMed。例如,Thomson Scientific的应用程序EndNote、EndNote WebTM、ProCite、Reference Manager、RefVizTM、AbstractCentralTM、Proceedings CentralTM、以及Manuscript CentralTM是可以用来提供创作、撰写、出版、提交、以及管理文献目录、论文、出版物、及其他学术研究的全面解决方案的市售系统。包括在此解决方案系统中的许多功能可以自动化。本发明可以与此类解决方案中的一个或多个或组合一起使用。Manuscript Central为学术出版者提供基于web的、数据库驱动的同级审查和在线提交解决方案。Manuscript Central使得向杂志的手稿提交自动化并且允许有容易的管理、编辑和审查能力。

EndNote、ProCite和Reference Manager是桌面应用程序,但还可以是基于浏览器的应用程序,用来发行和管理文献目录。利用这些产品,诸如写论文的学生、发表研究的专业人员之类的用户例如可以执行以下操作:搜索因特网数据库以建立个人参考文献库;从在线和CD-ROM数据库和库目录导入参考文献;针对几百个学术出版物自动地对文献目录进行格式化;使用具有MicrosoftWord的Cite While YouWriteTM特征来在参考文献被引用时立即创建文献目录。EndNote Web是用于管理和引用论文中的参考文献并创建文献目录的基于Web的工具。与EndNote桌面和ISI Web of Knowledge(SM)研究平台无缝地集成,EndNote Web为现有的EndNote用户提供在线协同环境,并为需要基本文献目录解决方案的大学生提供入场许可。RefVizTM提供文本分析和可视化工具,并与EndNote、ProCite和Reference Manager一起无缝地工作以提供针对主题和话题在视觉上探究参考文献库的强大方式。RefViz允许用户快速地评估大量的参考文献,从而加快研究过程。

在一个实施例中,本发明自动地验证所引用的参考文献。如为了描述本发明所使用的那样,验证参考文献不是仅仅意味着检查引用格式,而是意味着验证引用参考文献实际上存在并且如所引用的那样出版。不同之处在于,参考文献可以采取适当的格式,但还可以不涉及现有出版物。本发明的目的是确认提交数据的准确性。重要的是确认在所提交的论文中标识的参考文献存在,因此读者可以使用引用参考文献来获得参考文献材料的拷贝,以检验该参考文献是否代表在引用论文中所表示的命题并且使用该参考文献来促进进一步的研究。本发明的验证过程是确认引用参考文献实际上存在。验证意味着确认在引用参考文献中出现的标题、作者、引用及其他数据是准确的,不是仅仅确认其采取适当的格式。以这种方式,可以发现简单的错误、完全不正确的引用、以及欺诈性陈述,并对其采取行动。

在对提交的论文或提取的参考文献列表运行验证过程之后,系统可以以多种方式中的任何一种对用户或在该过程中涉及的其他关系(例如同级审查委员会)进行响应。例如,系统可以给出检验指示,标识哪些参考文献已被或尚未被验证,描绘在引用参考文献或文档中看起来不正确的数据或字段,并建议密切匹配的参考文献数据作为错误数据的替代。系统还可以包括例如与引用参考文献相关的超链接以便将结果页面直接与实际的已确认参考文献或所建议的参考文献相链接。本发明不限于验证作者、引用、日期等,并且可以被用来验证在引用参考文献乃至论文中出现的任何特征,对于所述特征而言存在相应的权威数据库,对照该权威数据库,可以比较数据。例如,如果作者声称是协会(例如IEEE)的“会员”或“成员”,或声称是学校院系的成员或处于要职位置,例如则只要系统已访问用于该协会或院系的成员资格的数据的权威数据库,就可以提取来自论文或其他文档的信息,进行标记或其他操作,并且可以对照经验证的数据库和数据进行比较。另外,这些过程可以被用来验证该论文先前尚未被出版。作为该过程的一部分,用户可以从对照其执行验证过程的数据库的列表中进行选择,或者系统可以默认为一个或多个数据库的预定义集合。供与本发明一起使用的示例性数据库包括:公共参考文献数据库,例如CrossRef以及PubMed;商业数据库,例如Web of Science(WoS)、Web of Knowledge(WoK)和BIOSYS;以及私人拥有的专门数据库。

在一个实施例中,本发明提供用于制备供出版的文档的基于计算机的方法。该方法包括接收预先由作者使用格式化结构制备的电子文档,该电子文档包括一组引用参考文献,并且具有根据格式化结构嵌入的与该组引用参考文献相关的元数据。该方法还包括对电子文档执行参考文献验证过程,所述参考文献验证过程适于识别所述格式化结构和嵌入的元数据,并且还适于提取嵌入的元数据并对照一组至少一个权威数据库来比较所提取的元数据以确定该组引用参考文献的有效性。另外,本发明的本实施例可以包括生成包括表示有效性确定的数据的输出。该输出还可以包括生成表示修订无效引用参考文献数据的选项的数据,并且可以包括向作者和出版者之一或二者呈现该输出以便修订至少一个无效引用参考文献数据并生成经修订的数据组。该方法还可以包括对经修订的数据组执行参考文献验证过程以便进行进一步的验证。

在本实施例中,所述输出可以包括关于至少一个有效引用参考文献和至少一个无效引用参考文献之一或二者的数据,并且包括以下各项中的至少一项:错误数据;建议的修正数据;以及关于与来自该组引用参考文献的数据密切匹配的已确认引用的数据。所述电子文档可以被出版者接收,其促使在该电子文档的出版之前对电子文档执行参考文献验证过程。该方法还可以包括解析来自该组引用参考文献的数据并将经解析数据与来自该组至少一个权威数据库的数据相比较以确定经解析数据的有效性。在该方法中,该组至少一个权威数据库可以包括以下数据库中的至少一个:ISI Web of Science、ISI Web of Knowledge、NationalLibrary of Medicine PubMed、CrossRef、BIOSIS、Dialog、library OPACS、Medline、ProQuest、Ovid、Ebsco、以及WilsonWeb。而且,可以从作者接收电子文档,并执行该方法以便在将电子文档提交给出版实体之前验证包含在电子文档中的该组引用参考文献。该方法还可以包括:根据格式化结构来创建电子文档,包括在电子文档中插入嵌入的元数据。在此方法中,所述电子文档可以包括与引用信息相关的格式化数据元素,所述引用信息与该组引用参考文献相关,该方法还可以包括基于所述格式化结构来解析格式化数据元素以产生经解析数据,并将经解析数据与来自该组至少一个权威数据库的数据相比较以确定经解析数据的有效性。在此方法中,所述格式化结构可以是基于XML、GML以及SGML之一的标记过程。该方法还可以包括通过至少一个计算机网络来建立与该组至少一个权威数据库的通信链路。在此方法中,该组引用参考文献可以包括引用数据、作者数据、出版源数据、地址数据、卷数据、ISSN、卷、期、页、DOI、URL、以及出版日期数据中的一个或多个。该方法还可以包括:根据该组引用参考文献来确定一组至少一个无效数据;修订该组至少一个无效数据的至少一部分以形成一组经修订数据;以及对照该组至少一个权威数据库来自动地比较该组经修订数据以确定该组经修订数据的有效性。该方法还可以包括:根据该组引用参考文献来确定一组至少一个无效数据;向用户呈现该组至少一个无效数据;从用户接收一组经修订数据;以及对照该组至少一个权威数据库来自动地比较该组经修订数据以确定该组经修订数据的有效性。

在另一实施例中,本发明提供一种用于制备供出版的电子文档的系统。该系统包括:处理器,该处理器适于处理包含一组至少一个引用参考文献的至少一个电子文档,所述电子文档预先由作者使用格式化结构制备,并且具有根据格式化结构嵌入的与该组至少一个引用参考文献相关的元数据;以及参考文献验证软件模块,其包括代码,该代码由所述处理器执行,以及适于自动地识别所述格式化结构和嵌入的元数据,并且还适于自动地提取嵌入的元数据并对照一组至少一个权威数据库来比较所提取的元数据以确定该组至少一个引用参考文献的有效性。在该系统中,该组至少一个权威数据库可以包括以下数据库中的至少一个:ISI Web of Science、ISI Web of Knowledge、National Library of MedicinePubMed、CrossRef、BIOSIS、Dialog、library OPACS、Medline、ProQuest、Ovid、Ebsco、WilsonWeb、以及杂志配置的外部数据库。在该系统中,所述参考文献验证软件模块还可以适于根据该组至少一个引用参考文献来确定一组至少一个无效数据的存在,处理一组经修订数据;以及对照该组至少一个权威数据库来自动地比较该组经修订数据以确定该组经修订数据的有效性。在该系统中,可以向用户呈现该组至少一个无效数据,用户可以修订该组至少一个无效数据的至少一部分以形成该组经修订数据。在该系统中,所述格式化结构基于XML、GML以及SGML之一。

该系统还可以包括输出软件模块,该输出软件模块包括代码,该代码在处理器上执行,并且适于自动地生成关于该组至少一个引用参考文献的有效性的输出。在该系统中,所述输出可以包括关于至少一个有效引用参考文献和至少一个无效引用参考文献之一或二者的数据。在该系统中,所述输出可以包括表示该组至少一个引用参考文献与有效参考文献数据之间的匹配或未能匹配之一或二者的数据。在该系统中,所述参考文献验证软件模块还可以包括代码,该代码由处理器执行,并且适于自动地确定该组至少一个引用参考文献中的每一个与有效参考文献数据之间的相似性,以及其中,所述输出包括关于该组至少一个引用参考文献与有效参考文献数据之间的至少一个可能匹配的数据。在该系统中,所述输出可以指示该组至少一个引用参考文献中的具有与有效参考文献数据的一个或多个可能匹配的那些参考文献,并呈现可能的匹配以供用户选择。在该系统中,可以将所述输出呈现给用户以便采取行动,并且用户提供关于该组至少一个引用参考文献的验证的至少一个响应。在该系统中,所述至少一个用户响应可以包括检验、否认、或关于所述至少一个可能匹配的选择中的至少一个。

所述系统还可以包括:作者计算机,其适于根据格式化结构来对电子文档进行结构化;以及中央计算机,其包括处理器并且适于接收电子文档。在该系统中,所述中央计算机还可以包括解析器,该解析器适于解析包含在电子文档中的与该组至少一个引用参考文献相关的数据以产生经解析的引用参考文献数据,以及其中,所述参考文献验证软件模块使用经解析的引用参考文献数据来对照该组至少一个权威数据库来比较该组至少一个引用参考文献。在该系统中,所述作者计算机和所述中央计算机中的至少一个可以适于使用结构化格式语言来处理电子文档。在该系统中,所述参考文献验证软件模块可以适于将元数据提取到XML中。在该系统中,该组至少一个权威数据库可以包括至少一个杂志配置的外部数据库。在该系统中,所述参考文献验证软件模块还可以适于向用户呈现关于有效性确定的数据并从用户接收与该组至少一个引用参考文献相关的检验数据。在该系统中,所述与有效性确定有关的数据可以包括表示包含在该组至少一个权威数据库中的并且与该组至少一个引用参考文献的至少一部分具有高度相似性的经认证参考文献的数据。在该系统中,所述检验数据可以被用来修订电子文档。

附图说明

为了促进对本发明的全面理解,现在对附图进行参考,在附图中用相同的数字来参考相同的元素。这些图不应被解释为限制本发明,而打算是示例性的并且用于参考。

图1是说明用于使用本发明来对引用参考文献进行标记、提取、以及验证的第一示例性系统的示意图。

图2是进一步说明本发明的参考文献提取和验证技术的示意图。

图3是说明本发明的参考文献提取和验证技术的示意图。

图4是进一步说明本发明的参考文献提取和验证链接技术的逻辑流程图。

图5是利用了本发明的参考文献提取和验证技术的创作、提交、以及验证系统的示意图。

具体实施方式

现在将参照附图所示的示例性实施例来更详细地描述本发明。虽然在本文中参照示例性实施例来描述本发明,但是应当理解,本发明不限于此类示例性实施例。可以理解本文中的教导的本领域普通技术人员将认识到附加的实施方式、修改、和实施例、以及本发明使用的其他应用,其在本文中完全被视为在本文所公开和要求保护的本发明的范围内,并且相对于它们而言,本发明可以具有显著的实用性。

如本文所述,应将术语“项目”和术语“著作”、“手稿”、“论文”、以及“文章”理解为指的是硬的和软的文档、论文、著作、以及其他出版物,并且全部意味着每个固有地指的是其他术语,因为本发明打算涵盖所有种类的出版物、论文、著作、文章、信件、社论、书籍、章节、或其他种类的已出版论文或文档。例如在从项目中提取信息时捕获的信息的一部分是项目的引用参考文献的文献目录。此类文献目录中的项目可以被称为“参考文献项目”。一些参考文献项目可以是作为源项目被捕获的项目,但不一定如此。

参照图1,创作、提交、以及验证系统100包括字处理应用程序104,例如使用EndNote XML参考文献标记的EndNote,其用于制备结构化格式化文档。软件应用程序104被用来通过在向出版者提交之前对包含在文档中的数据进行识别和标记来对Microsoft Word文档102进行格式化。例如,可以使用(仅仅举例而非限制)基于GML、SGML或XML的过程来对文档进行标记或加标签。通过例如使用基于GML、SGML或XML的标记来对文档进行标记或加标签以创建结构化文档,可以更容易地从文档提取引用参考文献并将其包括在参考文献列表中以供验证。SGML即标准通用标记语言是用来以内容和结构表示文档的通用标记语言。SGML将诸如标题、段落、表格、以及章节之类的文档元素标识为不同的对象,并允许用户定义用于将文档中的数据结构化的对象之间的以文档类型定义(DTD)所定义的关系。可以将SGML与SQL(用于创建、更新和查询关系数据库管理系统的标准语言)相比较,因为SGML文档元素和结构类似于数据库中的字段定义集合。SGML使用户能够以开放的形式将文档中的信息结构化以允许跨越多个平台通过任何SGML“感知”应用程序进行访问和重新使用。一旦被转换成SGML,则文档具有标记信息并且变成可以被SGML“感知”应用程序以开放的形式来搜索、打印和处理的类似数据库的文档。可扩展标记语言(XML)即SGML的简化语言是用于表示文档的标记语言,并且适于在万维网(WWW)上使用。XML提供文档的内容和嵌入式结构之间的关系,并且提供跨越应用程序和平台共享基于文档的信息的方式。结构化信息可以具有多个组件,例如字、以及图片,并且包括关于内容表示什么的指示,例如标题、小节标题、脚注、尾注、参考文献、题注、以及数据库表)。

根据本发明,可以使用应用程序104功能根据特定的文献目录样式对结构化文档进行格式化。例如,可以调用EndNote工具条以便调用MS Word隐藏代码字段的API(应用程序编程接口)。结构化Word文档106可以被加载或上传到与数据库110通信的工作流系统108中,例如Manuscript Central。系统108包括用于将结构化文档106识别为被以特定方式格式化的软件112,例如EndNote,然后其可以使用用于使用诸如EndNote XML参考文献之类的参考文献XML来解析数据的装置拉出或提取包含在文档106中的参考文献。例如,可以从文档解析所引用的参考文献并将其包括在参考文献列表中以供验证。系统108优选地能够识别多种格式并提取以多种格式结构化的参考文献。对于未被结构化的那些文档,在验证过程之前,可以将人工操作或软件辅助的操作应用于文档以标识并提取所引用的参考文献或部分文本。一旦参考文献数据被提取或以其他方式被置于供比较的条件下,则建立一个或多个数据库链接116以对照包含在诸如WoS之类的一个或多个外部数据库114中的有效参考文献数据来比较所提取的参考文献数据。数据库114充当包含经检验且可靠的参考文献数据的权威数据库。不是建立到外部权威数据库的链接,而是在工作流系统108的本地可以存在可靠的数据库,例如数据库110。

系统100可以应用自动化过程来从结构化的且具有标识引用参考文献的元数据标记的文档中解析出将被验证的数据。在“提取”过程中,解析器优选地识别或访问例如EndNote reference XML等用来通过应用程序104对文档进行编码或格式化的一个或多个格式化语法,并且能够标识文档中的与引用参考文献相关的那些字段或其他感兴趣字段。系统100可以包括“解析”选项以选择适于文档源或格式化源的解析器或解析器设置。而且,杂志或其他出版者可以要求提交作者提交使用特定的参考文献管理标记策略来预先格式化的论文。

现在参照图2,可以在提交之前通过作者验证202执行总体标记为200的验证过程和/或可以在提交之后通过出版者/编辑验证204执行验证过程。在作者验证过程202中,由作者在手稿提交210之前执行初始审查和验证。作者验证202后面可以是提交后由制作编辑或与出版者相关的其他参与者执行的二次审查和验证。在编辑验证过程204中,由制作或文字编辑来审查并验证提交的文档。理想的是,杂志及其他出版者将偏好作者在提交之前执行初始验证作为对手稿的引用参考文献的基本验证。然而,在提交阶段与将引用参考文献解析成XML相关的成本和困难可能妨碍作者承担这一额外负担。另外,出版者可能期望保持使用排字工人来标记参考文献的习惯。然而,随着更有效的作者工具变得广泛可用且被使用,并且随着创建、提交和验证过程变得更加集成和/或开放,自动验证必须提供的许多益处很可能超过先前的实践并取而代之。

参照图2,以下主要组件包括作者验证系统202。可以使用例如EndNote的参考文献管理模块或服务208来在提交206之前产生具有经标记参考文献的结构化文档。可替换地,可以使用第三方XML制作软件和服务来使标记过程自动化。基于所使用的XML制作软件和标记格式的提取在提交前发生以允许作者验证。在文章提交方框210处,可以以两种方式中的任何一种来处理结构化的或未结构化的文档。可以在方框218处将该文档直接传递以供同级审查和判定,并随后在方框220处将其提交给出版者而不进行提交前作者验证。可替换地,对于作者进行的自我验证,可以通过XML数据提取方框212来处理文档。可以使用多种不同的方法来提取所引用的参考文献数据,包括用于使用EndNote过程格式化的文档的EndNotereference XML。而且,软件模块可以处理文档以标识参考文献并将其提取到XML中。在一种方式中,将所提取的参考文献数据汇编成参考文献列表。参考文献列表可以被保持在详细且标准化的XML中。使参考文献列表进入XML可以取决于用来产生结构化文档的标记语言。以下的表1和表2描绘来自使用EndNoteReference XML标记的文档的摘录。表1示出没有标记的摘录文本,而表2示出具有标记的相同摘录文本。

表1

表2

优选地,XML提取方框212被配置为识别并处理以多种格式标记的文档,以及适应来自多种参考文献管理软件或XML制作软件的文档。以这种方式,系统200促进大范围的客户需要,并且不要求客户放弃其工作流的元素。在对数据库进行参考文献搜索的方框214处对照权威数据库来比较从方框212输出的经提取的参考文献数据,其可以包括对一个或多个权威数据库的在线访问,然后,经由作者参考文献验证方框216来向作者/用户呈现比较的验证结果。然后,作者/用户可以基于结果采取行动,包括将论文与结果一起提交给出版者。一个目标是使得在出版行业内认可该验证过程,以便有利的验证报告将相当于出版者所广泛接受的“批准章”,从而赋予结果高水平的可靠性,并且出版者不需要附加的人工或自动验证。

验证结果可以包括被验证为具有对应于引用参考文献数据的实际论文的正确参考文献的确认。系统可以给出检验指示,标识哪些参考文献已被或未被验证,描绘在引用参考文献或文档中看起来不正确的数据或字段,并建议密切匹配的参考文献数据作为错误数据的替代或修正。该系统还可以包括例如与引用参考文献相关的超链接以便将结果页面直接与实际确认的参考文献或建议的参考文献链接。系统还可以赋予作者修订、编辑、或修正引用参考文献数据并重新提交以供进一步验证的能力。本发明不限于验证作者、引用、日期等,并且可以被用来验证在引用参考文献乃至论文中出现的任何特征,对于所述特征而言存在相应的权威数据库,对照该权威数据库,可以比较数据。例如,如果作者声称是协会(例如IEEE)的“会员”或“成员”,或声称是学校院系的成员或处于要职位置,例如则只要系统200已访问用于该协会或院系的成员资格的数据的权威数据库,就可以提取来自论文或其他文档的信息,进行标记或其他操作,并且可以对照经验证的数据库和数据进行比较。另外,这些过程可以被用来验证该论文先前未被出版。作为该过程的一部分,用户可以从对照其将执行验证过程的数据库列表中进行选择,或者系统可以默认为一个或多个数据库的预定义集合。供本发明一起使用的示例性数据库包括:公共参考文献数据库,例如CrossRef、以及National Library of Medicine(NLM)PubMed;商业数据库,例如ISIWeb of Science(WoS)、ISI Web of Knowledge(WoK)和BIOSIS;以及私人拥有的专门及其他数据库,包括Dialog、library Online PublicAccess Catalogues(OPAC)、Medline、ProQuest、Ovid、Ebsco、以及WilsonWeb和类似参考文献数据库。

如果文档未经作者自我验证并且仅仅经由制作方框220被传递给出版者以供编辑验证204,则出版者可以验证包含在提交的文档中的引用参考文献。XML数据提取方框222基本上与先前在作者验证过程202中描述的相应方框212一样工作。除先前所讨论的EndNote参考文献管理软件和第三方软件之外,出版者还常常使用排字工人来提取参考文献数据。此选项反映在方框222中。如先前针对方框214描述的那样,在对数据库进行参考文献搜索的方框224处对照权威数据库比较来自方框222的经提取的参考文献数据,然后经由编辑参考文献验证方框226向编辑/用户呈现比较的验证结果。可替换地,可以将论文连同参考文献列表一起提交,或者可以将论文与列表分开提交,并且可以处理列表以进行验证。除以上比较结果和行动的描述之外,出版者/编辑可以将一些或全部结果发送回给作者或另一个以便追踪,例如修正或进一步检验。

优选地,用于验证的参考文献数据库是本地的或者可经由因特网或其他通信网络获得以允许作者验证202和编辑验证204过程对其进行搜索。业务量要求很可能是重要的,因为例如每篇文章使用的平均60~80个参考文献乘以每天1800篇文章得到每天约100,000至150,000个请求。用户界面(UI)支持审查参考文献匹配并指示哪些匹配正确和哪些匹配不正确的验证任务。UI的两个示例性版本是作者UI和编辑UI。作为作者提交前过程206的一部分,参考文献管理过程208、或作者验证过程202或作为编辑验证过程204的一部分,可以插入或验证元数据、标记或链接(例如DOI(数字对象标识符)或URL)以提供或确认嵌入最终论文或文献目录中的跨出版者/数据库链接。与验证过程相关的其他元素包括搜索逻辑以供从数据库进行参考文献检索。

现在参照图3,示出了提交和验证过程300的另一描绘,其中,方框302表示被输入到方框304并在方框304处处理的出版前“原始”参考文献列表,在方框304中,参考文献被提取到XML。在参考文献列表被提取到XML之后,在方框306处对照诸如WoS、WoK、PubMed、OPAC、以及CrossRef之类的一个或多个权威数据库来比较参考文献。接下来,如在方框308处表示的那样呈现参考文献比较的结果以进行进一步验证。在作者/编辑进行最终验证之后,在方框310处将XML中经验证的参考文献或参考文献列表包括在文章/手稿元数据中。此时,文档准备好提交给出版者(如果经作者验证的话)或准备好出版(如果经编辑验证的话)。

相对于方框304,可以根据一个或多个参考文献管理模块、结构化格式、或所利用的服务将参考文献或参考文献列表提取到XML。例如,使用EndNote制备的论文和参考文献列表将依赖于EndNote数据提取312。可替换地,可以将第三方XML制作软件和服务用于XML标记314。从出版者的观点来看,如在方框316处表示的那样,可以使用第三方排字工人来将引用参考文献数据转换成XML结构化格式。

在对数据库进行参考文献搜索的方框306处对照一个或多个权威数据库比较来自方框304的经提取的参考文献数据。用于验证的参考文献数据库可以是本地的或者可经由因特网或其他通信网络获得并且如本文在其他地方所描述的那样。供与本发明一起使用的示例性数据库包括:公共参考文献数据库318,例如CrossRef、以及PubMed;商业参考文献数据库320,例如Web of Science(WoS)、Web of Knowledge(WoK)、以及BIOSYS;以及私人拥有的专门参考文献数据库322。其他示例性数据库包括:Medline、ProQuest、Ovid、Ebsco、以及WilsonWeb。

相对于参考文献验证方框308,向作者/编辑/用户呈现比较方框306的验证结果以便进行检查和/或基于该结果采取行动。如上所述和通常已知的那样,使用用户界面作为作者验证工具324和/或编辑验证工具326的一部分。作者行动可以包括向出版者提交具有结果的论文。编辑行动可以包括批准论文出版或将结果返回给作者以供修正或解释。行动还可以包括被验证为具有对应于引用参考文献数据的实际出版论文的正确参考文献的确认。

在参考文献验证308之后,可以在方框310处将XML中的经验证参考文献或参考文献列表包括在文章/手稿元数据中。相对于作者验证,可以向出版者提交具有标记XML参考文献的文章/手稿以供出版者接受或进一步验证,例如用于出版者的质量保证。相对于编辑/出版者验证,具有标记参考文献的文章准备好批准和出版-至少相对于具有在论文中引用的经验证的一组参考文献。

参照图4,提供了双路流程图,其说明使用本发明的参考文献验证过程的一个示例性实施例。如所示,参考文献验证过程400可以由作者在402处发起,作者可以将例如使用EndNote结构化的手稿上传到中心服务,例如Manuscript Central,以供在提交给出版者之前进行参考文献验证。可替换地,出版者可以在提交之后在404处并在出版之前的制作阶段发起该过程。除针对执行参考文献验证的实体和论文源的402和404的初始步骤之外,其余步骤基本上对于两个路径均是相同的。根据作者是否已执行初始验证过程或以认可的结构化形式(例如EndNote)或在已提取条件下提交论文或参考文献列表,一些步骤可能对于编辑而言不是必需的。

在步骤406处,优选地基于已知且认可的格式结构将参考文献或参考文献列表从文档提取到XML。在步骤408处,对照诸如杂志配置的数据库之类的一组一个或多个外部数据库来验证每个提取的参考文献。在步骤410处,验证结果被呈现给作者和/或编辑,并且可以包括具有高度相似性匹配的参考文献(步骤412)和具有多个或低相似性匹配的参考文献(在步骤414处),将其呈现以供作者或编辑确认。在步骤416处,将作者检验/选择的结果传回到XML参考文献组。

参照图5,总体用附图标记500引用的内容管理系统(CMS)的一个示例性实施例包括“不同作者识别系统”(DAIS)502(也称为作者歧义消除系统)、信息源507(例如数据库510、512和514)、软件和处理器驱动的用户生产力套装518、多个远程用户或客户端524和各种通信链路。CMS使用户能够通过与项目相关的某些属性来搜索、识别并访问那些项目,例如论文及其他出版物。例如,典型的用户搜索常常是基于作者姓名,并且仅包括作者的姓以及可能包括名和中名的首字母。此缩写且非唯一的作者信息并不唯一地从包含在源或数据库中的众多作者姓名中识别作者。DAIS 502的目的是消除存储在源507中的记录的歧义以便尤其识别不同的作者;对其赋予作者标识符(ids);并用其作者ids对其作者身份进行标记以促进用户524进行的此类搜索。

在图5的本示例性实施例中,可用于搜索的源包括WoS数据库510、WoK数据库512和对感兴趣的其他数据库514的总体引用,该其他数据库514例如是OPAC、CrossRef、以及PubMed数据库以及本文提到的其他数据库。DAIS 502经由通信链路516与存储装置507通信,并捕获和使用所有或部分此类数据库的歧义消除过程实例。DAIS 502对照存储在此类数据库中的记录来应用DAIS规则和过程(总体用附图标记504引用)以得出准确的相关链路和链路集群以便适当地与作者实体相关联。

出于解释整个过程的目的并且不以限制本发明的方式,例如WoSDB 510是跨越大范围的数据年份的XML数据库,包括与之相关的科学论文和引用。DAIS 502所使用的WoS DB实例与WoS DB 510分开,其可以被WoS客户使用并且被保留以供独立且不变的研究、测试或各种特殊处理。在此数据库中存在两个主要单元记录。它们是<item>(sourceitem)和<ref>(reference item)。

一旦DAIS 502已对照且跨越来自源507的数据库实例应用其过程504,则其可以将消除歧义的记录和数据加载到此类数据库510、512、以及514上作为改善存储在此类数据库中的信息的完整性的方式并供用户随后使用。例如,诸如远程用户524和其他用户之类的用户可以在执行科学研究业务时和创作与那些努力相关的工作时调用生产力解决方案518,例如Thomson Scientific的ResearchSoft套装。这些生产力工具可以是基于桌面的、基于网络的或其组合,并且可以被涉及到创建手稿以供出版的过程中。例如,用户可以使用EndNote及其他生产力工具来使用可以例如通过对照源507进行比较而验证的XML参考文献来创建结构化文档。而且,此类生产力工具可以被诸如院系和大学行政部门之类的管理者在执行机构业务时(例如在对正处于任期的院系的工作进行审查时和在审查中,包括在审查中检查包含在由院系成员创作的论文中的引用参考文献的有效性)使用。研究者可以保留其自己的作品、在其作品中依赖和参考的作品、以及在其特定研究领域中感兴趣的作品的个人参考文献集合528。

本发明在范围方面不受限于本文所述的特定实施例,完全可以预期根据前述说明和附图,除本文所述的那些之外,本发明的其他各种实施例和对本发明的修改对于本领域技术人员来说将变得显而易见。因此,此类其他实施例和修改打算属于以下后附权利要求书的范围。此外,虽然在本文中已在特定实施例和实施方式及应用的背景下和在特定环境中描述了本发明,但是本领域技术人员将认识到,其有用性不限于此,并且可以以任何数目的方式和环境出于任何数目的目的有益地应用本发明。因此,应根据如本文所公开的本发明的整个范围和精神来解释以下阐述的权利要求。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号