法律状态公告日
法律状态信息
法律状态
2018-03-30
授权
授权
2015-09-30
实质审查的生效 IPC(主分类):G06F17/27 申请日:20140829
实质审查的生效
2015-09-02
公开
公开
技术领域
本发明涉及从文本中进行信息抽取的技术与方法,特别涉及一种根据作者机构的中文名称进行准确检索和统计其英文文献的方法。
背景技术
Web of Science(简称WOS)是美国Thomson Scientific公司基于WEB开发的一个数据库产品,包括三大引文库(SCI、SSCI和A&HCI)和两个化学数据库(CCR、IC)。世界各国科研人员发表的各领域的优秀学术论文多被该数据库收录,许多学者也以该数据库收录论文的多少作为衡量自己水平的标志之一。Engineering Index(简称EI)是另一个著名的文献数据库检索系统,它主要收录工程技术领域的文献。
在WOS或EI等文献数据库中,机构名称包含在地址信息中,它们所收录的中国学者的文章,在著录上存在不规范的现象,地址信息著录问题尤为突出。这给国内的学者检索和利用数据库中的文章带来了很大的障碍,导致检索结果不准确,出现漏检、重检和误检等问题。
英文文献机构规范在下列四种场合有重要价值:
1、文献查阅者在查找英文文献的过程中,会按照作者机构字段进行检索,获取某一机构发表的所有文章。
2、以某机构名为检索关键词进行检索是进行文献统计的最重要的检索策略之一,国内的很多单位,包括政府决策和教育主管部门也将WOS或EI等数据库中所收录的论文数作为评判各机构的科研实力和科研人员绩效的重要指标。在对机构进行考核评价时,需要查找该机构的科研人员发表的所有文章。
3、不同的机构之间进行评比时,需要统计不同机构各自在WOS或EI等数据库中的发文量,需要对机构名称进行规范、区分。
4、文献查阅者在下载下来所需的文献题录信息后,会查看文章的发文机构,并可能需要根据机构信息进行分类管理。
目前对英文文献机构名称不规范的研究,都集中在如何通过构造检索式来避免机构名称不规范造成的影响,以及不规范现象的原因及其改善,没有学者讨论如何把不规范的机构名称通过技术处理转变为规范的机构名称。
发明内容
本发明的目的是提供一种抽取和处理英文文献中中国作者的机构信息,并将其用于检索的方法,以提高相关检索的查全率和查准率。
本发明解决上述技术问题的技术方案是:
一种中国作者所发英文文献的作者机构信息抽取方法,用于从英文文献库中抽取中国作者所在机构的中文名称信息,其特征是,包括以下步骤:
步骤一:利用网络爬虫从英文文献库中获取中国作者发表的所有相关英文论文的题录信息;
步骤二:从获取的题录信息中抽取出论文题目、作者机构信息和发表时间三项内容;
步骤三:对作者机构信息进行处理,将其对应到作者机构的标准中文名称,具体包括以下步骤:
3.1)将同一条题录信息中的不同机构分成多个机构条目,分别进行以下处理;
3.2)根据机构条目中包含的地址信息进行判断,如果属于中国的机构,继续进行后面的处理,否则舍弃该条记录;
3.3)对机构条目进行数据处理,删除掉机构条目中包含的作者名称等无关信息;根据保存同义词映射关系的数据字典对数据进行同义转换;
3.4)按照“大学”>“科学院”>“其他”的优先级顺序,抽取机构名称;
3.5)通过搜索引擎获取作者机构的标准英文名称;
3.6)通过搜索引擎或机器翻译工具将标准英文名称翻译为对应的中文名称;
步骤四:将抽取出的论文题目、发表时间,以及机构的标准中文名称保存到自建的数据库中,以供后续查询和统计使用。
优选的:
所述的信息抽取方法,其特征是,步骤一中,根据学科门类或主题领域,从外文文献数据库中检索出中国作者发表的英文论文,再利用所述的文献数据库系统提供的下载功能将这些论文的题录信息下载下来。
所述的信息抽取方法,其特征是,步骤3.4)中,对机构条目进行分类,针对不同类别使用不同的数据处理方法,通过匹配特定的关键词,去除机构条目中包含的机构下属部门信息,最后抽取出机构名称。
所述的信息抽取方法,其特征是,步骤3.5)中,将机构条目处理结果中的缩写补充为全称;将补全后的结果输入搜索引擎中进行搜索,抓取搜索结果的标题,获得机构标准英文名称。
所述的信息抽取方法,其特征是,步骤3.6)中,将所得到的机构标准英文名称输入搜索引擎中进行检索,抓取搜索结果中各条记录的标题,获取机构的标准中文名称;若无法得到中文机构名称,则将所得到的机构标准英文名称进行机器翻译,将翻译结果作为机构的标准中文名称。
所述的信息抽取方法,其特征是,定时执行步骤一至步骤四,已保证自建的数据库中所保存的抽取信息的及时性。
所述的信息抽取方法,其特征是,步骤3.5)和3.6)中,利用搜索引擎进行信息获取时,使用机器学习中的加权投票方法,将通过多个不同的搜索引擎检索得到的结果进行加权,选取权重最大的结果。
所述的信息抽取方法,其特征是,选取三个搜索引擎:Google、百度、搜搜;Google检索出的前3条记录的权重分别定义为5、3和1,百度检索出前3条记录的权重分别定义为3、2和1,搜搜检索出的前3条记录的权重分别定义为2、1和1,最后计算不同结果的权重,选取权重最大的结果。
本发明还提供一种中国科研机构所发英文文献的信息检索方法,其特征是,在所述的信息抽取方法的基础上,进一步包括:
步骤五:用户通过输入机构的中文名称从自建的数据库中检索出所发表的论文信息。
本发明还提供一种中国科研机构所发英文文献的信息统计方法,其特征是,在所述的信息抽取方法的基础上,进一步包括:
步骤五:从自建的数据库中,统计出指定时间段内各机构的发文数量。
所述的信息统计方法,其特征是,将统计结果按照发文数量进行排序。
本发明从英文文献题录信息中获取作者机构信息,并通过一定的处理方法与技术将这些机构信息进行处理,最终利用多种网络搜索引擎得到这些发文机构的标准中英文名称。利用本发明所述的方法,在很大程度上保证了检索结果的准确性,并免去了手动查询、核对机构 信息的过程。通过本发明,用户可以对机构所发表的英文文献信息进行查询和统计,具有很高的查全率和准确率。
附图说明
图1是本发明所述的信息抽取方法的流程图。
图2是本发明为获得标准英文机构名称使用搜索引擎检索示意图。
图3是本发明为获得标准中文机构名称使用搜索引擎检索示意图。
具体实施方式
如图1所示,本发明方法流程是:
步骤一:利用网络爬虫从英文文献库中获取中国作者发表的所有相关英文论文的题录信息。所述的网络爬虫是一种按照一定的规则,能自动抓取万维网信息的程序或者脚本。
(1)根据学科门类或主题领域,构造检索式检索出中国作者发表的英文论文,现在文献数据库的高级检索中都提供有国家检索入口,按照国家为“Peoples R China”进行检索即可。再利用文献数据库系统提供的下载功能将这些论文的题录信息下载下来,下载的格式通常选择“全记录”,以方便后面的抽取。
步骤二:从获取的题录信息中抽取出论文题目、机构信息和发表时间三个字段的内容。不同的文献数据库下载得到的数据格式不同,但其中每一个字段都有相应的字段标识,按照相应的标识抽取出论文题目、机构信息和发表时间。例如在Web of Science数据库(简称WOS)中,“TI”标识文献标题,即论文题目,“C1”标识作者地址,内含作者机构信息,“PD”标识出版日期,等。
步骤三:对作者机构信息进行处理,对应到机构标准的中文名称。
(1)同一篇文献可能有多个作者,对应多个不同的机构,将同一条题录信息中的不同机构分成多个机构条目,分别进行以下处理。
(2)根据机构条目中包含的地址信息进行判断,如果属于中国的机构,继续进行后续的处理,否则舍弃该机构条目。
(3)对机构条目进行数据处理。删除其中的无用信息,如作者名称和地址信息等。其中,所述的地址信息是指:国家、省份、城市和邮编等,例如:12th Guangzhou Municipal Peoples Hosp,Dept Ophthalmol,Guangzhou510620,Guangdong,Peoples R China.
根据预先设计的数据字典(保存同义词映射关系)对数据进行同义转换,将相同机构的 不同表达方式进行统一。例如:
“CAS”→“Chinese Acad Sci”
“China Acad Sci”→“Chinese Acad Sci”
“Uni”→“Univ”
(4)按照“大学——科学院——其他”这种优先级顺序,对机构条目进行分类。选取含“Univ”、“Coll”或“Inst Technol”整词的机构条目,将其归类为“大学”;选取含“Acad”整词的机构条目,将其归类为“科学院”,其中既包括专业类科研院所,如中国科学院、中国社会科学院等,又包括省市级科研院所,如广东医学科学院、上海农业科学院等;剩余内容归类为“其他”。
针对不同类别进行不同的数据处理,通过匹配特定的关键词,去除机构条目中包含的机构下属部门信息,最终得到机构名称。这些关键词包括“dept”、“lab”、“key”、“state”、“minist”、“div”、“Inst”、“coll”、“sch”等。例如:
China Agr Univ,Coll Food Sci&Nutr Engn,Lab Food Safety&Mol Biol,
Coll表示学院,Lab表示实验室,以逗号为分隔,去除这两个关键词所在的部分,最终获取机构名称China Agr Univ。
这里判断是机构还是某个机构的下属部门的依据是该单位是否具有独立法人,例如科学院的研究所是独立的法人单位,所以关键词“Inst”在处理科学院时并不适用。
(5)通过搜索引擎获取机构标准英文名称。
根据预先定义的映射关系将机构条目处理结果中的缩写补充为全称,例如将“Univ”补全为“University”,“Tech”→“Technology”。
将补全后的结果输入到搜索引擎中进行搜索。以Google为例,如图2所示,从图中可以看出,检索得到的结果的标题部分含有机构的标准英文名称。抓取搜索结果的标题,通过实体命名识别方法,从中获取机构的标准英文名称。
为了改善结果的准确性,可以使用机器学习中的加权投票方法,将通过不同搜索引擎检索得到的结果加权,之后进行比较与综合,从而获得所处理机构的标准英文名称。比如,将补全后的结果分别导入常用的三个不同的中文网络搜索引擎Google、百度、搜搜中进行搜索。Google检索出的前3条记录中的机构名称分别赋予权重递减的某些数值,如5、3和1,百度检索出前3条记录中的机构名称权重分别为3、2和1,搜搜检索出的前3条记录中的机构名称权重分别为2、1和1,最后计算不同结果的权重,选取权重最大的结果作为所处理机构的 标准英文名称。
(6)将标准英文名称翻译为对应的中文名称。
将所得到的机构标准英文名称输入到搜索引擎中进行搜索。如图3所示,从图中可以看出,检索得到的结果的标题部分含有机构的标准中文名称。抓取搜索结果的标题,通过命名实体识别方法,从中获取机构的标准中文名称,之后结束步骤三。
为了改善结果的准确性,可以使用机器学习中的加权投票的方法,将通过不同搜索引擎检索得到的结果加权,之后进行比较与综合,从而获得所处理机构的标准中文名称。比如,将补全后的结果分别导入常用的三种中文网络搜索引擎Google、百度、搜搜中进行搜索。Google检索出的前3条记录中的机构名称分别赋予权重递减的某些数值,如5、3和1;百度检索出的前3条记录中的机构名称权重分别为3、2和1,搜搜检索出的前3条记录中的机构名称权重分别为2、1和1,最后计算不同结果的权重,选取权重最大的结果作为所处理机构的标准英文名称。
若无法得到识别出的中文机构名称,则将前面得到的机构标准英文名称进行机器翻译,例如使用有道翻译、百度翻译、Google翻译等。将翻译结果作为机构的标准中文名称,之后结束步骤三。
步骤四:将抽取出的论文题目、发表时间,以及机构的标准中文名称存入到自建的数据库中。
步骤五:用户通过输入机构的中文名称从所建的数据库中检索出所发表的论文题目。
另外,可以定期对引文文献库进行更新,然后进行上述的自动处理并保存到自建的数据库中,以保持自建数据库数据的及时性。
如果需要对文献的其他信息进行统计,也可以同时抽取所需的信息,例如,作者信息,这样就可以统计作者所发表的文献信息。
实施例1:
以下以WOS文献数据库为例,详细阐述具体操作流程。
步骤一:下载中国作者发表的所有英文论文的题录信息。
(1)先通过构造检索式检索出中国作者发表的英文论文,在WOS的高级检索界面中,按照“CU=Peopels R China”进行检索即可。
使用WOS自身提供的导出功能,选择“保存为其他文件格式”选项,“记录内容”选项选择“全记录”,“文件格式”选项选择“制表符分隔”,批量导出题录信息。其中,每行是一 条记录,对应一篇论文的题录信息,包括论文题目(TI)、作者姓名(AU)、来源出版物(SO)、作者机构(C1)、出版日期(PD)等字段,其中每一个字段都有相应的字段标识。同一行记录的不同字段使用制表符分隔,不同行记录使用换行符分隔。
步骤二:从下载的题录信息中抽取出论文题目、机构信息和发表时间三个内容。在WOS中,即抽取出“TI”、“C1”和“PD”三个字段的内容
步骤三:对作者机构信息进行处理,对应到机构标准的中文名称。
(1)在WOS中,同一篇文章的不同作者机构用“;”隔开。以分号为分隔符,将同一条题录信息中的不同机构分成多个机构条目,分别进行以下处理。
(2)在WOS的机构条目中,最后一个逗号后面的内容是机构对应的国家信息,中国为“People R China”。取出机构条目中最后一个单词为“China”的条目(该机构属于中国机构)并进行后续处理,不区分大小写,下同;其余机构条目忽略。
(3)在WOS的作者机构字段中,中括号包含的内容为作者姓名,故将中括号“[XXX]”及其包含的内容去掉,以除去作者姓名,保留作者所属机构信息。例如:
[Zhou,Qian;Yan,Wei-Ming]Beijing Univ Technol,Beijing Key Lab Earthquake Engn & Struct Retrofit,Beijing100124,Peoples R China
[Zhou,Qian;Yan,Weiming]Beijing Univ Technol China,Beijing Key Lab Earthquake Engn & Struct Retrofit,Beijing,Peoples R China
在机构条目中,最后一个逗号后面的内容是机构对应的国家信息,倒数第二个逗号后面的内容是机构对应的省份或城市信息,这些信息与机构名称无关,故去除机构条目中倒数第二个逗号后面的内容(含该逗号)。这里地址信息包括国家、省份、城市和邮编,
经过以上处理,一部分机构条目中仍然含有地址信息,例如:
Qufu Normal Univ,Sch Math Sci,Qufu,Shandong,Peoples R China
12th Guangzhou Municipal Peoples Hosp,Dept Ophthalmol,Guangzhou510620,Guangdong,Peoples R China
在经过上一步处理后,结果为:
Qufu Normal Univ,Sch Math Sci,Qufu
12th Guangzhou Municipal Peoples Hosp,Dept Ophthalmol,Guangzhou510620
为了进一步去除地址信息,需要以逗号分隔的内容为处理单元,进行以下处理:
若某个机构条目的最后一个单元中最后六个字符均为数字,说明该单元中包含地址和邮 编信息,则删掉该单元。
若某个机构条目的最后一个单元中不含空格,则删掉该单元。这样处理后就去除了机构信息中的地址信息,只保留机构的名称信息。
根据预先设计的数据字典(保存同义词映射关系)对数据进行同义转换,将相同机构的不同表达方式进行统一。预定义的转换规则如下(可扩展):
“CAS”→“Chinese Acad Sci”
“China Acad Sci”→“Chinese Acad Sci”
“Labs”→“Lab”
“Uni”→“Univ”
“MOE”→“Minist Educ”
“EChina”→“East China”
“W”→“West”
“N”→“North”
“S”→“South”
“SW”→“Southwest”
“SE”→“Southeast”
“NE”→“Northeast”
“NW”→“Northwest”
(4)按照“大学——科学院——其他”这种优先级顺序,对机构条目进行分类。选取含“Univ”或“Coll”或“Inst Technol”整词的机构条目,将其归类为“大学”;选取含“Acad”整词的机构条目,将其归类为“科学院”,其中既包括专业类科研院所,如中国科学院、中国社会科学院等,又包括省市级科研院所,如广东医学科学院、上海农业科学院等;剩余内容归类为“其他”。
针对不同类别进行不同的数据处理,通过匹配特定的关键词,去除机构条目中包含的机构下属部门信息,最终得到机构名称。这些关键词有:“dept”、“lab”、“key”、“state”、“minist”、“div”、“Inst”、“coll”、“sch”。
“大学”类处理:
①若某个单元中含“dept”、“div”、“minist”、“lab”、“unit”、“ctr”、“fac”、“res”或“state”但不含“univ”且不含“coll”,则将该单元删去。这里的“含”代表整词包含而非部分包含, 下同。
②除每个机构条目的第一个单元外,若其余某个单元中含“inst”但同时不含“univ”、“coll”以及“lnst technol”,则将该单元删去。
③除每个机构条目的第一个单元外,若其余某个单元中含“key”一词,则将该单元删去。
④筛选出第一个单元含“univ”、“coll”、“inst”或“chinese acad sci”的机构条目,对这些条目进行如下处理:
除每个机构条目的第一个单元外,若其余某个单元中含“coll”但不含“univ”,则将该单元删去;
除每个机构条目的第一个单元外,若其余某个单元中含“sch”但既不含“univ”也不含“coll”,则将该单元删去。
“科学院”类处理:
除每个机构条目的第一个单元外,其余单元中如果含有“inst”,则保留该单元,并舍弃除第一个单元和该单元之外的所有单元;否则,除第一个单元外,其余单元中如果含有“dept”、“lab”、“key”、“state”、“minist”、“div”中的任何一个,则将该单元删去。
“其他”类处理:
除每个机构条目的第一个单元外,其余单元中如果含有“dept”、“minist”、“div”、“sch”中的任何一个,则将该单元删去。
经过上述规范后,绝大多数与机构信息无关的信息已被剔除,处理结果例如:
Beijing Univ Technol
Beijing Univ Technol China
Beijing Univ Technol
China Agr Univ
Minist Agr,Supervis Inspect&Testing Ctr Genetically Modifi
Saisheng Pharmaceut Co
(5)通过搜索引擎获取机构标准英文名称。
根据预定义的映射关系将机构条目处理结果中的缩写补充为全称,具体补全规则如下(可扩展):
"Univ"→"University"
"Sci"→"Science"
"Technol"→"Technology"
"Sch"→"School"
"Coll"→"College"
"Cent"→"Center"
"Engn"→"Engineering"
"Polytech"→"Polytechnic"
"Hosp"→"Hospital"
"Elect"→"Electronic"
"Acad"→"Academy"
"Grad"→"Graduate"
"Agr"→"Agricultural"
"Natl"→"National"
"Med"→"Medical"
"Mil"→"Military"
"Telecommun"→"Telecommunications"
"So"→"South"
"Tradit"→"Traditional"
"Aviat"→"Aviation"
"Vocat"→"Vocational"
"Canc"→"Cancer"
"Petr"→"Petroleum"
"Prov"→"Province"
"Econ"→"Economics"
"Tech"→"Technology"
"Polit"→"Political"
"Chem"→"Chemical"
"Ind"→"Industry"
"Stomatol"→"Stomatology"
"Educ"→"Education"
"TCM"→"Traditional Chinese Medicine"
"Inst"→"Institute"
"Clin"→"Clinic"
"Def"→"Defense"
"Geosci"→"Geosciences"
"Aeronaut"→"Aeronautics"
"Astronaut"→"Astronautics"
"Min"→"Mining"
"R&D"→"Research and Develop"
"&"→"and"
"Res"→"Research"
"Phys"→"Physics"
"Biol"→"Biology"
"Mat"→"Material"
"Appl"→"Apply"
"Bot"→"Botany"
"Geol"→"Geology"
"Agr"→"Agriculture"
"Dis"→"Disease"
"Anim"→"Animal"
"Dev"→"Develop"
将补全后的结果分别导入常用的三种中文网络搜索引擎Google、百度、搜搜中进行搜索。
通过命名实体识别方法,对三种搜索引擎的前三条检索结果处理,分别得到识别出的英文机构名称,以图2所示内容为例,对Google搜索引擎检索出的结果进行实体命名识别,第一条得到“Beijing University of Technology”,第二条未能识别得到任何英文机构名称,第三条得到“BEIJING INSTITUTE OF TECHNOLOGY”。
使用加权投票的方法,将通过不同搜索引擎检索得到的结果加权,之后进行比较与综合,从而获得所处理机构的标准英文名称。比如,Google检索出的三个机构名称权重分别为5、3和1,百度检索出的三个机构名称权重分别为3、2和1,搜搜检索出的三个机构名称权重分 别为2、1和1,最后计算不同机构的权重,选取权重最大的机构作为所处理机构的标准英文名称。
(6)将标准英文名称翻译为对应的中文名称。
将步骤(5)得到的机构的标准英文名称分别导入上面所述的三种中文网络搜索引擎中进行搜索。(图3)
通过特定的实体命名识别方法,对三种搜索引擎的前三条检索结果处理。以图3所示内容为例,对Google搜索引擎检索出的结果进行实体命名识别,第一条与第三条得到“北京工业大学”,第二条未能识别得到任何中文机构名称。若能够得到识别出的中文机构名称,则进行①,之后结束步骤三,若无法得到识别出的中文机构名称,则进行②,之后结束步骤三。
①使用加权投票的方法,将通过不同搜索引擎检索得到的结果加权,之后进行比较与综合,从而获得所处理机构的标准中文名称。比如,Google检索出的三个机构名称权重分别为5、3和1,百度检索出的三个机构名称权重分别为3、2和1,搜搜检索出的三个机构名称权重分别为2、1和1,最后计算不同机构的权重,选取权重最大的机构作为所处理机构的标准中文名称。
②将步骤六得到的机构的标准英文名称直接导入翻译软件(如google翻译、有道翻译)进行处理,将翻译结果作为标准中文名称。
经过这种方式处理,机构中文名称的准确率可达到90%以上。
步骤四:将抽取出的论文题目、发表时间,以及机构的标准中文名称存入到自建的数据库中,例如可以导入到Oracle数据库,或者是Sql Server、MySql等数据库中,也可以是自己编写的数据库,只要能满足数据的保存、更新以及快速检索即可;甚至可以保存为内存文件以方便极速检索。
步骤五:用户输入机构的中文名称,从数据库中检索出对应的论文信息。可以根据发文机构进行检索,也可以辅助以时间信息进行检索、统计、排序等。这些功能可以使用数据库本身具有的功能,也可以使用用户自己编写的算法。
需要说明的是,本发明不仅可以对WOS库进行处理,对于其他英文文献数据库(如EI),本发明也同样可以处理,因为所有的英文文献数据库必定都包含论文题目、作者机构信息和发表时间这三个字段,本发明仅需要提取这三个字段即可。
参考文献
以下为中国授权专利:
1)一种基于实体的自底向上Web数据抽取方法CN102262658B
2)一种基于关联分析的文献检索方法CN100573531
3)文献检索的方法和装置CN1156779C
4)一种网络资源检索方法及系统CN100476830
5)面向源文献元关键词的检索系统CN101840438B
6)一种网络病毒报告排序方法CN101833575B
7)一种基于用户关注时间的网络视频排序方法CN101382938B
8)一种信息搜索的方法、系统及信息搜索设备CN102479207B
9)词项加权函数确定及基于该函数进行搜索的方法及装置CN102637179B
10)一种网页特征自适应的信息抽取方法CN102254014B。
机译: 操纵文本到语音输出给操作者的方法,包括在手势信息中检测操作者的手势并评估手势信息以检测操作者命令,其中调整文本到语音输出的参数
机译: 操作者分配设置设备,操作者分配设置方法,用于操作者分配设置的程序和信息记录介质
机译: 音频编码器,音频解码器,用于编码音频信息的方法,用于解码音频信息的方法以及取决于操作者和操作者的范围的计算机程序