首页> 中国专利> 一种面向领域评估预测的技术清单生成方法和系统

一种面向领域评估预测的技术清单生成方法和系统

摘要

本发明公开了一种面向领域的评估预测技术清单生成方法和系统,所述方法包括:对海量科技信息文本进行技术名词抽取和识别,得到映射语料集;采用预先训练好的领域分类模型对映射语料集进行分类,得到领域映射语料集;对领域映射语料集进行技术名词的词频聚合统计,提取前多个技术名词,得到领域高频技术名词词表;对领域高频技术名词词表的技术名词分别计算新兴度指标和成熟度指标,得到领域初选清单;采用预先训练好的排序模型对领域初选清单进行排序,提取前多个得到领域初始清单;基于开源知识库对领域初始清单进行信息补全,得到领域详细清单;将领域详细清单输入预先训练好的技术二分类模型进行技术性判别,进一步过滤,得到领域技术清单。

著录项

说明书

技术领域

本发明涉及计算机语言学领域,涉及计算机自然语言处理领域,尤其涉及一种面向领域的评估预测技术清单生成方法和系统。

背景技术

新兴技术是科技创新的动力之源。在国防领域,大国之间的博弈日趋激烈,机会稍纵即逝,发展新兴技术对打破战略攻防平衡、颠覆军事技术思维产生重大影响。由于新兴技术具有高度的市场不确定性和技术不确定性,对其进行早期识别具有相当的难度。传统的新兴技术早期识别主要依靠专家智慧,需要广泛调动专家的力量进行调研,工作量巨大,往往只能针对较少的技术领域,而且受制于专家专业素养、洞察能力、认为偏见的因素限制,准确性难以评估。充分挖掘科技信息大数据的价值,从中及时发现新兴技术线索、科学评估相关特性,可以有效提升新兴技术识别的效率,在看清方向、看清道路方面更好的实现人机结合,具有重要的现实意义。

Learn-to-rank是一种有监督学习方法。对给定查询-文档对(query documentpair),抽取相应特征,获取给定查询下文档集和真实序列,然后通过learning-to-rank的各种算法得到排序模型,使得输出序列和真实序列尽可能相似。SVMrank是一种pairwise的learning-to-rank算法,通过将排序问题转换成分类问题,然后使用svm分类模型进行学习并求解。其中pairwise方法考虑给定查询下,两个文档之间的相对相关度,其中本发明的方法中采用该模型进行训练。

Tagme算法,具体实现思路:根据维基百科中词条链接关系构建锚点数据集,并基于上下文共现情况计算词条之间的相关性;通过对输入文本进行锚点解析构建锚点候选集,计算候选链接实体的整体相关性,选取整体相关性最大的候选链接实体集合,作为最终实体链接的结果。

Fasttex是Facebook于2016年开源的一个词向量计算和文本分类工具,主要是将整篇文档的词及n-gram向量叠加平均得到文档向量,然后使用文档向量做softmax多分类,是一个快速文本分类工具。

Bi-LSTM-CRF是自然语言序列标注算法,可用于实体识别,发展于LSTM(长短记忆模型)的扩展双向LSTM,结合CRF(条件随机场),旨在进一步解决序列标注中一词多义的特殊情况。

新兴度(Emergence Score)算法,通过定义两个区间和一个准入条件在时间维度上对特定术语对象进行聚合统计,分别得到定义活跃期趋势(Active Period Trend)、近期趋势(Recent Trend)、中期至近期变化率(Mid-Year To Last Year Slope)三个变化率,进一步得出该术语对象的新兴度值。其中两个区间分别为基础期(base period)、活跃期(active period),通常基础期定义为最初3年,活跃期定义为最近7年;准入条件初筛术语候选集,包括1)至少出现时间跨度为3年,2)至少出现了7次,3)活跃期与基础期的频次比至少为2:1,4)总频次在基础期的占比不能超过15%。具体计算方式为:

EScore=2*ActivePeriodTrend+(RecentTrend+MidYearToLastYearSlope)其中,RecordCount

发明内容

本发明的目的在于克服现有技术缺陷,针对领域技术评估预测的清单生成,提出一种面向领域的评估预测技术清单生成方法和系统,基于数据驱动自动生成,辅助研究人员做进一步的技术评估和预测,为领域技术布局和决策提供支撑。所述方法适用于实现领域技术评估预测的技术清单自动生成;

为了实现上述目的,本发明提出了一种面向领域的评估预测技术清单生成方法,所述方法包括:

步骤1)对海量科技信息文本进行技术名词抽取和识别,得到映射语料集;

步骤2)采用预先训练好的领域分类模型对映射语料集进行分类,得到领域映射语料集;

步骤3)对领域映射语料集进行技术名词的词频聚合统计,提取前多个技术名词,得到领域高频技术名词词表;

步骤4)对领域高频技术名词词表中的每个技术名词分别计算新兴度指标和成熟度指标,得到领域初选清单;

步骤5)采用预先训练好的排序模型对领域初选清单进行排序,提取前多个得到领域初始清单;

步骤6)基于开源知识库对领域初始清单进行信息补全,得到领域详细清单;

步骤7)将领域详细清单输入预先训练好的技术二分类模型进行技术性判别,结合规则匹配方法进一步过滤,得到领域技术清单。

作为上述方法的一种改进,所述步骤1)具体包括:

步骤1-1)对海量科技信息文本进行名词短语识别,然后采用Tagme算法进行实体链接,识别出科技信息文本中归一后的实体词集,并与文本进行关联映射;

步骤1-2)根据预先积累的技术词表对海量科技信息文本进行匹配提取得到技术词集,并与文本进行关联映射;

步骤1-3)根据预先训练好的技术名词识别模型,识别科技文本中的技术名词得到技术名词集,并与文本进行关联映射;

步骤1-4)对实体词集、技术词集和技术名词集,按可信度赋予不同词频权重,得到映射语料集。

作为上述方法的一种改进,所述步骤4)具体包括:

步骤4-1)对领域高频技术名词词表中的每个技术名词w,统计领域映射语料集中近10年的年度词频Count

Exist

其中,e

由下式计算该技术名词在基础期的词频总数Count

Count

由下式计算该技术名词在活跃期的词频总数Count

Count

判断当该技术名词在Exist

Escore

其中,APT为该技术名词的活跃期趋势:

由下式计算该技术名词的近期趋势RT为:

当c

步骤4-2)由下式计算该技术名词的年度是否增长序列Rate

Rate

其中,r

由下式计算该技术名词的成熟度值Maturity

Maturity

Maturity

Maturity

其中,δ为经验阈值,取值为该领域近十年总文本数的百分之一;

步骤4-3)根据该技术名词的新兴度值Escore

作为上述方法的一种改进,所述步骤6)具体为:

基于开源知识库,通过领域初始清单的技术名词匹配知识库的语义信息,提取包括中文名、英文名、解释信息和所属类别信息,对技术词进行信息补全,得到领域详细清单,所述开源知识库包括维基百科、百度百科、简氏防务及各种情报语料。

作为上述方法的一种改进,所述方法还包括技术名词识别模型的训练步骤,具体为:

根据预先积累的技术词表从海量科技信息文本中提取包含技术词表中的技术词的句子集;

用[B-tech,I-tech,O]标签为句子集做序列标注;其中,B-tech代表技术词的第一个字,I-tech代表技术词中非第一个字的其他字,O代表非技术词的其他字或者标点符号;

采用Bi-LSTM-CRF算法进行训练,得到技术名词识别模型。

作为上述方法的一种改进,所述方法还包括领域分类模型的训练步骤,具体为:

对已有的映射语料集进行随机取样;

由领域专家针对领域特性提取关键词对随机取样的映射语料集进行检索,得到训练集,从而构建领域训练语料;

由领域专家进行人工标注得到标签,为领域训练语料中的每篇信息文本标记是否为领域信息文本,构造分类训练语料;

采用fasttext分类算法进行训练,得到领域分类模型。

作为上述方法的一种改进,所述方法还包括排序模型的训练步骤,具体为:

对已有的领域初选清单随机取样得到训练集;

由领域专家对排序训练集按相关性、重要性进行打分,对于新兴度指标为负无穷大值时以经验大负值代替,通过加权平均得到排序结果,构造排序训练语料;

采用SVMrank排序算法进行训练,得到排序模型。

作为上述方法的一种改进,所述方法还包括:技术二分类模型进行训练的步骤,具体包括:

基于开源知识库,构造一个包含部分技术名词的名词清单;

根据是否为技术名词,为已有的详细清单的每条记录进行标记,作为训练语料;

采用fasttext分类算法训练得到技术二分类模型。

一种面向领域的评估预测技术清单生成系统,所述系统包括:训练好的技术名词识别模型、领域分类模型、排序模型、技术二分类模型以及技术名词识别抽取模块、领域建模模块、指标评估模块、排序模块、语义补全模块和二次清洗模块;其中,

所述技术名词识别抽取模块,用于对海量科技信息文本进行技术名词抽取和识别,得到映射语料集;

所述领域建模模块,用于采用预先训练好的领域分类模型对映射语料集进行分类,得到领域映射语料集;

所述指标评估模块,用于对领域映射语料集进行技术名词的词频聚合统计,提取前多个技术名词,得到领域高频技术名词词表,对领域高频技术名词词表中的每个技术名词分别计算新兴度指标和成熟度指标,得到领域初选清单;

所述排序模块,用于采用预先训练好的排序模型对领域初选清单进行排序,提取前多个得到领域初始清单;

所述语义补全模块,用于基于开源知识库对领域初始清单进行信息补全,得到领域详细清单;

所述二次清洗模块,用于将领域详细清单输入预先训练好的技术二分类模型进行技术性判别,结合规则匹配方法进一步过滤,得到领域技术清单

与现有技术相比,本发明的优势在于:

1、本发明提出了一套面向领域的技术评估预测任务做数据驱动的技术清单自动生成框架;

2、本发明提升了领域技术评估预测活动中机器智能含量,发挥了大数据的数据优势,改变了传统技术评估预测严重依赖专家的局限;

3、本发明提出了一种通用处理流程,具有很强的横向拓展性,及很强的升级优化的兼容可能性,在各处理环节都可以以更先进的优化策略进行强化;

4、本发明产生的技术清单相较于传统的专家预测清单,具有更加客观的指标事实佐证,及相对丰富的语义信息,从而提高了清单的科学性和客观性。

附图说明

图1是本发明实施例1的面向领域的评估预测技术清单生成方法的流程图;

图2是本发明实施例2的面向领域的评估预测技术清单生成系统的组成图。

具体实施方式

本发明的技术方案的方法路线如下:

步骤1)对海量科技信息文本,做技术名词抽取和识别,构建映射语料集D

步骤2)对映射语料集D

步骤3)对领域映射语料集D

步骤4)对领域高频技术名词词表List

步骤5)对领域初选清单List

步骤6)利用排序模型Model

步骤7)对领域初始清单List

步骤8)基于开源知识库,构造针对技术的包含正反例的类详细清单FList

步骤9)利用技术二分类模型Model

步骤1)具体包括:

步骤1-1)对海量科技信息文本,名词短语识别后利用tagme算法做实体链接,识别出科技信息文本中所有归一后的实体词集W

步骤1-2)对海量科技信息文本,根据已积累的技术词表,对科技文本做匹配提取科技文本中包含的技术词得到技术词集W

步骤1-3)利用已有技术词表从海量科技信息文本做匹配,得到含有技术词的句子集S

步骤1-4)利用技术名词识别模型Model

步骤1-5)对实体词集W

步骤2)具体包括:

步骤2-1)对映射语料集D

步骤2-2)通过领域专家的人工标注得到tag

步骤2-3)利用领域分类模型Model

步骤4)具体包括:

步骤4-1)对领域高频技术名词词表List

Exist

Count

Count

假如∑Exist

Escore

其中,Exist

步骤4-2)对领域高频技术名词词表List

Rate

Maturity

Maturity

Maturity

其中,c

步骤4-3)根据步骤4-1)和步骤4-2)计算得到每个技术名词的指标值,再加入一些总词频、近三年词频、近三年词频与总词频占比、总词频与领域词频占比等其他指标值,得到Indicator

步骤5)具体为:

对领域初选清单List

步骤7)具体为:

基于开源知识库,通过领域初始清单List

步骤8)具体为:

基于开源知识库,构造一个包含部分技术名词的名词清单NormList,利用步骤7得到针对名词清单的详细清单FList

下面结合附图和实施例对本发明的技术方案进行详细的说明。

实施例1

如图1所示,本发明的实施例1本发明公开了一种面向领域的评估预测技术清单生成方法,具体包括:

步骤1)对海量科技文本信息做技术名词抽取识别,得到映射语料,具体如下:

步骤1-1)通过对维基百科数据训练tagme实体链接工具,对海量科技信息做名词短语识别后再进行实体链接,得到归一后的名词短语实体词,与科技文本做映射;

步骤1-2)从维基百科中的新兴技术类别下采集技术名词构造技术词表,然后对海量科技信息文本做匹配提取其中存在的技术词,与科技文本做映射;

步骤1-3)根据技术词表从海量科技信息文本中提取包含这些技术词的句子集,用[B-tech,I-tech,O]标签对句子集做序列标注,采用Bi-LSTM-CRF算法训练技术名词短语识别模型,抽取海量科技信息文本中的技术名词短语,与科技文本做映射;

步骤1-4)对名词短语实体词、技术词、技术名词短语的词频可信度分别按[0.8,1,0.4]赋值,形成统一的映射语料;

步骤2)对映射语料集做领域建模,具体如下:

步骤2-1)对映射语料按随机取样和领域关键词检索取样得到映射语料训练集,由领域专家对映射语料训练集做领域二分类标注,构造信息文本加领域标签的分类训练语料,采用fasttext分类算法训练得到领域分类模型;

步骤2-2)利用领域分类模型对科技信息文本做分类,得到领域映射语料集;

步骤3)对领域映射语料集做指标评估,具体如下:

步骤3-1)对领域映射语料集做技术名词的词频聚合统计,取前1000项作为领域高频技术名词;

步骤3-2)对高频技术名词在领域预料集中统计近十年词频序列,然后计算其新兴度值、成熟度,并统计总词频、近三年词频、近三年词频与总词频占比、总词频与领域词频占比等指标,构成初选清单,部分结果如下表所示:

步骤4)对初选清单做排序,具体如下:

步骤4-1)对初选清单随机取样得到排序训练集,通过领域专家对排序训练集按相关性、重要性打分,加权平均后得到排序结果,构造排序训练语料,格式如下:

5 qid:1 1:38.13 2:2 3:14.6 4:12 5:0.8219 6:0.34#Phase(waves)

8 qid:2 1:29.87 2:1 3:6.7 4:6 5:0.8955 6:0.0016#Dielectric resonatorantenna

其含义为:

Phase(waves):新兴度指标为38.13,成熟度指标为2,词频数1为14.6,词频数2为12,占比1为82.19%,占比2为0.34%,根据专家的打分加权后的排序为5;

Dielectric resonator antenna:新兴度指标为29.87,成熟度指标为1,词频数1为6.7,词频数2为6,占比1为89.55%,占比2为0.16%,根据专家的打分加权后的排序为8;

其中新兴度为负无穷大的以用一个经验大负值代替,实验中我们使用了-9999,对训练语料采用SVMrank排序算法训练得到排序模型;

步骤4-2)利用排序模型对初选清单进行排序,取前100作为领域初始清单;

步骤5)对领域初始清单做信息补全,具体如下:

步骤5-1)利用wikidata、百度百科等数据,对领域初始清单中的技术名词作匹配并搜集相关语义信息,如中文名、解释、所属类别信息,构造针对技术名词的详细信息记录形成领域详细清单,举例如下:

“Edge computing,邊緣運算,distributed computing,parallel computing,programming paradigm,programming style,style,group action,social action,paradigm,pattern,regularity,computing,academic discipline,边缘计算,是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务,Edge computing is pushing the frontier of computing applications,data,and services away from centralized nodes to the logical extremes of anetwork.”

步骤6)对领域详细清单做二次清洗,具体如下:

步骤6-1)从已有词表中取100个新兴技术名词,同时从维基百科非新兴技术类别下随机抽取200个词条,按步骤5)的方法构造详细清单记录,根据是否技术做详细清单记录的标记,形成二分类训练语料;

步骤6-2)对二分类训练语料采用fasttext分类算法训练得到技术二分类模型;

步骤6-3)采用技术二分类模型对领域详细清单做技术性判别,得到领域技术清单;

步骤6-4)根据详细清单中的类别信息将明显不是技术的一些类别进行剔除,如类别为国家、机构、人物、音乐专辑等,得到最终领域技术清单;

实施例2

如图2所示,基于上述方法,本发明的实施例2提出了一种面向领域的评估预测技术清单生成系统训练好的四个模型以及技术名词识别抽取模块、领域建模模块、指标评估模块、排序模块、语义补全模块和二次清洗模块;其中,模型包括:技术名词识别模型、领域分类模型、排序模型、二分类模型。

所述技术名词识别抽取模块,用于对海量科技信息文本进行技术名词抽取和识别,得到映射语料集;

所述领域建模模块,用于采用预先训练好的领域分类模型对映射语料集进行分类,得到领域映射语料集;

所述指标评估模块,用于对领域映射语料集进行技术名词的词频聚合统计,提取前多个技术名词,得到领域高频技术名词词表,对领域高频技术名词词表中的每个技术名词分别计算新兴度指标和成熟度指标,得到领域初选清单;

所述排序模块,用于采用预先训练好的排序模型对领域初选清单进行排序,提取前多个得到领域初始清单;

所述语义补全模块,用于基于开源知识库对领域初始清单进行信息补全,得到领域详细清单;

所述二次清洗模块,用于将领域详细清单输入预先训练好的技术二分类模型进行技术性判别,结合规则匹配方法进一步过滤,得到领域技术清单。

最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号