首页> 中国专利> 一种中文国际政治事件的参与者关系抽取方法

一种中文国际政治事件的参与者关系抽取方法

摘要

本发明公开了一种中文国际政治事件的参与者关系抽取方法,该方法首先设计国际政治事件关系分类体系,生成标注语料;其次,设计适合关系抽取分类问题的三大类特征,计算特征的取值;再次,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器;最后,将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。本发明相比于传统基于规则的国际政治事件抽取方法,不依赖于具体语法的匹配规则,既减少了用户工作量,也提高了方法对未知语法的适应性。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-09-10

    授权

    授权

  • 2017-02-15

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160812

    实质审查的生效

  • 2017-01-18

    公开

    公开

说明书

技术领域

本发明涉及自然语言处理技术,特别是涉及一种中文国际政治事件的参与者关系抽取方法。

背景技术

根据Azar和Ben-Dak在“Instant Research on Peace and Violence”中的定义:国际政治事件是指是国际政治参与者(包括国家,国家子单元,以及国际组织)在特定时间从事的一种活动,该活动传达了对另一参与者在某项议题上的利益关注。事件包含了(1)发起者(2)承受者(3)时间(4)行为(5)议题。本发明沿用该定义,事件简化为发起者、承受者、行为(或事件类型)三个要素。

参与者关系抽取是指给定输入语句以及语句中的所有实体,识别出实体间可能的关系类型,以及发起者和承受者所对应的实体。中文是指关系抽取的输入文本为中文。现有技术不足在于:国际政治领域主要依靠人工进行参与者关系抽取,或者通过人工构造规则进行关系抽取,需要大量人力,且对抽取出的关系利用不足,缺乏机器学习手段;而在自然语言处理领域尽管存在大量关系抽取的研究,但缺少对国际政治事件领域的关注。

发明内容

发明目的:本发明的目的是提供一种能够解决现有技术中存在的缺陷的中文国际政治事件的参与者关系抽取方法。

技术方案:

本发明所述的中文国际政治事件的参与者关系抽取方法,包括以下步骤:

S1:设计国际政治事件关系分类体系,并使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料;

S2:设计适合关系抽取分类问题的三大类特征,对标注语料进行分词、词性识别、实体识别、句法解析,并对语句中的实体两两排列,从而识别解析结果,计算特征的取值;

S3:使用L2正规化多类型逻辑回归算法,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器;

S4:将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。

进一步,所述步骤S1中的分类体系,包含20大类的国际关系类型:公开声明、呼吁、表达合作意向、商议、进行外交合作、进行实质合作、提供援助、让步、调查、要求、不赞成、拒绝、威胁、抗议、展示军事姿态、减少关系、强迫、袭击、战斗、进行非常规或者大规模暴力。

进一步,所述步骤S1中的标注语料格式为:(发起者、承受者、关系类型)。

进一步,所述步骤S2中的三大类特征包括:参与者特征、句法特征、句子表层特征;其中:

参与者特征包括:1)实体0的中心词,实体1的中心词,以及组合;2)实体0的实体类型和词性,实体1的实体类型和词性,以及组合;3)实体0、实体1是否与在句子中的顺序一致;

句法特征包括:1)两个实体的中心词在句法构成树中最短路径包含的词性标签及其长度;2)两个实体的中心词在句法依赖树中的依赖路径及其长度;

句子表层特征包括:1)实体0之前和之后在特定窗口长度包含词的词性、实体类型;2)实体1之前和之后在特定窗口长度包含词的词性、实体类型;3)两个实体的中心词在句子中的路径包含的词性标签、实体类型及其长度。

进一步,所述步骤S3训练过程中,标注的实体关系,也即(发起者、承受者、关系类型)作为正例,所有其他的实体间可能的排列作为反例。

有益效果:与现有基于规则的国际政治事件抽取技术相比,本发明具有如下的有益效果:

1)生成了中文国际政治事件的关系分类体系;

2)设计了适合关系抽取分类问题的三大类特征:参与者特征、句法特征、以及句子表层特征;

3)使用L2正规化多类型逻辑回归算法,减少过度拟合,同时保证分类即关系抽取的效果;

4)不依赖于具体语法的匹配规则,既减少了用户工作量,也提高了方法对未知语法的适应性。

附图说明

图1为本发明的方法流程示意图;

图2为语句(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战)的句法构成树;

图3为语句(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战)的句法依赖图。

具体实施方式

下面结合附图和具体实施方式,对本发明的技术方案作进一步的介绍。

本发明公开了一种中文国际政治事件的参与者关系抽取方法,包括以下步骤:

S1:设计国际政治事件关系分类体系,并使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料;其中的分类体系包含20大类的国际关系类型:公开声明、呼吁、表达合作意向、商议、进行外交合作、进行实质合作、提供援助、让步、调查、要求、不赞成、拒绝、威胁、抗议、展示军事姿态、减少关系、强迫、袭击、战斗、进行非常规或者大规模暴力。如表1所示。

表1中文国际政治事件关系分类体系

其中,每个关系类型的示例如表2所示:

表2各关系类型示例

步骤S1使用该体系指导人工对国际政治新闻进行关系标注,生成标注语料。如,对于语句(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战),标注结果为(发起者:菲国政府军,承受者:阿布沙耶夫,关系类型:战斗)。

S2:设计适合关系抽取分类问题的三大类特征,使用Ansj工具对标注语料进行分词、词性识别,使用Stanford NLP对语料进行实体识别、句法解析,并对语句中的实体两两排列,利用上述识别解析结果,计算特征的取值。

步骤S2中的三大类特征包括:参与者特征、句法特征、句子表层特征;如表3所示。

表3关系抽取分类器使用的特征集合

例如:对于步骤S1中示例的语句:

分词结果为:(菲国政府军18日上午在菲南部苏禄省与“阿布沙耶夫”武装爆发激战)。

词性识别结果为:(菲国/NR政府军/NN 18日/NT上午/NT在/P菲/NN南部/NN苏禄省/NN与/P“/PU阿布沙耶夫/NN”/PU武装/NN爆发/VV激战/NN)。

实体识别结果为:(<ORG>菲国政府军</ORG><DATE>18日</DATE><TIME>上午</TIME>在<GPE>菲</GPE><LOC>南部</LOC><GPE>苏禄省</GPE>与“<PRS>阿布沙耶夫</PRS>”武装爆发激战。)

句法解析结果包括句法构成树和句法依赖图。其中,句法构成树如图2所示,句法依赖图如图3所示。

步骤S2对语句中的实体两两排列,根据表2中的三大类8种特征,并利用上述识别解析结果,计算相应取值。

如对于上述示例,实体的排列包括:(菲国政府军,菲),(菲,菲国政府军),(菲国政府军,阿布沙耶夫),(阿布沙耶夫,菲国政府军)等等。假设实体1为“菲国政府军”,实体2为“阿布沙耶夫”,各特征取值如下表所示。

表4各特征取值

S3:使用L2正规化多类型逻辑回归算法,对标注语料的特征以及分类标签进行监督学习,训练得到用于国际关系抽取的分类器。步骤S3中,标注的实体关系(发起者、承受者、关系类型)作为正例,所有其他的实体间可能的排列作为反例,关系类型标为“不相关”。

例如:实体1为“菲国政府军”,实体2为“阿布沙耶夫”,其分类标签是“战斗”。而其它的实体排列,如(菲国政府军,菲)等分类标签为“不相关”。

S4:将待抽取语句进行分词、词性识别、实体识别、句法解析,从而实例化分词器特征,并将语句中的实体两两排列,使用步骤S3的分类器进行分类,得到实体间的关系类型或者不相关的判断,从而实现关系抽取。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号