首页> 中国专利> 论辩单元的分类方法

论辩单元的分类方法

摘要

本申请实施例提供了一种论辩单元的分类方法,包括以下步骤:将论辩单元中的词项分为框架词和主题词;通过论辩性单元结构感知编码器根据框架词和主题词生成上下文词项嵌入,其中所述论辩性单元结构感知编码器包括自注意力机制、内部注意力机制和外注意力机制;通过Bi‑LSTM层根据上下文词项嵌入生成句子嵌入;通过max‑pooling层根据句子嵌入生成论辩单元的论辩性特征;结合论辩性特征和获取到的论辩单元的位置信息生成;通过多层感知器根据论辩性表示生成论辩单元的类型。本申请提供了一种论辩单元的分类方法,以增强分析文献语篇的效果。实验结果表明本申请在各个数据集上均具有有效性。

著录项

  • 公开/公告号CN114841141A

    专利类型发明专利

  • 公开/公告日2022-08-02

    原文格式PDF

  • 申请/专利权人 复旦大学;

    申请/专利号CN202210543480.0

  • 发明设计人 魏忠钰;李寅子;

    申请日2022-05-19

  • 分类号G06F40/211(2020.01);G06F16/35(2019.01);

  • 代理机构苏州隆恒知识产权代理事务所(普通合伙) 32366;

  • 代理人周子轶

  • 地址 200433 上海市杨浦区邯郸路220号

  • 入库时间 2023-06-19 16:14:25

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-19

    实质审查的生效 IPC(主分类):G06F40/211 专利申请号:2022105434800 申请日:20220519

    实质审查的生效

说明书

技术领域

本申请涉及文献分析技术领域,特别涉及一种论辩单元的分类方法。

背景技术

随着科学文献数量的不断增加,研究人员越来越关注于开发用于分析科学文献的计算方法,旨在自动识别论点的各个论辩单元。现有的研究重点是构建标注数据集和学习句子的表示以进行语篇分析。他们倾向于将句子中的词项一视同仁,而忽略论辩性上下文隐含的结构信息。

发明内容

本申请实施例提供了一种论辩单元的分类方法,以增强分析文献语篇的效果。

本申请实施例提供了一种论辩单元的分类方法,包括以下步骤:

将论辩单元中的词项分为框架词和主题词;

通过论辩性单元结构感知编码器根据框架词和主题词生成上下文词项嵌入,其中所述论辩性单元结构感知编码器包括自注意力机制、内部注意力机制和外注意力机制;

通过Bi-LSTM层根据上下文词项嵌入生成句子嵌入;

通过max-pooling层根据句子嵌入生成论辩单元的论辩性特征;

结合论辩性特征和获取到的论辩单元的位置信息生成;

通过多层感知器根据论辩性表示生成论辩单元的类型。

优选地,在步骤“将论辩单元中的词项分为框架词和主题词”中,将单数名词、复数名词、单数专有名词和复数专有名词定义为所述主题词,将其他的词项设置为所述框架词。

优选地,在步骤“通过论辩性单元结构感知编码器根据框架词和主题词生成上下文词项嵌入”中,所述内部注意力机制仅在相同类型的词项之间起作用。

优选地,在步骤“通过论辩性单元结构感知编码器根据框架词和主题词生成上下文词项嵌入”中,所述外注意力机制仅在不同类型的词项之间起作用。

优选地,所述论辩性单元结构感知编码器中的自注意力机制、内部注意力机制和外注意力机制共享参数。

优选地,步骤“通过论辩性单元结构感知编码器根据框架词和主题词生成上下文词项嵌入”中令输入是一个有T个词项的句子s,s=[t

优选地,步骤“通过Bi-LSTM层根据上下文词项嵌入生成句子嵌入”中将T个词项的上下文词项嵌入E输入到Bi-LSTM层,所述Bi-LSTM层将输出的双向的两个隐藏状态相连接,作为一个句子嵌入h:

优选地,步骤“通过max-pooling层根据句子嵌入生成论辩单元的论辩性特征”利用max-pooling层提取句子s的论辩性特征Embs:

Emb

优选地,步骤“结合论辩性特征和获取到的论辩单元的位置信息生成”中将位置信息连接到论辩性特征Embs作为论辩性表示xs:

x

优选地,步骤“通过多层感知器根据论辩性表示生成论辩单元的类型”中将句子s的论辩性表示xs送入多层感知器层后,得到论辩单元的类别的预测概率分布,基于预测概率分布得到论辩单元的类型。

本申请提供了一种论辩单元的分类方法,以增强分析文献语篇的效果。实验结果表明本申请在各个数据集上均具有有效性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是两个经过标注的科学文献摘要示例。其中,框架词用红色字体突出显示,其余的为主题词。每个句子前面的词项是人工注释的论辩单元(句子)所属的类别。

图2是论辩性单元结构感知编码器的整体结构图。

图3描述了论辩单元的位置分布。

图4展示了CCSA语料库与现有的几个科学文献注释数据集的比较。

图5描述了论辩单元类型的分布。

图6示出了CCSA语料库的主要结果。

图7示出了科学文献语料库的结果。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

图1展示了两个标注的科学文献摘要,包括“背景”、“方法”、“结果”和“结论”四个类别的论辩单元(句子)。本发明人创造性地发现:首先,句子中的词项可以分为两组,即主题词(topic tokens)和框架词(Framing Token)。主题词提供了该论辩单元的基本知识,而框架词则组织了表达结构。其次,相同的论辩单元(句子)通常在跨主题的文本中使用类似的框架词。例如,“..is employed/investigated to...”之类的结构表达通常出现在“方法”类型的句子中。第三,论辩单元对位置信息很敏感。例如,“背景”类型的句子几乎都出现在了“方法”类型的句子之前,而“结论”类型的句子通常位于最后。

根据这些发现,我们提出了一种基于transformer的论辩单元的结构感知编码器(SAE),以分析增强文献语篇的效果。实验结果表明我们提出的模型在自己构建的数据集和公共数据集上具有有效性。

一种论辩单元的分类方法,其特征在于,包括以下步骤:

将论辩单元中的词项分为框架词和主题词;

通过论辩性单元结构感知编码器根据框架词和主题词生成上下文词项嵌入,其中所述论辩性单元结构感知编码器包括自注意力机制、内部注意力机制和外注意力机制;

通过Bi-LSTM层根据上下文词项嵌入生成句子嵌入;

通过max-pooling层根据句子嵌入生成论辩单元的论辩性特征;

结合论辩性特征和获取到的论辩单元的位置信息生成;

通过多层感知器根据论辩性表示生成论辩单元的类型。

具体的,为了更好地模拟科学文献中的论点结构,我们提出了一种论辩性的基于transformer的编码器,称为论辩性单元结构感知编码器(structure aware argumentencoder,SAE)。SAE中的最主要结构是带有多种注意力(attention)机制的transformer结构来提取不同类型词项之间的信息。SAE的整体结构如图2。

在科学文献语篇中,一些专业术语可能会给论辩结构的识别带来一些噪音。在SAE中,我们将每个句子中的词项分为框架词和主题词。

框架词:它包含论辩单元中的结构信息。较好的框架词(例如连词)可以为确定论辩单元类型的提供有效信息。

主题词:它包含论辩单元中的主题信息,例如研究领域的技术专业术语。

我们使用NLTK工具包[15]对论辩单元(句子)进行分词并POS词项。我们将单数名词(NN)、复数名词(NNS)、单数专有名词(NNP)和复数专有名词(NNPS)视为主题词,其他则视为框架词。

为了充分利用词项类型提供的信息,除了自注意力机制(self-attention),我们还引入了如下的两种额外的注意力机制,可以看作是来自注意力机制的归纳偏差。额外的注意力机制分别为内部注意力机制(Internal-attention)和外注意力机制(External-attention)。

其中,内部注意力机制在相同类型的词项之间起作用,即框架词只关注于框架词,主题词只关注于主题词。内部注意力机制用于发掘同类型的词项之间的影响。外部注意力机制:外部注意力机制在不同类型的词项之间起作用,即框架词只关注于主题词,主题词只关注于框架词。外部注意力机制用于发掘不同类型的词项之间的影响。

举例而言,令输入是一个有T个词项的句子s,s=[t

E=[e

上式中,F(·)是transformer编码器,我们通过Fia(·)、Fea(·)和Fsa(·)获得了句子对应的上下文特征嵌入Eia、Eea和Esa,其中Fia(·),Fea(·)和Fsa(·)分别是使用了internal-attention、external-attention和self-attention的transformer编码器。在编程实现中,三个transformer编码器共享参数,但是由于他们不同的注意力机制,可以提取不同的特征信息。之后T个词项的上下文词项嵌入(contextual token embeddings)E输入到词项级别的双向长短期记忆(Bi-LSTM)层,Bi-LSTM层将输出的双向的两个隐藏状态相连接,作为一个句子嵌入(sentence embedding)h:

根据Eia、Eea和Esa我们可以分别得到hia、hea和hsa,并进一步利用max-pooling层提取句子s的论辩性特征(argument feature)Embs:

Emb

论辩单元(句子)对它们的位置很敏感,所以位置信息是分辨论辩单元类型的一个重要特征。我们使用摘要中的标准化后位置索引(该位置索引能够通过融合句嵌入提取)作为位置信息,连接到论证特征形成最终的论辩性表示(argument representation)xs:

x

将句子s的论辩性表示(argument representation)xs送入多层感知器(MLP)层后,得到论辩单元(句子)类别的预测概率分布p(y|s)。

本申请提出了一种新颖的基于transformer的编码器,可以通过将考虑主题词和框架词分开考虑,将论辩单元的结构信息结合到论辩单元的表示学习中。

如今有一些的用于科学文献分析的公开注释数据集,其中大部分侧重于医学和计算机科学。然而,作为一个备受争议的研究领域,气候科学相对受到较少的相关研究关注。为了缩小差距,本申请基于论辩单元的分类方法构建了气候变化论辩性科学文献标注语料库(CCSA),其中,包括了大约20k个经过人工注释的科学文献摘要,CCSA将有助于了解人们对气候问题的看法,尤其是对政策制定者和气候研究人员而言。图4展示了CCSA语料库与现有的几个科学文献注释数据集的比较,CCSA语料库在语料库大小和注释者间一致性方面具有一定的优势。

我们将摘要中的每个句子都视为一个论辩单元。我们的观察表明,大多数论辩单元都可以在句子级别上发现。我们提出了四种类型的论辩单元。

C1)“背景”:解释动机和背景。

C2)“方法”:介绍了实验过程中的方法。

C3)“结果”:包括数据、事实和结果描述,没有任何主观臆测或判断。

C4)“结论”:给出作者的意见。

采用人工作为注释者并被要求为每个论辩单元(句子)分配一种论辩单元的类型(“背景”、“方法”、“结果”和“结论”)。就Fleiss’s Kappa系数[12]而言,论辩单元类型注释的注释者间一致性为0.68,结果较为合适。当标注过程有分歧时,通过投票决定最终结果。如果投票仍然不能确定,则由最有信度的注释者确定最终结果。

其中,CCSA语料库中包含了2,018篇注释的科学文献摘要。图5描述了论辩单元类型的分布。可以看出四个类型的论辩单元的数量分布比较均衡,其中“方法”类型和“结果”类型的论辩单元占比最大。值得注意的是,“结论”类型的论辩单元数量也很多,这意味着作者总是在摘要中表达自己的观点。图3描述了论辩单元的位置分布。说明大多数摘要中论辩单元(句子)的位置是有规律的,即按照“背景”、“方法”、“结果”和“结论”进行排列。

为了模型的比较,我们还实现了SAE模型的一个变体,即参数化SAE(p-SAE),它以更简单的方式利用词项的类型(主题词和框架词)。

具体来说,p-SAE不是使用论辩性注意力机制(argumentative attention)来区分词项的类别,而是为主题词和框架词初始化了一个可学习的嵌入层,并将它们作为输入加入到词项的最初嵌入中,类似于BERT中的段落嵌入(segment embedding),之后将输出的句子嵌入与位置信息连接起来作为最终的论辩性表示(argument representation)。与SAE相比,p-SAE在训练推理时只需要一次参数的前向传递,而SAE需要3次。

在CCSA语料库上,我们将SAE、p-SAE和以下基线模型(Baselines)进行比较:BERT[10]、双向LSTM(Bi-LSTM)[13]和句子编码器(SE),其中句子编码器SE是一个BERT层,上面在加一个Bi-LSTM层,与SAE和p-SAE相比,SE只是BERT和LSTM的叠加,没有考虑词项类型(框架词和主题词)的信息。对于Biomedical-claims语料库,我们同时将原始论文中基于迁移学习(TL)的最新结果作为基线模型(Baseline)。

图6显示了CCSA语料库的主要结果,这表明我们的SAE在论辩单元分类任务上实现了具有竞争力的macro F1值。值得注意的是,SAE对“结论”类型的论辩单元的识别能力提升最大,因为“结论”是最具论辩性的类型,这表明该模型在探索论辩性结构方面具有极好的效果。同样,图7所示的科学文献语料库的结果表明,该模型在识别科学文献方面具有更好的性能。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

需要说明的是,上述实施方式阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,在本说明书中,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

此外,在本说明书中,诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分,而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下,参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个,而可以是元素、部件、或步骤中的一个或多个等。

在本实施方式中,上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。

在本实施方式中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。

尽管本申请内容中提到不同的具体实施例,但是,本申请并不局限于必须是行业标准或实施例所描述的情况等,某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、处理、输出、判断方式等的实施例,仍然可以属于本申请的可选实施方案范围之内。

虽然本申请提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请,本领域普通技术人员知道,本申请有许多变形和变化而不脱离本申请的精神,希望所附的实施方式包括这些变形和变化而不脱离本申请。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号