首页> 中国专利> 基于标签自适应文本表征的大规模多标签文本分类方法

基于标签自适应文本表征的大规模多标签文本分类方法

摘要

本发明公开了一种基于标签自适应文本表征的大规模多标签文本分类方法。本发明首先探索文本的标签自适应表征,来同时有效地处理在大规模多标签分类下的头标签与尾标签的分类性能;利用预训练的语言模型为文本学习一个表征池,从而使得不同的标签可以关注不同的表征完成相关性判别。同时考虑到深度模型和长文本的特性,提出了文本表征增强,保证池中表征的差异性和全面性。因此,本发明能够给大规模标签提供有效的判别性文本特征来提升预测性能。与目前的大规模多标签算法相比,本发明一方面可以保证大规模多标签的整体分类性能,另一方面也保证尾标签能更好地关注细节文本特征,其性能优于当前最先进的大规模多标签算法。

著录项

  • 公开/公告号CN115658906A

    专利类型发明专利

  • 公开/公告日2023-01-31

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN202211395781.X

  • 发明设计人 陈珂;彭程;寿黎但;骆歆远;陈刚;

    申请日2022-11-08

  • 分类号G06F16/35;G06F40/126;G06N3/04;G06N3/08;

  • 代理机构杭州求是专利事务所有限公司;

  • 代理人邱启旺

  • 地址 310058 浙江省杭州市西湖区余杭塘路866号

  • 入库时间 2023-06-19 18:25:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-31

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及一种大规模多标签文本分类技术,尤其涉及一种基于标签自适应文本表征的大规模多标签文本分类方法(Label Adaptive Representation based Large-Scale Multi-Label Text Classification,LAR-LMTC)。

背景技术

大规模多标签文本分类(Large-Scale Multi-Label Text Classification,LMTC)的目的是从大规模标签池中为每个文本分配最相关的标签子集。如今,大规模多标签文本分类因其广泛的应用范围,出现在生产与生活中的方方面面,如电子商务动态搜索推荐、法律判决和医疗诊断等,同时在学术界受到了广泛的关注。

由于数据的分布特性,LMTC中的标签往往表现出很高的稀疏性、多样性和偏倚性,严重影响了分类性能。为了解决这个问题,大量的研究已经提出通过引入新的优化目标或利用标签层次结构来解决这些问题。然而,对于如何学习LMTC中有效的文本表示却鲜有人关注。现有的文本表示学习方法主要有以下两种:(1)一种简单的方法是学习整体文本表征(Holistic Text Representation,HTR),即为全标签学习一个共享的文本表征。然而,头部标签(数据集中普遍存在的标签)很容易主导学习过程,从而使尾部标签(具有稀疏样本的标签)的学习受到抑制,并损害预测性能。(2)另一种方法是基于注意力网络将文本分解为多个标签特定的文本表征(Label-Specific Representation,LSR)。然而由于标签稀疏,尾部标签的学习容易过拟合。此外,对尾部标签的过度关注也会影响头部标签的预测性能。因此,现有的研究并没有对LMTC中的表示学习进行足够的研究,尤其是尾部标签的表示学习。

发明内容

针对现有技术的不足,本发明的目的在于提供一种基于标签自适应表征算法的大规模多标签文本分类方法。

本发明所采用的技术方案如下:一种基于标签自适应文本表征的大规模多标签文本分类方法,包括如下步骤:

(1)对于数据集中的每一个原始文本x

(2)利用本文基特征构造文本表征池,在构造表征池时使表征为标签不可知;

(3)实现大规模标签与文本表征池间的自适应匹配:在构建文本表征池M

本发明具有的有益效果是:

1、通过两方面特征增强生成的文本表征池可以更好的涵盖文本中的判别行信息;

2、标签可以通过自适应性匹配到与自身最相关的文本表征,因此每个表征不必再关注于全部标签的学习,同时也更利于尾标签关联到细节性文本特征。大量实验证明本发明提出的LAR-LMTC的预测性能优于当前最先进的LMTC算法,可以有效地处理LMTC任务。

具体实施方式

现结合具体实施例对本发明的技术方案作进一步说明。

给定训练数据集

本发明具体实施例及其实施过程如下:

步骤一:对于数据集中的每一个原始文本x

首先将原始文本x

然后,分别从特征深度和文本粒度两方面进行特征增强来生成文本基特征。

方面一:模型深度方面的特征增强。使用预训练语言模型的多层特征来获取更多文本语义信息。实际上,LMTC并不是一种标准的平面多标签分类,大规模标签通常隐藏着标签层次,这将促使标签关注不同的语义。

将长为L

方面二:文本粒度方面的特征增强。由于Transformer-based模型利用自注意机制(Self-Attention Mechanism)在长文本内保持长距离依赖,特征的学习始终处于全局感受域下,削弱了大量局部信息的表达。由于尾部标签倾向于关注细节信息,单一的全局特征将失去大量的鉴别信息。利用碎片文本序列来补充细粒度的文本特征。首先,将长度为L

随后,将原始序列q

步骤二:利用两方面的本文基特征构造文本表征池,欲使大规模标签可自适应匹配池中表征,在构造表征池时使表征为标签不可知的(Label-Agnostic)。为文本学习一个表征池有两方面好处:一方面,多个表征可以描述文本的不同方面,即不同的表征强调文本的不同判别性特征,允许标签自适应匹配其相关表征。另一方面,表征池降低了获取错误文本表达的风险,使所有表征能够协同完成全标签分类任务。

分别利用文本基特征H

将H

其中,w

同理,利用文本基特征H

步骤三:实现大规模标签与文本表征池间的自适应匹配。在构建文本表征池M

对于每一个注意力表征

随后,整合所有注意力标注与全标签的相关性分数,获得矩阵

最后,利用二元交叉熵损失(Binary Cross-Entropy Loss,BCE Loss)作为目标函数计算损失,如下:

同理,利用表征池M

通过多任务学习模式结合以上两个损失可获得最终损失

步骤四:利用学习到的模型获,预测输入文本x与相关标签。首先,获得序列化的输入q

结合二者获得最终的分数

最后,得到

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号