首页> 中国专利> 对文本进行分类的方法、装置以及存储介质

对文本进行分类的方法、装置以及存储介质

摘要

本申请公开了一种对文本进行分类的方法、装置以及存储介质。其中,该方法包括:从待分类文本中获取用于分类的多个基本词元;确定与基本词元对应的词元拼音;以及利用预先训练的根据词元和拼音进行分类的文本分类模型,根据多个基本词元和相应的词元拼音,确定待分类文本的类别。从而,实现了综合中文词语和汉语拼音对文本进行分类的目的,与单纯通过文本或者文本拼音进行模型训练及文本分类相比,达到了提升结果的精确率、准确率以及召回率指标的技术效果,此外还保留了原始汉字同音意义词本身意义不同的特点,同时克服了互联网错别字词的影响,能有效提高中文文本分类的效果和泛化能力。

著录项

  • 公开/公告号CN112364159A

    专利类型发明专利

  • 公开/公告日2021-02-12

    原文格式PDF

  • 申请/专利权人 北京中关村科金技术有限公司;

    申请/专利号CN201910684756.5

  • 发明设计人 乔宏利;罗欢;权圣;

    申请日2019-07-26

  • 分类号G06F16/35(20190101);G06F40/289(20200101);G06F40/205(20200101);G06K9/62(20060101);

  • 代理机构11694 北京万思博知识产权代理有限公司;

  • 代理人刘冀

  • 地址 100000 北京市海淀区后屯南路26号4层5-03-2

  • 入库时间 2023-06-19 09:52:39

说明书

技术领域

本申请涉及计算机和人工智能领域,特别是涉及一种对文本进行分类的方法、装置以及存储介质。

背景技术

文本分类是机器学习技术应用于NLP(自然语言处理)领域的主要应用形式之一,通过对普通文本,针对不同语义标签的文本分类,可以实现对特定语义空间内的语义识别和意图预测功能。

现有文本分类技术,多是按照先进行文本词向量训练,然后采用各种机器学习算法进行文本词向量计算的方法。由于在实际网络应用环境中,例如在智能客服、聊天机器人的应用领域,输入的文本数据往往会带有一些同音错误输入,如同音词、同音字,也就是输入本身往往有噪音,例如:在训练样本过程中输入的语料中相关位置既有“简朴”,也出现了“简普”,这样训练出来的模型,如果实际使用时,用户在该位置输入的错别词是“减谱”,那么模型是不能泛化到这种变异体的。因此,用这样的语料训练文本分类器,或者用标准语料训练分类器去识别这样的真实用户输入,往往会影响实际效果。此外,单纯通过文本进行分类,对用户输入的同音错别字会按照不同的字词结果统计和表示,增加了无效的词元,影响分类计算和语义识别;而单纯通过拼音分类,又不能准确区分大量的同音异义词,把本该区分的词元视作相同,因此会对最终结果产生影响。

针对上述的现有技术中存在的单纯通过中文词语或者汉语拼音的方式进行分类模型训练以及对文本进行分类,由于输入过程中可能产生同音错别字、同音词、同音字等噪音,影响分类结果准确性的技术问题,目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种对文本进行分类的方法、装置以及存储介质,以至少解决现有技术中存在的单纯通过中文词语或者汉语拼音的方式进行分类模型训练以及对文本进行分类,由于输入过程中可能产生同音错别字、同音词、同音字等噪音,影响分类结果准确性的技术问题。

根据本公开实施例的一个方面,提供了一种对文本进行分类的方法,包括:从待分类文本中获取用于分类的多个基本词元;确定与基本词元对应的词元拼音;以及利用预先训练的根据词元和拼音进行分类的文本分类模型,根据多个基本词元和相应的词元拼音,确定待分类文本的类别。

根据本公开实施例的另一个方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面,还提供了一种对文本进行分类的装置,包括:获取模块,用于从待分类文本中获取用于分类的多个基本词元;确定模块,用于确定与基本词元对应的词元拼音;以及分类模块,用于利用预先训练的根据词元和拼音进行分类的文本分类模型,根据多个基本词元和相应的词元拼音,确定待分类文本的类别。

根据本公开实施例的另一个方面,还提供了一种对文本进行分类的装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:从待分类文本中获取用于分类的多个基本词元;确定与基本词元对应的词元拼音;以及利用预先训练的根据词元和拼音进行分类的文本分类模型,根据多个基本词元和相应的词元拼音,确定待分类文本的类别。

在本公开实施例中,通过从待分类文本中获取用于分类的多个基本词元,然后确定与基本词元对应的词元拼音,最终利用预先训练的根据词元和拼音进行分类的文本分类模型,根据多个基本词元和相应的词元拼音,确定待分类文本的类别。其中文本分类模型也是通过语料的中文词语和相应的汉语拼音训练得到的。因此,实现了综合中文词语和汉语拼音对文本进行分类的目的,与单纯通过文本或者文本拼音进行模型训练及文本分类相比,达到了提升结果的精确率、准确率以及召回率指标的技术效果,此外还保留了原始汉字同音意义词本身意义不同的特点,同时克服了互联网错别字词的影响,能有效提高中文文本分类的效果和泛化能力。进而解决了现有技术中存在的单纯通过中文词语或者汉语拼音的方式进行分类模型训练以及对文本进行分类,由于输入过程中可能产生同音错别字、同音词、同音字等噪音,影响分类结果准确性的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:

图1是用于实现根据本公开实施例1所述的方法的【计算机终端(或移动设备)】的硬件结构框图;

图2是根据本公开实施例1的第一个方面所述的对文本进行分类的方法的流程示意图;

图3是根据本公开实施例2所述的对文本进行分类的装置的示意图;以及

图4是根据本公开实施例3所述的对文本进行分类的装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例,提供了一种对文本进行分类的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现对文本进行分类的方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输模块106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中的对文本进行分类的方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的对文本进行分类的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下,根据本实施例的第一个方面,提供了一种对文本进行分类的方法,图2示出了该方法的流程示意图,参考图2所示,该方法包括:

S202:从待分类文本中获取用于分类的多个基本词元;

S204:确定与基本词元对应的词元拼音;以及

S206:利用预先训练的根据词元和拼音进行分类的文本分类模型,根据多个基本词元和相应的词元拼音,确定待分类文本的类别。

正如背景技术中所述的,现有文本分类技术,多是按照先进行文本词向量训练,然后采用各种机器学习算法进行文本词向量计算的方法。由于在实际网络应用环境中,例如在智能客服、聊天机器人的应用领域,输入的文本数据往往会带有一些同音错误输入,如同音词、同音字,也就是输入本身往往有噪音,用这样的语料训练文本分类器,或者用标准语料训练分类器去识别这样的真实用户输入,往往会影响实际效果。此外,单纯通过文本进行分类,对用户输入的同音错别字会按照不同的字词结果统计和表示,增加了无效的词元,影响分类计算和语义识别;而单纯通过拼音分类,又不能准确区分大量的同音异义词,把本该区分的词元视作相同,因此会对最终结果产生影响。

具体地,针对背景技术中存在的现有文本分类方式中存在的问题,本实施例技术方案首先从待分类文本中获取用于分类的多个基本词元。获取基本词元的具体过程可以是首先对待分类文本进行分词操作得到多个词元,然后利用词表从多个词元中筛选基本词元。例如:待分类文本为“周末和小明去打球”,对应的分词为(周末、小明、打球),词表例如可以是[周末、打球、打游戏],得到的待分类文本对应的基本词元为(周末、打球)。需要说明的是,词表是利用语料训练分类模型过程中产生的,后面有相应的说明。

进一步地,确定与基本词元对应的词元拼音,即词元拼音为(zhoumodaqiu)。最终,利用预先训练的根据词元和拼音进行分类的文本分类模型,根据多个基本词元(周末、打球)和相应的词元拼音(zhoumo daqiu),确定待分类文本的类别,其中文本分类模型也是通过语料的中文词语和相应的汉语拼音训练得到的。

从而通过这种方式,首先从待分类文本中获取用于分类的多个基本词元,然后确定与基本词元对应的词元拼音,最终利用预先设置的根据词元和拼音进行分类的文本分类模型,根据多个基本词元和相应的词元拼音,确定待分类文本的类别。因此,实现了综合中文词语和汉语拼音对文本进行分类的目的,与单纯通过文本或者文本拼音对文本进行分类相比,避免了同音字、错别字对结果的影响,达到了提升结果的精确率、准确率以及召回率指标的技术效果。进而解决了现有技术中存在的单纯通过中文词语或者汉语拼音的方式对文本进行分类,由于输入过程中可能产生同音错别字、同音词、同音字等噪音,影响分类结果准确性的技术问题。

可选地,确定待分类文本的类别的操作,包括:确定多个基本词元和相应的词元拼音各自所对应的词向量;以及利用文本分类模型,根据所确定的基本词元的词向量以及相应的词元拼音的词向量,确定待分类文本的类别。

具体地,确定待分类文本的类别的操作中,首先确定多个基本词元和相应的词元拼音各自所对应的词向量,例如:通过词嵌入算法计算每个基本词元及相应的词元拼音进行计算,得到各自的词向量(例如:“周末”对应的词向量为[0.1,0.2,0.3...],“zhoumo”对应的词向量为[-0.1,0.02,0.03...])。通过这种方式,可以将文本和拼音转化成计算机可识别的向量,进而完成计算。

可选地,根据所确定的基本词元的词向量以及相应的词元拼音的词向量,确定待分类文本的类别的操作,包括:将多个基本词元的词向量以及相应的词元拼音的词向量进行组合,生成与待分类文本对应的组合信息;以及利用文本分类模型,根据组合信息,确定待分类文本的类别。

具体地,根据所确定的基本词元的词向量以及相应的词元拼音的词向量,确定待分类文本的类别的操作中,首先将基本词元和词元拼音的词向量进行组合,其中组合的方式可以为平铺串接,增维对齐等等,然后生成待分类文本对应的组合信息。最终,利用文本分类模型,根据组合信息,确定待分类文本的类别。

可选地,还包括根据以下操作,生成组合信息:将多个基本词元的词向量按照所述待分类文本的原文顺序进行排列;以及将词元拼音的词向量按照与多个基本词元相应的顺序排列在多个基本词元的词向量之后。

具体地,生成组合信息的操作中,首先将多个基本词元的词向量按照所述待分类文本的原文顺序进行排列,即<周末><打球>,然后将词元拼音的词向量按照与多个基本词元相应的顺序排列在多个基本词元的词向量之后,最终得到的一种组合信息例如为:<周末><打球>,对应的词向量排列例如是:[0.1,0.2,0.3...],[-0.1,0.02,0.03...],[.....],[......]。

可选地,还包括根据以下操作,生成组合信息:将多个基本词元对应的词元拼音的词向量按照顺序进行排列;以及将多个基本词元的词向量按照与词元拼音相应的顺序排列在词元拼音的词向量之后。

具体地,生成组合信息的操作中,首先将多个基本词元对应的词元拼音的词向量按照顺序进行排列,然后将多个基本词元的词向量按照与词元拼音相应的顺序排列在词元拼音的词向量之后,即得到的另一种组合信息为:

<周末><打球>,对应的词向量排列例如是:

[0.2,0.3,0.4...],[0.2,0.3,0.5..],[....],[.....]。

可选地,还包括根据以下操作,生成组合信息:将基本词元的词向量与词元拼音的词向量按照交叉的方式排列,其中词元拼音的词向量邻接设置于相应的基本词元的词向量之前或之后。

具体地,将基本词元的词向量与词元拼音的词向量按照交叉的方式排列,其中词元拼音的词向量邻接设置于相应的基本词元的词向量之前,得到的另一种组合信息为:<周末><打球>,对应的词向量排列例如是:[0.1,0.2,0.3...],[.....],[-0.1,0.02,0.03...],[......]。

将基本词元的词向量与词元拼音的词向量按照交叉的方式排列,其中词元拼音的词向量邻接设置于相应的基本词元的词向量之前,得到的另一种组合信息为:<周末><打球>对应的词向量排列例如是:

[0.2,0.3,0.4...],[....],[0.2,0.3,0.5..],[.....]。

上述的四种组合信息可单独利用文本分类模型进行文本的分类,也可以组合起来作为矩阵,利用分类模型进行分类,需要说明的是由于每个词元及拼音的排列方式不同,因此词嵌入计算得到的词向量结果可能不同。最终的分类操作中,对于输入的词向量组合的方式可以采用堆叠或拼接的方式。

从而通过这种方式,可以通过四种表示形式,进而得到四组词向量,将四种词向量组合成为矩阵。用预设的分类算法训练得到分类模型,将待预测文本也按照这种方式生成输入参数矩阵,输入到训练得到的分类模型中,根据模型输出进而完成文本分类。由于结合了文本和拼音的不同排列形式,因此与单纯通过文本或者文本拼音相比,其精确率,准确率,召回率指标均有显著提升,因为本模型不仅挖掘的文本词汇关联,也充分学习了词音序列关系。

可选地,确定待分类文本的类别的操作,还包括:将基本词元的词向量和相应的词元拼音的词向量分别作为不同的输入,输入至对应的分类模型,确定待分类文本的类别。

具体地,确定待分类文本的类别的操作中,首先将基本词元的词向量和相应的词元拼音的词向量分别作为不同的输入,即:将基本词元(周末、打球)和词元拼音(zhoumodaqiu)分别作为不同的输入,然后进行组合,组合方法可以为平铺串接,增维对齐,降维对齐。最终,利用对应组合训练语料训练得到的分类模型进行文本分类。从而,又增加了一种分类输入,使得分类结果更加准确。

此外,参考图1所示,根据本实施例的第二个方面,提供了一种存储介质104。所述存储介质104包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的方法。

此外,本实施例还提供了一种训练分类模型的方法,具体步骤包括:

从分类语料中确定第一词表,所述第一词表用于记录所述分类语料中出现的高语义词元。其中,分类语料中包括多条语料,例如:

语料一:周末打游戏。

语料二:周末去打球,然后去打游戏。

语料三:去公园打球,然后去吃饭。

语料四:周一去饭店吃饭,然后去打球。

........

进一步地,对语料进行分词操作,以语料一为例,语料一分词得到的结果是(周末,游戏)。然后,从所有语料中获取分词结果,即所有语料分词得到的所有词语,例如可以是(周末,打球,游戏,公园,周一,饭店,吃饭),然后统计各个词语的词频(即,每个词语出现的次数)并根据词频进行排序,得到:打球(3)、周末(2)、游戏(2)、吃饭(2)、公园(1)、周一(1)、饭店(1)。从上述排序结果中选择预定数量的词语,其中可以通过设定阈值的方式,例如:大于阈值2的词语作为高频词语(高频词语:打球、周末、游戏、吃饭)。然后根据tf-idf算法从高频词语中选择高语义词元(即,筛选对分类语料重要的词语),例如:经过计算得到上述语料中的高语义词元为(周末、打球、游戏)。需要说明的是,利用tf-idf算法选择高语义词元为本领域技术人员公知的技术,此处不再赘述具体方式。然后,确定第二词表,第二词表是第一词表中的词对应的汉语拼音,因此第二词表为:[zhoumo daqiu youxi]。组合第一词表和第二词表得到第三词表,第三词表为:[周末打球游戏zhoumo daqiu youxi]。

进一步地,利用第三词表对分类语料进行表示得到相应的语料表。以语料一为示例,利用第三词表对语料一进行表示的一种方式例如是:去除第一词表之外的词得到词元序列C1(周末游戏),对C1中的每个词利用第二词表顺序表示,得到词元拼音序列C2,表示方法为C1+C2,即语料一对应的语料表为:<周末游戏zhoumo youxi>。

进一步地,对得到的语料表进行词嵌入训练,得到每个词的词向量。例如:<周末>对应的词向量为[0.1,0.2,0.3....],<游戏>对应的词向量为[-0.1,0.5,0.2....]等。其中词向量训练方法为常规的方法,为本领域技术人员可以理解的,此处不再赘述。然后,根据训练得到的向量表示语料表得到训练输入(即,用词语的向量代替语料表中的词语得到矩阵形式)。

以语料一为示例,利用第三词表对语料一进行表示的另一种方式为:去除第一词表之外的词得到词元序列C1(周末游戏),对C1中的每个词利用第二词表顺序表示,得到词元拼音序列C2,表示方法为C2+C1,即语料一对应的另一种语料表为:

以语料一为示例,利用第三词表对语料一进行表示的另一种方式为:去除第一词表之外的词得到词元序列C1(周末游戏),在C1中的每个词语后面加上第二词表中对应的拼音,即语料一对应的另一种语料表为:<周末zhoumo游戏youxi>。

以语料一为示例,利用第三词表对语料一进行表示的另一种方式为:去除第一词表之外的词得到词元序列C1(周末游戏),在C1中的每个词语前面加上第二词表中对应的拼音,即语料一对应的另一种语料表为:

然后对语料一的每一种语料表进行词嵌入训练得到四组词嵌入表,四个不同的表里,同一个词语的词嵌入向量不一定是相同的。例如“周末”在第一种表示下训练得到的词嵌入表里,它的对应向量是[0.1,0.2,0.3,....],它在第二个词嵌入表里的表示则可能是[-0.1,0.05,0.003,....]。

此外,还包括将词元的词向量和相应的拼音的词向量分别作为不同的输入,即:以语料一为例,将词元(周末、打球)和词元拼音(zhoumo daqiu)分别作为不同的输入,然后进行组合,组合方法方法可以为平铺串接,增维对齐,降维对齐。例如训练过程可以采用WDL算法,将词元对应的词特征作为W层输入,将词元拼音特征作为D层输入,然后利用WDL算法进行模型训练,得到分类模型。

进一步地,将四种词嵌入表中对应的向量进行堆叠或者拼接,得到语料一的训练输入,从而得到训练的输入矩阵。最终将各个标记语料的输入矩阵利用预定算法(SVM,LR,NN神经网络,WDL)进行训练,得到分类模型。

此外,需要补充说明的是,本方案中的词元可以是根据分词算法计算出的自然汉语词语,也可以是通过N-Gram切分得到的字连接,都不影响本方案所要保护的范围。

从而根据本实施例,通过从待分类文本中获取用于分类的多个基本词元,然后确定与基本词元对应的词元拼音,最终利用上文所述训练等得到的的根据词元和拼音进行分类的文本分类模型,根据多个基本词元和相应的词元拼音,确定待分类文本的类别。其中文本分类模型也是通过语料的中文词语和相应的汉语拼音训练得到的。因此,实现了综合中文词语和汉语拼音训练分类模型以及对文本进行分类的目的,与单纯通过文本或者文本拼音进行模型训练及文本分类相比,达到了提升结果的精确率、准确率以及召回率指标的技术效果。进而解决了现有技术中存在的单纯通过中文词语或者汉语拼音的方式训练模型以及对文本进行分类,由于输入过程中可能产生同音错别字、同音词、同音字等噪音,影响分类结果准确性的技术问题。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图3示出了根据本实施例所述的对文本进行分类的装置300,该装置300与根据实施例1的第一个方面所述的方法相对应。参考图3所示,该装置300包括:获取模块310,用于从待分类文本中获取用于分类的多个基本词元;确定模块320,用于确定与基本词元对应的词元拼音;以及分类模块330,用于利用预先训练的根据词元和拼音进行分类的文本分类模型,根据多个基本词元和相应的词元拼音,确定待分类文本的类别。

可选地,分类模块330,包括:确定子模块,用于确定多个基本词元和相应的词元拼音各自所对应的词向量;以及第一分类子模块,用于利用文本分类模型,根据所确定的基本词元的词向量以及相应的词元拼音的词向量,确定待分类文本的类别。

可选地,第一分类子模块,包括:组合单元,用于将多个基本词元的词向量以及相应的词元拼音的词向量进行组合,生成与待分类文本对应的组合信息;以及分类单元,用于利用文本分类模型,根据组合信息,确定待分类文本的类别。

可选地,组合单元,包括:第一排列子单元,用于将多个基本词元的词向量按照所述待分类文本的原文顺序进行排列;以及第二排列子单元,用于将词元拼音的词向量按照与多个基本词元相应的顺序排列在多个基本词元的词向量之后。

可选地,组合单元,还包括:第三排列子单元,用于将多个基本词元对应的词元拼音的词向量按照顺序进行排列;以及第四排列子单元,用于将多个基本词元的词向量按照与词元拼音相应的顺序排列在词元拼音的词向量之后。

可选地,组合单元,还包括:第五排列子单元,用于将基本词元的词向量与词元拼音的词向量按照交叉的方式排列,其中词元拼音的词向量邻接设置于相应的基本词元的词向量之前或之后。

可选地,分类模块330,还包括:第二分类子模块,用于将基本词元的词向量和相应的词元拼音的词向量分别作为不同的输入,输入至文本分类模型,确定待分类文本的类别。

从而根据本实施例,通过对文本进行分类的装置300实现了综合中文词语和汉语拼音对文本进行分类的目的,与单纯通过文本或者文本拼音进行文本分类相比,达到了提升结果的精确率、准确率以及召回率指标的技术效果。进而解决了现有技术中存在的单纯通过中文词语或者汉语拼音的方式对文本进行分类,由于输入过程中可能产生同音错别字、同音词、同音字等噪音,影响分类结果准确性的技术问题。

实施例3

图4示出了根据本实施例所述的对文本进行分类的装置400,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:处理器410;以及存储器420,与处理器410连接,用于为处理器410提供处理以下处理步骤的指令:从待分类文本中获取用于分类的多个基本词元;确定与基本词元对应的词元拼音;以及利用预先训练的根据词元和拼音进行分类的文本分类模型,根据多个基本词元和相应的词元拼音,确定待分类文本的类别。

可选地,确定待分类文本的类别的操作,包括:确定多个基本词元和相应的词元拼音各自所对应的词向量;以及利用文本分类模型,根据所确定的基本词元的词向量以及相应的词元拼音的词向量,确定待分类文本的类别。

可选地,根据所确定的基本词元的词向量以及相应的词元拼音的词向量,确定待分类文本的类别的操作,包括:将多个基本词元的词向量以及相应的词元拼音的词向量进行组合,生成与待分类文本对应的组合信息;以及利用文本分类模型,根据组合信息,确定待分类文本的类别。

可选地,存储器420还用于为处理器410提供处理以下处理步骤的指令:根据以下操作,生成组合信息:将多个基本词元的词向量按照所述待分类文本的原文顺序进行排列;以及将词元拼音的词向量按照与多个基本词元相应的顺序排列在多个基本词元的词向量之后。

可选地,存储器420还用于为处理器410提供处理以下处理步骤的指令:根据以下操作,生成组合信息:将多个基本词元对应的词元拼音的词向量按照顺序进行排列;以及将多个基本词元的词向量按照与词元拼音相应的顺序排列在词元拼音的词向量之后。

可选地,存储器420还用于为处理器410提供处理以下处理步骤的指令:根据以下操作,生成组合信息:将基本词元的词向量与词元拼音的词向量按照交叉的方式排列,其中词元拼音的词向量邻接设置于相应的基本词元的词向量之前或之后。

可选地,确定待分类文本的类别的操作,还包括:将基本词元的词向量和相应的词元拼音的词向量分别作为不同的输入,输入至文本分类模型,确定待分类文本的类别。

从而根据本实施例,通过对文本进行分类的装置400实现了综合中文词语和汉语拼音对文本进行分类的目的,与单纯通过文本或者文本拼音进行文本分类相比,达到了提升结果的精确率、准确率以及召回率指标的技术效果。进而解决了现有技术中存在的单纯通过中文词语或者汉语拼音的方式对文本进行分类,由于输入过程中可能产生同音错别字、同音词、同音字等噪音,影响分类结果准确性的技术问题。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号