首页> 中国专利> 一种新闻自动文摘生成方法及装置

一种新闻自动文摘生成方法及装置

摘要

本发明公开了一种新闻自动文摘生成方法及装置。其中,该方法包括:获取原始新闻数据;根据所述原始新闻数据,生成段落标签和关联标签;通过所述段落标签和所述关联标签,将所述原始新闻数据进行拆分,得到新闻数据特征向量;将所述新闻数据特征向量输入至文摘生成模型中,得到新闻文摘数据。本发明解决了现有技术中的新闻文摘生成方法,无法根据新闻内容的数据量来进行智能化的拆分和分层递进生成,因此在新闻文摘生成的时候,由于是大量的数据整合生成,会导致数据生成效率低下、数据生成不精准的技术问题。

著录项

  • 公开/公告号CN114969254A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 北京鼎泰智源科技有限公司;

    申请/专利号CN202210577523.7

  • 发明设计人 高强;

    申请日2022-05-25

  • 分类号G06F16/33(2019.01);G06F16/34(2019.01);G06F16/951(2019.01);G06F40/30(2020.01);G06N3/04(2006.01);G06N3/08(2006.01);

  • 代理机构北京君莫知识产权代理事务所(普通合伙) 11715;

  • 代理人王凝

  • 地址 100096 北京市海淀区清河小营西小口路27号西三旗文化科技园D座A8区二层2001

  • 入库时间 2023-06-19 16:33:23

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):G06F16/33 专利申请号:2022105775237 申请日:20220525

    实质审查的生效

说明书

技术领域

本发明涉及智能化文本处理领域,具体而言,涉及一种新闻自动文摘生成方法及装置。

背景技术

随着智能化科技的不断发展,人们的生活、工作、学习之中越来越多地用到了智能化设备,使用智能化科技手段,提高了人们生活的质量,增加了人们学习和工作的效率。

目前,针对新闻自动文摘的生成,通常采用针对新闻数据进行采集,并根据整段的新闻数据来进行关键词搜索,或者根据预设的词组集合来进行遍历查询操作,从而得到新闻文摘的输入信息,通过神经网络模型或者通过预设的规则矩阵来对新闻文摘进行逐步构成和逐步完善,最终得到成熟可用的新闻文摘。但是现有技术中的新闻文摘生成方法,无法根据新闻内容的数据量来进行智能化的拆分和分层递进生成,因此在新闻文摘生成的时候,由于是大量的数据整合生成,会导致数据生成效率低下、数据生成不精准等技术问题。

针对上述的问题,目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种新闻自动文摘生成方法及装置,以至少解决现有技术中的新闻文摘生成方法,无法根据新闻内容的数据量来进行智能化的拆分和分层递进生成,因此在新闻文摘生成的时候,由于是大量的数据整合生成,会导致数据生成效率低下、数据生成不精准的技术问题。

根据本发明实施例的一个方面,提供了一种新闻自动文摘生成方法,包括:获取原始新闻数据;根据所述原始新闻数据,生成段落标签和关联标签;通过所述段落标签和所述关联标签,将所述原始新闻数据进行拆分,得到新闻数据特征向量;将所述新闻数据特征向量输入至文摘生成模型中,得到新闻文摘数据。

可选的,所述根据所述原始新闻数据,生成段落标签和关联标签包括:将所述原始新闻数据通过标识模型进行识别,得到识别结果,其中,所述识别结果包括:结构识别结果、语义识别结果;根据所述识别结果,生成所述段落标签和所述关联标签。

可选的,所述通过所述段落标签和所述关联标签,将所述原始新闻数据进行拆分,得到新闻数据特征向量包括:通过所述段落标签将所述原始新闻数据进行分区,得到第一新闻数据特征;通过所述关联标签和拉格朗日算子对所述原始新闻数据进行拉格朗日参数混差计算,得到用于表征关联性的第二新闻数据特征;将所述第一新闻数据特征和所述第二新闻数据特征进行融合汇总,得到所述新闻数据特征向量。

可选的,在所述将所述新闻数据特征向量输入至文摘生成模型中,得到新闻文摘数据之前,所述方法还包括:根据历史新闻数据和历史新闻文摘数据训练所述文摘生成模型。

根据本发明实施例的另一方面,还提供了一种新闻自动文摘生成装置,包括:获取模块,用于获取原始新闻数据;生成模块,用于根据所述原始新闻数据,生成段落标签和关联标签;拆分模块,用于通过所述段落标签和所述关联标签,将所述原始新闻数据进行拆分,得到新闻数据特征向量;输入模块,用于将所述新闻数据特征向量输入至文摘生成模型中,得到新闻文摘数据。

可选的,所述生成模块包括:识别单元,用于将所述原始新闻数据通过标识模型进行识别,得到识别结果,其中,所述识别结果包括:结构识别结果、语义识别结果;生成单元,用于根据所述识别结果,生成所述段落标签和所述关联标签。

可选的,所述拆分模块包括:分区单元,用于通过所述段落标签将所述原始新闻数据进行分区,得到第一新闻数据特征;混差单元,用于通过所述关联标签和拉格朗日算子对所述原始新闻数据进行拉格朗日参数混差计算,得到用于表征关联性的第二新闻数据特征;将所述第一新闻数据特征和所述第二新闻数据特征进行融合汇总,得到所述新闻数据特征向量。

可选的,所述装置还包括:训练模块,用于根据历史新闻数据和历史新闻文摘数据训练所述文摘生成模型。

根据本发明实施例的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行一种新闻自动文摘生成方法。

根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行一种新闻自动文摘生成方法。

在本发明实施例中,采用获取原始新闻数据;根据所述原始新闻数据,生成段落标签和关联标签;通过所述段落标签和所述关联标签,将所述原始新闻数据进行拆分,得到新闻数据特征向量;将所述新闻数据特征向量输入至文摘生成模型中,得到新闻文摘数据的方式,解决了现有技术中的新闻文摘生成方法,无法根据新闻内容的数据量来进行智能化的拆分和分层递进生成,因此在新闻文摘生成的时候,由于是大量的数据整合生成,会导致数据生成效率低下、数据生成不精准的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种新闻自动文摘生成方法的流程图;

图2是根据本发明实施例的一种新闻自动文摘生成装置的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例,提供了一种新闻自动文摘生成方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

实施例一

图1是根据本发明实施例的一种新闻自动文摘生成方法的流程图,如图1所示,该方法包括如下步骤:

步骤S102,获取原始新闻数据。

具体的,在本发明实施例汇总,为了根据从网站或者政府数据库中获取新闻的原始数据,来进行新闻摘要自动生成,解决现有技术中的新闻文摘生成方法,无法根据新闻内容的数据量来进行智能化的拆分和分层递进生成,因此在新闻文摘生成的时候,由于是大量的数据整合生成,会导致数据生成效率低下、数据生成不精准的技术问题,可以首先通过网络爬虫或者网络专线数据协议,利用新闻数据数据库进行原始新闻数据的获取,原始新闻数据可以是根据标题关键词进行查找,并将有用的新闻进行采集,还可以通过输入新闻稿件,并将新闻稿件中的图片和文本进行采集,以便得到完成且可以用于摘要生成的新闻原始数据。

步骤S104,根据所述原始新闻数据,生成段落标签和关联标签。

可选的,所述根据所述原始新闻数据,生成段落标签和关联标签包括:将所述原始新闻数据通过标识模型进行识别,得到识别结果,其中,所述识别结果包括:结构识别结果、语义识别结果;根据所述识别结果,生成所述段落标签和所述关联标签。

具体的,在本发明实施例获取到了原始新闻的数据集合之后,需要对原始新闻数据进行处理,以便后续得到新闻数据的准确特征向量,从而生成新闻文摘。例如,在本发明实施例中可以是通过DNN神经网络模型对原始新闻数据的信息进行模型识别操作,并将模型识别参数预设为新闻数据的结构识别和新闻数据的语义识别,通过上述结构和语义识别结果数据,对原始新闻数据的段落和关联标签进行生成。

步骤S106,通过所述段落标签和所述关联标签,将所述原始新闻数据进行拆分,得到新闻数据特征向量。

可选的,所述通过所述段落标签和所述关联标签,将所述原始新闻数据进行拆分,得到新闻数据特征向量包括:通过所述段落标签将所述原始新闻数据进行分区,得到第一新闻数据特征;通过所述关联标签和拉格朗日算子对所述原始新闻数据进行拉格朗日参数混差计算,得到用于表征关联性的第二新闻数据特征;将所述第一新闻数据特征和所述第二新闻数据特征进行融合汇总,得到所述新闻数据特征向量。

具体的,在通过本发明实施例中识别模型所识别的结果可以通过标签配置的方式,用于对原始新闻数据的拆分操作,将所述原始新闻数据进行拆分,得到新闻数据特征向量包括:通过所述段落标签将所述原始新闻数据进行分区,得到第一新闻数据特征;通过所述关联标签和拉格朗日算子对所述原始新闻数据进行拉格朗日参数混差计算,得到用于表征关联性的第二新闻数据特征;将所述第一新闻数据特征和所述第二新闻数据特征进行融合汇总,得到所述新闻数据特征向量。其中,拉格朗日参数混差计算算子计算公式在本发明实施例中可以是:

对于上述拉格朗日差分计算公式,用于特征向量的生成可以解决传统新闻数据摘取过程中的诸多缺点,增加摘取效率和精准度,其中,P是混差计算结束参量,k和n是混差质数因子,x是分布在布拉德坐标系中不同点位的函数因变量,f是函数套用参数,那么根据表征关联性的第二新闻数据特征和根据段落拆分的第一新闻数据特征,进行数据集合和冗余清洗之后,得到可以用于文摘生成模型输入参量的新闻数据特征向量。

步骤S108,将所述新闻数据特征向量输入至文摘生成模型中,得到新闻文摘数据。

可选的,在所述将所述新闻数据特征向量输入至文摘生成模型中,得到新闻文摘数据之前,所述方法还包括:根据历史新闻数据和历史新闻文摘数据训练所述文摘生成模型。

通过上述实施例,解决了现有技术中的新闻文摘生成方法,无法根据新闻内容的数据量来进行智能化的拆分和分层递进生成,因此在新闻文摘生成的时候,由于是大量的数据整合生成,会导致数据生成效率低下、数据生成不精准的技术问题。

实施例二

图2是根据本发明实施例的一种新闻自动文摘生成装置的结构框图,如图2所示,该装置包括:

获取模块20,用于获取原始新闻数据。

具体的,在本发明实施例汇总,为了根据从网站或者政府数据库中获取新闻的原始数据,来进行新闻摘要自动生成,解决现有技术中的新闻文摘生成方法,无法根据新闻内容的数据量来进行智能化的拆分和分层递进生成,因此在新闻文摘生成的时候,由于是大量的数据整合生成,会导致数据生成效率低下、数据生成不精准的技术问题,可以首先通过网络爬虫或者网络专线数据协议,利用新闻数据数据库进行原始新闻数据的获取,原始新闻数据可以是根据标题关键词进行查找,并将有用的新闻进行采集,还可以通过输入新闻稿件,并将新闻稿件中的图片和文本进行采集,以便得到完成且可以用于摘要生成的新闻原始数据。

生成模块22,用于根据所述原始新闻数据,生成段落标签和关联标签。

可选的,所述生成模块包括:识别单元,用于将所述原始新闻数据通过标识模型进行识别,得到识别结果,其中,所述识别结果包括:结构识别结果、语义识别结果;生成单元,用于根据所述识别结果,生成所述段落标签和所述关联标签。

具体的,在本发明实施例获取到了原始新闻的数据集合之后,需要对原始新闻数据进行处理,以便后续得到新闻数据的准确特征向量,从而生成新闻文摘。例如,在本发明实施例中可以是通过DNN神经网络模型对原始新闻数据的信息进行模型识别操作,并将模型识别参数预设为新闻数据的结构识别和新闻数据的语义识别,通过上述结构和语义识别结果数据,对原始新闻数据的段落和关联标签进行生成。

拆分模块24,用于通过所述段落标签和所述关联标签,将所述原始新闻数据进行拆分,得到新闻数据特征向量。

可选的,所述拆分模块包括:分区单元,用于通过所述段落标签将所述原始新闻数据进行分区,得到第一新闻数据特征;混差单元,用于通过所述关联标签和拉格朗日算子对所述原始新闻数据进行拉格朗日参数混差计算,得到用于表征关联性的第二新闻数据特征;将所述第一新闻数据特征和所述第二新闻数据特征进行融合汇总,得到所述新闻数据特征向量。

具体的,在通过本发明实施例中识别模型所识别的结果可以通过标签配置的方式,用于对原始新闻数据的拆分操作,将所述原始新闻数据进行拆分,得到新闻数据特征向量包括:通过所述段落标签将所述原始新闻数据进行分区,得到第一新闻数据特征;通过所述关联标签和拉格朗日算子对所述原始新闻数据进行拉格朗日参数混差计算,得到用于表征关联性的第二新闻数据特征;将所述第一新闻数据特征和所述第二新闻数据特征进行融合汇总,得到所述新闻数据特征向量。其中,拉格朗日参数混差计算算子计算公式在本发明实施例中可以是:

对于上述拉格朗日差分计算公式,用于特征向量的生成可以解决传统新闻数据摘取过程中的诸多缺点,增加摘取效率和精准度,其中,P是混差计算结束参量,k和n是混差质数因子,x是分布在布拉德坐标系中不同点位的函数因变量,f是函数套用参数,那么根据表征关联性的第二新闻数据特征和根据段落拆分的第一新闻数据特征,进行数据集合和冗余清洗之后,得到可以用于文摘生成模型输入参量的新闻数据特征向量。

输入模块26,用于将所述新闻数据特征向量输入至文摘生成模型中,得到新闻文摘数据。

可选的,所述装置还包括:训练模块,用于根据历史新闻数据和历史新闻文摘数据训练所述文摘生成模型。

根据本发明实施例的另一方面,还提供了一种非易失性存储介质,所述非易失性存储介质包括存储的程序,其中,所述程序运行时控制非易失性存储介质所在的设备执行一种新闻自动文摘生成方法。

具体的,上述方法包括:获取原始新闻数据;根据所述原始新闻数据,生成段落标签和关联标签;通过所述段落标签和所述关联标签,将所述原始新闻数据进行拆分,得到新闻数据特征向量;将所述新闻数据特征向量输入至文摘生成模型中,得到新闻文摘数据。

根据本发明实施例的另一方面,还提供了一种电子装置,包含处理器和存储器;所述存储器中存储有计算机可读指令,所述处理器用于运行所述计算机可读指令,其中,所述计算机可读指令运行时执行一种新闻自动文摘生成方法。

具体的,上述方法包括:获取原始新闻数据;根据所述原始新闻数据,生成段落标签和关联标签;通过所述段落标签和所述关联标签,将所述原始新闻数据进行拆分,得到新闻数据特征向量;将所述新闻数据特征向量输入至文摘生成模型中,得到新闻文摘数据。

通过上述实施例,解决了现有技术中的新闻文摘生成方法,无法根据新闻内容的数据量来进行智能化的拆分和分层递进生成,因此在新闻文摘生成的时候,由于是大量的数据整合生成,会导致数据生成效率低下、数据生成不精准的技术问题。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号