公开/公告号CN114943209A
专利类型发明专利
公开/公告日2022-08-26
原文格式PDF
申请/专利权人 哈尔滨福涛科技有限责任公司;
申请/专利号CN202210527298.6
申请日2022-05-16
分类号G06F40/166(2020.01);G06N20/00(2019.01);
代理机构哈尔滨奥博专利代理事务所(普通合伙) 23220;
代理人叶以方
地址 150001 黑龙江省哈尔滨市南岗区学府路251号哈尔滨职业技术学院大学生创新创业园发展有限公司217室
入库时间 2023-06-19 16:31:45
法律状态公告日
法律状态信息
法律状态
2022-09-13
实质审查的生效 IPC(主分类):G06F40/166 专利申请号:2022105272986 申请日:20220516
实质审查的生效
技术领域
本发明涉及一种议论文首尾段生成方法,属于自然语言处理领域。
背景技术
作文首尾段生成任务是根据作文题目、关键词等辅助信息生成作文的首段或尾段的文本生成任务。目前的自然语言处理领域中没有专门研究过议论文首尾段的生成方法,但作为一种文本生成任务,其与某些文本生成任务有一定的相似之处。故事生成任务要求研究者利用给定的故事开头,使用自然语言处理方法将完整故事补全,在这个过程中没有全文整体的信息,而是需要模型或方法根据有限的内容进行推理,获得结果。而议论文首尾段生成过程中,也无法获得全文整体信息,只能根据作文题目、关键词等辅助信息推理出段落的完整样貌。但是与故事生成任务不同的是,故事生成任务的输入往往是连贯的完整一句话,而议论文首尾段任务在生成过程中接受的是离散化的输入。与此同时,不是所有的输入都对生成结果同等重要,因此在生成过程中需要对不同内容进行不同程度的关注。
目前在自然语言处理领域中,议论文首尾段生成相关研究存在着以下不足:
1、缺少相应的训练语料,因此缺乏针对议论文首尾段生成任务的研究;
2、缺少对议论文首尾段生成任务的分析与建模;
3、缺少议论文首尾段生成任务用于比较性能的对比模型。
发明内容
本发明为解决目前自然语言处理领域中没有专门研究过议论文首尾段生成方法的问题,进而提出一种基于深度学习和规则结合的议论文首尾段生成方法。
本发明为解决上述问题采取的技术方案是:本发明所述方法的具体步骤如下:
步骤一、使用标注好的数据训练深度学习模型;
步骤二、将生成类型、作文题目和辅助内容输入生成系统中;
步骤三、生成系统根据输入内容生成议论文首段或尾段;
步骤四、对系统生成结构使用规则进行调整,获得议论文首段或尾段生成结果。
进一步的,步骤二中生成类型包括首段生成和尾段生成。
进一步的,步骤二中辅助内容包括关键词和主题词。
进一步的,步骤三中采用深度学习模型生成:Encoder层利用深度学习模型将输入映射为向量,所得向量输入到Decoder层,Decoder层在词表中多次选择当前生成词,将生成词按顺序构成首段或尾段生成的结果。
进一步的,步骤四中当获得首段或尾段生成的结果后,将其中存在的特殊符号除去,得到最终的生成结果。
本发明的有益效果是:本发明针对当前缺少对议论文首尾段生成任务的分析与建模的现状,将其建模为离散化输入的故事生成任务,并标注得到语料,利用深度学习和规则结合的方法,可以自动根据给定的作文题目、关键词等辅助信息生成作文的首段或尾段,无需人工处理。该发明在节省了人力成本的同时,在应用到作文辅助写作的过程中,会使得参考结果更具有针对性,可以更好地为学生提供帮助。
附图说明
图1是深度学习议论文首尾段生成模型训练过程;
图2是深度学习议论文首尾段生成模型预测(生成)过程;
图3是议论文首段生成结果示例;
图4是议论文尾段生成结果示例;
图5是议论文首尾段生成流程示例。
具体实施方式
具体实施方式一:结合图1至图2说明本实施方式,本实施方式所述一种基于深度学习和规则结合的议论文首尾段生成方法是通过如下步骤实现的:
步骤一、使用标注好的数据训练深度学习模型;
步骤二、将生成类型、作文题目和辅助内容输入生成系统中;
步骤三、生成系统根据输入内容生成议论文首段或尾段;
步骤四、对系统生成结构使用规则进行调整,获得议论文首段或尾段生成结果。
本实施方式的步骤一中需要标注出作文是否为议论文,并对标记出的议论文结果进行统计收集;在获得议论文首段以及尾段之后,分别使用它们各自训练深度学习模型;训练好的模型可以用于议论文首尾段的生成;
在步骤二中,系统根据用户需要生成的是首段还是尾段选择不同的生成模型,然后生成对应结果;由于生成的结果中可能含有一定的表示句子边界的特殊符号,因此需要对系统生成结果进行一定调整(如删除特殊符号),获得最终的议论文首段或尾段的生成结果。
具体实施方式二:结合图1至图2说明本实施方式,本实施方式所述一种基于深度学习和规则结合的议论文首尾段生成方法的步骤二中生成类型包括首段生成和尾段生成。
具体实施方式三:结合图1至图2说明本实施方式,本实施方式所述一种基于深度学习和规则结合的议论文首尾段生成方法的步骤二中辅助内容包括关键词和主题词。
具体实施方式四:结合图1至图2说明本实施方式,本实施方式所述一种基于深度学习和规则结合的议论文首尾段生成方法的步骤三中采用深度学习模型生成:Encoder层利用深度学习模型将输入映射为向量,所得向量输入到Decoder层,Decoder层在词表中多次选择当前生成词,将生成词按顺序构成首段或尾段生成的结果。
具体实施方式五:结合图1至图2说明本实施方式,本实施方式所述一种基于深度学习和规则结合的议论文首尾段生成方法的步骤四中当获得首段或尾段生成的结果后,将其中存在的特殊符号除去,得到最终的生成结果。
实施例一
议论文首段生成方法如下:
步骤一、将作文题目及首段关键词输入到生成系统中;
步骤二、生成系统根据输入内容生成议论文首段;
步骤三、对系统生成结果进行调整,获得议论文首段生成结果;
步骤三(一)、将作文题目及关键词输入到生成系统中:
系统需要使用者提供作文题目及首段的关键词内容,将其按照“作文题目,关键词”的顺序拼接起来,题目与关键词之间、关键词与关键词之间使用逗号分隔;
步骤三(二)、生成系统根据输入内容生成议论文首段:
在进行生成前,首先需要训练生成模型,该模型基于预训练模型BART,引入句子语义相似度预测任务让模型学习到句子级别的信息,以使得模型可以根据当前已经生成的句子预测在生成下一句时需要包含的语义内容,指导议论文首段生成;模型结构如图1所示,由于目标文本可能包含多个句子,为了对每个句子的语义单独建模,在每个句子起始处引入特殊表示
Loss=Loss
公式(1)中,Loss
公式(2)中,K表示目标句子数,第i个目标句子与输入使用中文RoBERTa模型编码后的句子级余弦相似度,再经过线性缩放后获得t
公式(3)中,sen
在使用预先标注好的议论文首段数据训练好生成模型后,在预测时将模型视为简单的BART模型:Encoder层利用深度学习模型将输入映射为向量,所得向量输入到Decoder层,Decoder层在词表中多次选择当前最可能生成词,这些词按顺序构成首段生成的结果。
其生成过程如图2所示;
步骤三(三)、对系统生成结果进行调整,获得议论文首段生成结果;
由于训练过程中在Decoder端添加了特殊标识符,因此在获得首段生成结果之后,应当将其去除,参照图3所示,获得真正的可供人阅读的首段生成结果。
实施例二
议论文尾段生成方法如下:
步骤一、将作文题目及尾段关键词输入到生成系统中;
步骤二、生成系统根据输入内容生成议论文尾段;
步骤三、对系统生成结果进行调整,获得议论文尾段生成结果;
步骤三(一)、将作文题目及关键词输入到生成系统中:
系统需要使用者提供作文题目及尾段的关键词内容,将其按照“作文题目、关键词”的顺序拼接起来,题目与关键词之间、关键词与关键词之间使用逗号分隔;
步骤三(二)、生成系统根据输入内容生成议论文尾段:
在进行生成前,首先需要训练生成模型。该模型基于预训练模型BART,引入句子语义相似度预测任务让模型学习到句子级别的信息,以使得模型可以根据当前已经生成的句子预测在生成下一句时需要包含的语义内容,指导议论文尾段生成;模型结构如图1所示;由于目标文本可能包含多个句子,为了对每个句子的语义单独建模,在每个句子起始处引入特殊标识
Loss=Loss
公式(1)中,Loss
公式(2)中,K为目标句子数,第i个目标句子与输入使用中文RoBERTa模型编码后的句子级余弦相似度,再经过线性缩放后获得t
公式(3)中,sen
在使用预先标注好的议论文尾段数据训练好生成模型后,在预测时将模型视为简单的BART模型:Encoder层利用深度学习模型将输入映射为向量,所得向量输入到Decoder层,Decoder层在词表中多次选择当前最可能生成词,这些词按顺序构成尾段生成的结果。
其生成过程如图2所示;
步骤三(三)、对系统生成结果进行调整,获得议论文首段生成结果:
由于训练过程中在Decoder端添加了特殊标识符,因此在获得尾段生成结果之后,应当将其去除,参照图4所示,获得真正的可供人阅读的尾段生成结果。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。
机译: 基于歌曲和用户影响力与渠道规则特征相结合的生成音乐推荐的系统,方法和装置
机译: 一种用于为基于规则的驾驶员辅助生成控制数据的方法
机译: 一种用于为基于规则的驾驶员辅助生成控制数据的方法