您现在的位置: 首页> 研究主题> 文本生成

文本生成

文本生成的相关文献在1989年到2023年内共计657篇,主要集中在自动化技术、计算机技术、中国文学、语言学 等领域,其中期刊论文126篇、会议论文6篇、专利文献132091篇;相关期刊91种,包括天府新论、现代图书情报技术、信息网络安全等; 相关会议6种,包括全国第七届计算语言学联合学术会议、第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)、辽宁省通信学会2019年度学术年会等;文本生成的相关文献由1514位作者贡献,包括李磊、刘挺、冯骁骋等。

文本生成—发文量

期刊论文>

论文:126 占比:0.10%

会议论文>

论文:6 占比:0.00%

专利文献>

论文:132091 占比:99.90%

总计:132223篇

文本生成—发文趋势图

文本生成

-研究学者

  • 李磊
  • 刘挺
  • 冯骁骋
  • 李浩然
  • 秦兵
  • 王鹏
  • 刘鑫
  • 周浩
  • 徐亮
  • 王健宗
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

作者

    • 薛琪; 孟祥福; 张峰; 张霄雁; 朱金侠; 朱尧; 王丹丹
    • 摘要: 文本生成是自然语言处理的一项重要任务.针对生成的文本大多缺乏多样性,且当生成文本过长时,文本生成的质量会有明显下降的问题,提出了一种采用Sentences and Words(SW)奖励机制的传递向量文本生成对抗网络.首先,为生成器提出了层次结构设计,包括传递特征向量训练模块和生成向量训练模块,同时传递判别模型中真实文本特征向量给生成器的传递特征向量训练模块,由此来提高长文本生成的准确率,生成向量训练模块接收其生成词序列;然后,在训练过程中,使用关系存储核心代替传统的长短期记忆循环神经网络模型作为生成器,提高了模型的表达能力和捕获信息的能力;最后,采用SW奖励机制提高文本生成的多样性.实验结果表明,分层学习的多奖励文本生成对抗网络(Generation Adversarial Network Based on Hierarchical Learning with Multi-reward Text,HLMGAN)模型在合成数据负对数似然度和双语互译质量评估辅助工具指标中均有所提升.
    • 冯骁骋; 秦兵; 刘挺
    • 摘要: 议论文自动生成是自然语言生成中一项极具挑战性的任务,与诗歌、故事等生成任务不同,议论文文章长度更长,且要求具有明确的核心论点和清晰的论证结构。上述特点使得现有的生成模型难以直接迁移。本文基于已有自然语言生成相关技术从抽取和生成两个维度分别论述了面向高考议论文的自动生成模型。与已有方法不同的是,两个系统都充分结合议论文自身结构特点设计了不同的优化方案,抽取式模型采用词到句、句到段的多步生成方式,可解释性和可控性更强;生成式方法在学习篇章结构的基础上端到端地逐段生成作文样例,行文更加流畅。最终本文还展示了相关方案的生成样例,并针对当前不足对议论文自动生成任务的未来发展方向进行展望。
    • 杨子聪; 焦文彬; 刘晓东; 汪洋
    • 摘要: 基于结构化数据的文本生成是自然语言生成领域重要的研究方向,其可以将传感器采集或计算机统计分析得到的结构化数据转化为适宜人阅读理解的自然语言文本,因此也成为了实现报告自动生成的重要技术.研究基于结构化数据到文本生成的模型为报告中的各类数值型数据生成分析性文本具有重要的实际应用价值.本文针对数值型数据的特点,提出了一种融合coarse-to-fine aligner选择机制和linked-based attention注意力机制的编码器-解码器文本生成模型,考虑了生成数值型数据的分析性文本过程中内容过度分散、无法突出描述的问题,另外也将数值型数据具体所属的域进行了关系建模,以提高生成文本中语序的正确性.实验结果表明,本文提出的融合两种机制的模型,比仅使用传统的基于内容的注意力机制和在前者基础上增加使用linked-based attention注意力机制的模型,以及基于GPT2的模型在指标上都具有更好的表现,证明了本文提出的模型在生成数值型数据的分析性文本任务中具有一定的效果.
    • 李萧洋; 周安民
    • 摘要: 随着信息过载问题日益严重,对新闻长文本进行自动摘要,不仅可以帮助读者实现快速精准地浏览,也能够减少撰写摘要所需要的人力物力。现有的自动文摘算法主要分为抽取式和生成式两大类,前者注重从原文抽取关键句子,后者倾向于模仿人类总结摘要的过程对原文进行理解和压缩。然而现有的算法中,面向中文长文本摘要的研究较少,并且大多数算法都聚焦于提升生成摘要的可读性而忽略了事实准确性。针对以上问题,本文提出了一种基于实体注意力的生成式摘要算法,将实体注意力与时序注意力相结合,并将实体信息引入了损失函数。经实验,所提出的模型在中文长文本数据集CLTS上取得了45.86的ROUGE-L得分,和其他模型相比能生成具有更高可读性的摘要。
    • 陈章辉; 熊贇
    • 摘要: 图像描述旨在为输入的图像生成描述文本以准确描述图像内容,而图像的风格化描述在此基础上引入了对语言风格的考虑,恰当表达出特定的语言风格,使得模型生成的描述文本更具多样性。为了更好地在生成的描述文本中融入风格元素,提出了基于解耦-检索-生成的图像风格化描述生成模型。该模型首先将风格化语料中的句子拆分成内容词汇和风格词汇,并构建了一个内容-风格词汇的记忆模块;然后根据图像的事实描述从记忆模块中检索出与之相匹配的风格词汇;最后将图像的事实描述和检索出的风格词汇输入语言模型中生成风格描述。在真实数据集上的实验结果表明,相比已有方法,所提模型在各项评价指标上都有着更好的性能表现,可以在描述图像内容的同时表达出特定的风格。
    • 李思雨; 程芃森; 刘嘉勇
    • 摘要: 深度学习技术的发展使得基于深度神经网络的方法成为自然语言处理(Natural Language Processing,NLP)领域的一种新解决思路。虽然神经网络技术能够有效提升生成文本的质量,但是生成文本的内容很容易偏离作者原本要表达的语义。笔者按照人们的写作习惯,即先构思出各部分的主题再进行写作的方式,提出基于交叉项编码的关键词主题控制文本生成模型。与其他模型相比,该模型生成的句子不仅在双语互译质量评估(Bilingual Evaluation Understudy,BLEU)中的得分更高,Correlation值也要高于其他模型。
    • 林俊旸; 周畅; 杨红霞
    • 摘要: 阿里巴巴达摩院研发了超大规模中文多模态预训练模型M6,并陆续推出了百亿、千亿、万亿和十万亿参数规模的预训练模型,实现了高效低碳的预训练,推动超大规模预训练模型的产业化应用。同时,推出了M6服务化平台,帮助广大用户快速使用大模型。未来,大模型在产业领域的应用将更加丰富。
    • 侯丹阳; 庞亮; 丁汉星; 兰艳艳; 程学旗
    • 摘要: 基于大规模语料训练的语言模型,在文本生成任务上取得了突出性能表现。然而研究发现,这类语言模型在受到扰动时可能会产生攻击性的文本。这种不确定的攻击性给语言模型的研究和实际使用带来了困难,为了避免风险,研究人员不得不选择不公开论文的语言模型。因此,如何自动评价语言模型的攻击性成为一项亟待解决的问题。针对该问题,该文提出了一种语言模型攻击性的自动评估方法。它分为诱导和评估两个阶段。在诱导阶段,基于即插即用可控文本生成技术,利用训练好的文本分类模型提供的梯度方向更新语言模型的激活层参数,增加生成的文本具有攻击性的可能性。在评估阶段,利用训练好的文本分类模型的判别能力,估计诱导产生的攻击性文本的占比,用以评估语言模型的攻击性。实验评估了不同设置下的预训练模型的攻击性水平,结果表明该方法能够自动且有效地评估语言模型的攻击性,并进一步分析了语言模型的攻击性与模型参数规模、训练语料以及前置单词之间的关系。
    • 徐宇; 杨频
    • 摘要: 随着文本生成算法的快速发展,生成语句通顺、逻辑性强的新闻已经成为可能。但是人类检测机器生成新闻的能力是有限的,因此本文提出了RoBerta-BiLstm-Attention的检测框架,以实现机器生成新闻的自动检测。首先使用RoBerta的词嵌入表示新闻文本,RoBerta能很好的捕捉新闻的语义信息,提高词嵌入关联上下文的质量。然后将新闻的嵌入表示输入到BiLstm-Attention神经网络中。通过微调GPT2构建的机器生成新闻数据集进行了实验测试。实验表明本文提出的方法在检测解码策略是核采样和序列长度为125的机器生成新闻时,相比于目前最好的方法F1值和准确率都提升了近2%,召回率提升了5.56%。在检测解码策略是topK和序列长度为125的机器生成新闻时,无论是准确率和F1值都比目前最好的方法提高了4%左右。
    • 林孔杰; 许艺雯
    • 摘要: 气象服务文本是气象服务产品的主要形式。使用自然语言技术自动生成气象服务文本将有效提高气象服务水平。文章首先总结了自然语言处理技术在国内外的研究现状,以及其在气象服务文本的应用,其次梳理了在气象服务领域下自然语言处理技术生成文本的基本技术路线,同时对其未来的应用发展提出想法,为今后的相关工作做参考。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号