文本生成
文本生成的相关文献在1989年到2023年内共计657篇,主要集中在自动化技术、计算机技术、中国文学、语言学
等领域,其中期刊论文126篇、会议论文6篇、专利文献132091篇;相关期刊91种,包括天府新论、现代图书情报技术、信息网络安全等;
相关会议6种,包括全国第七届计算语言学联合学术会议、第十五届全国计算语言学学术会议(CCL2016)暨第四届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD-2016)、辽宁省通信学会2019年度学术年会等;文本生成的相关文献由1514位作者贡献,包括李磊、刘挺、冯骁骋等。
文本生成—发文量
专利文献>
论文:132091篇
占比:99.90%
总计:132223篇
文本生成
-研究学者
- 李磊
- 刘挺
- 冯骁骋
- 李浩然
- 秦兵
- 王鹏
- 刘鑫
- 周浩
- 徐亮
- 王健宗
- 王少军
- 肖欣延
- 胡志鹏
- 范长杰
- 金戈
- 黄民烈
- 刘丽
- 刘家辰
- 刘志强
- 夏鲁瑞
- 庄伯金
- 张占月
- 李森
- 林郁
- 胡国平
- 邓黎明
- 陈刚
- 陈雪旗
- 乐小虬
- 刘俊华
- 刘庆峰
- 刘康
- 刘晓江
- 吴华
- 吴蔓
- 周明
- 张林箭
- 张聪
- 方昕
- 李丕绩
- 李健
- 李怀松
- 王影
- 王明轩
- 王芝燕
- 窦晓妍
- 罗俊海
- 罗雨
- 罗飞
- 肖春霞
-
-
薛琪;
孟祥福;
张峰;
张霄雁;
朱金侠;
朱尧;
王丹丹
-
-
摘要:
文本生成是自然语言处理的一项重要任务.针对生成的文本大多缺乏多样性,且当生成文本过长时,文本生成的质量会有明显下降的问题,提出了一种采用Sentences and Words(SW)奖励机制的传递向量文本生成对抗网络.首先,为生成器提出了层次结构设计,包括传递特征向量训练模块和生成向量训练模块,同时传递判别模型中真实文本特征向量给生成器的传递特征向量训练模块,由此来提高长文本生成的准确率,生成向量训练模块接收其生成词序列;然后,在训练过程中,使用关系存储核心代替传统的长短期记忆循环神经网络模型作为生成器,提高了模型的表达能力和捕获信息的能力;最后,采用SW奖励机制提高文本生成的多样性.实验结果表明,分层学习的多奖励文本生成对抗网络(Generation Adversarial Network Based on Hierarchical Learning with Multi-reward Text,HLMGAN)模型在合成数据负对数似然度和双语互译质量评估辅助工具指标中均有所提升.
-
-
冯骁骋;
秦兵;
刘挺
-
-
摘要:
议论文自动生成是自然语言生成中一项极具挑战性的任务,与诗歌、故事等生成任务不同,议论文文章长度更长,且要求具有明确的核心论点和清晰的论证结构。上述特点使得现有的生成模型难以直接迁移。本文基于已有自然语言生成相关技术从抽取和生成两个维度分别论述了面向高考议论文的自动生成模型。与已有方法不同的是,两个系统都充分结合议论文自身结构特点设计了不同的优化方案,抽取式模型采用词到句、句到段的多步生成方式,可解释性和可控性更强;生成式方法在学习篇章结构的基础上端到端地逐段生成作文样例,行文更加流畅。最终本文还展示了相关方案的生成样例,并针对当前不足对议论文自动生成任务的未来发展方向进行展望。
-
-
杨子聪;
焦文彬;
刘晓东;
汪洋
-
-
摘要:
基于结构化数据的文本生成是自然语言生成领域重要的研究方向,其可以将传感器采集或计算机统计分析得到的结构化数据转化为适宜人阅读理解的自然语言文本,因此也成为了实现报告自动生成的重要技术.研究基于结构化数据到文本生成的模型为报告中的各类数值型数据生成分析性文本具有重要的实际应用价值.本文针对数值型数据的特点,提出了一种融合coarse-to-fine aligner选择机制和linked-based attention注意力机制的编码器-解码器文本生成模型,考虑了生成数值型数据的分析性文本过程中内容过度分散、无法突出描述的问题,另外也将数值型数据具体所属的域进行了关系建模,以提高生成文本中语序的正确性.实验结果表明,本文提出的融合两种机制的模型,比仅使用传统的基于内容的注意力机制和在前者基础上增加使用linked-based attention注意力机制的模型,以及基于GPT2的模型在指标上都具有更好的表现,证明了本文提出的模型在生成数值型数据的分析性文本任务中具有一定的效果.
-
-
李萧洋;
周安民
-
-
摘要:
随着信息过载问题日益严重,对新闻长文本进行自动摘要,不仅可以帮助读者实现快速精准地浏览,也能够减少撰写摘要所需要的人力物力。现有的自动文摘算法主要分为抽取式和生成式两大类,前者注重从原文抽取关键句子,后者倾向于模仿人类总结摘要的过程对原文进行理解和压缩。然而现有的算法中,面向中文长文本摘要的研究较少,并且大多数算法都聚焦于提升生成摘要的可读性而忽略了事实准确性。针对以上问题,本文提出了一种基于实体注意力的生成式摘要算法,将实体注意力与时序注意力相结合,并将实体信息引入了损失函数。经实验,所提出的模型在中文长文本数据集CLTS上取得了45.86的ROUGE-L得分,和其他模型相比能生成具有更高可读性的摘要。
-
-
陈章辉;
熊贇
-
-
摘要:
图像描述旨在为输入的图像生成描述文本以准确描述图像内容,而图像的风格化描述在此基础上引入了对语言风格的考虑,恰当表达出特定的语言风格,使得模型生成的描述文本更具多样性。为了更好地在生成的描述文本中融入风格元素,提出了基于解耦-检索-生成的图像风格化描述生成模型。该模型首先将风格化语料中的句子拆分成内容词汇和风格词汇,并构建了一个内容-风格词汇的记忆模块;然后根据图像的事实描述从记忆模块中检索出与之相匹配的风格词汇;最后将图像的事实描述和检索出的风格词汇输入语言模型中生成风格描述。在真实数据集上的实验结果表明,相比已有方法,所提模型在各项评价指标上都有着更好的性能表现,可以在描述图像内容的同时表达出特定的风格。
-
-
李思雨;
程芃森;
刘嘉勇
-
-
摘要:
深度学习技术的发展使得基于深度神经网络的方法成为自然语言处理(Natural Language Processing,NLP)领域的一种新解决思路。虽然神经网络技术能够有效提升生成文本的质量,但是生成文本的内容很容易偏离作者原本要表达的语义。笔者按照人们的写作习惯,即先构思出各部分的主题再进行写作的方式,提出基于交叉项编码的关键词主题控制文本生成模型。与其他模型相比,该模型生成的句子不仅在双语互译质量评估(Bilingual Evaluation Understudy,BLEU)中的得分更高,Correlation值也要高于其他模型。
-
-
林俊旸;
周畅;
杨红霞
-
-
摘要:
阿里巴巴达摩院研发了超大规模中文多模态预训练模型M6,并陆续推出了百亿、千亿、万亿和十万亿参数规模的预训练模型,实现了高效低碳的预训练,推动超大规模预训练模型的产业化应用。同时,推出了M6服务化平台,帮助广大用户快速使用大模型。未来,大模型在产业领域的应用将更加丰富。
-
-
侯丹阳;
庞亮;
丁汉星;
兰艳艳;
程学旗
-
-
摘要:
基于大规模语料训练的语言模型,在文本生成任务上取得了突出性能表现。然而研究发现,这类语言模型在受到扰动时可能会产生攻击性的文本。这种不确定的攻击性给语言模型的研究和实际使用带来了困难,为了避免风险,研究人员不得不选择不公开论文的语言模型。因此,如何自动评价语言模型的攻击性成为一项亟待解决的问题。针对该问题,该文提出了一种语言模型攻击性的自动评估方法。它分为诱导和评估两个阶段。在诱导阶段,基于即插即用可控文本生成技术,利用训练好的文本分类模型提供的梯度方向更新语言模型的激活层参数,增加生成的文本具有攻击性的可能性。在评估阶段,利用训练好的文本分类模型的判别能力,估计诱导产生的攻击性文本的占比,用以评估语言模型的攻击性。实验评估了不同设置下的预训练模型的攻击性水平,结果表明该方法能够自动且有效地评估语言模型的攻击性,并进一步分析了语言模型的攻击性与模型参数规模、训练语料以及前置单词之间的关系。
-
-
徐宇;
杨频
-
-
摘要:
随着文本生成算法的快速发展,生成语句通顺、逻辑性强的新闻已经成为可能。但是人类检测机器生成新闻的能力是有限的,因此本文提出了RoBerta-BiLstm-Attention的检测框架,以实现机器生成新闻的自动检测。首先使用RoBerta的词嵌入表示新闻文本,RoBerta能很好的捕捉新闻的语义信息,提高词嵌入关联上下文的质量。然后将新闻的嵌入表示输入到BiLstm-Attention神经网络中。通过微调GPT2构建的机器生成新闻数据集进行了实验测试。实验表明本文提出的方法在检测解码策略是核采样和序列长度为125的机器生成新闻时,相比于目前最好的方法F1值和准确率都提升了近2%,召回率提升了5.56%。在检测解码策略是topK和序列长度为125的机器生成新闻时,无论是准确率和F1值都比目前最好的方法提高了4%左右。
-
-
林孔杰;
许艺雯
-
-
摘要:
气象服务文本是气象服务产品的主要形式。使用自然语言技术自动生成气象服务文本将有效提高气象服务水平。文章首先总结了自然语言处理技术在国内外的研究现状,以及其在气象服务文本的应用,其次梳理了在气象服务领域下自然语言处理技术生成文本的基本技术路线,同时对其未来的应用发展提出想法,为今后的相关工作做参考。
-
-
代威;
陈博;
熊振
- 《辽宁省通信学会2019年度学术年会》
| 2019年
-
摘要:
生成式对抗网络的诞生,使得神经网络和机器学习领域的研究有了许多突破性进展.语言模型的离散空间输出形式,限制了基于梯度的生成式对抗网络在自然语言处理问题上的能力.WGAN作为生成式对抗网络的变体,成功将GANs的应用数据空间由连续数据空间推广至离散数据空间.本文在WGAN的基础上,分析总结了神经网络研究在文本生成任务中存在的问题,结合生成式对抗网络的性质和优点,提出了无监督的字符级文本生成方法LabelGANs.它是在WGAN的基础上将生成式对抗网络应用于离散文本序列生成的创新应用,结合噪声数据空间分布特点和约束方法,为生成式对抗网络在文本任务的研究提供了参考.
-
-
孙乃琨
- 《2015年中国艺术人类学国际学术研讨会》
| 2015年
-
摘要:
对抗战民歌民谣的民俗学研究一方面多从类与量的整体上来研究,另一方面多从民歌本身的语言学及音乐学角度着手,做文本研究.又因为抗战民歌民谣创作时间持续长,作者多作品量大,地域分布广,影响范围大,题材内容社会性强,丰富深刻并且文学形式灵活多样,而造成对抗战民歌民谣研究的困难与空缺,这也与民俗学之前研究方法相关——多关注民俗事象起源与呈现传统.可随着民俗学研究当代化的转向,本文试图从民歌民谣本体与类中跳脱出来,分析《歌唱二小放牛郎》歌谣与"王二小"民间故事的关系,探讨《歌唱二小放牛郎》的文本生成与媒介传播问题,打开新的思考传统历史的一扇门.
-
-
刘文生
- 《第八届中国市县医院“云”论坛》
| 2020年
-
摘要:
传统的诊疗场景正在发生变化,在门诊诊室内,除医患双方外,可能还会有一个"第三者".不是医生助手,也不是患者家属,而是一个类似平板的智能机器人.依托声学处理、语音识别、知识图谱、对话理解、文本生成等技术,它可以替医生准确书写出一份完整的电子病历.它就是左手医生推出的最新AI产品——诊室听译机器人.
-
-
易绵竹;
南振兴;
李绍哲;
薛恩奎
- 《全国第七届计算语言学联合学术会议》
| 2003年
-
摘要:
20世纪60年代中期,由前苏联学者伊戈尔·梅里丘克等创立的《意思←→文本》模型是一种研究意思及其表达形式(文本)之间双向对应关系的语言学理论,其目标是模拟人的语言能力—文本的生成与理解机制,其基本思想成为随后兴起的莫斯科语义学派的方法论纲领.近年来,该模型受到国际学术界的广泛关注,并成功地应用于词典编纂和机器翻译设计.在本文我们将着重介绍该模型的理论框架及其主要构件,这对于我国计算语言学的基础研究必有助益.
-
-
Jie Zhu;
朱杰;
Junhui Li;
李军辉;
Longhua Qian;
钱龙华
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
抽象语义表示到文本(AMR-to-text)生成的任务是给定AMR图,生成相同意义表示的文本.可以把此任务当成一个从源端AMR图到目标端句子的翻译任务.然而,传统的序列到序列(seq2seq,简称S2S)的方法,使用循环递归网络进行编码,并不能很好的解决长短期依赖的问题.当前最好的性能是图到序列(graph2seq,简称G2S)的模型,使用了图模型直接对AMR图结构进行编码,但对于非直接相连的节点依然会损失大量的结构信息.针对上述问题,基于seq2seq框架,提出了一种直接而有效的AMR-to-text生成方法.在这项工作中,引入了当前最优的seq2seq模型Transformer作为基准模型,并且使用字节对编码(简称BPE)和共享词表的方法联合来对未登录词(简称OOV)的问题进行处理.在现有的两份英文标准数据集上,实验结果都取得了显著的提升,达到了新的最高性能.
-
-
Jie Zhu;
朱杰;
Junhui Li;
李军辉;
Longhua Qian;
钱龙华
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
抽象语义表示到文本(AMR-to-text)生成的任务是给定AMR图,生成相同意义表示的文本.可以把此任务当成一个从源端AMR图到目标端句子的翻译任务.然而,传统的序列到序列(seq2seq,简称S2S)的方法,使用循环递归网络进行编码,并不能很好的解决长短期依赖的问题.当前最好的性能是图到序列(graph2seq,简称G2S)的模型,使用了图模型直接对AMR图结构进行编码,但对于非直接相连的节点依然会损失大量的结构信息.针对上述问题,基于seq2seq框架,提出了一种直接而有效的AMR-to-text生成方法.在这项工作中,引入了当前最优的seq2seq模型Transformer作为基准模型,并且使用字节对编码(简称BPE)和共享词表的方法联合来对未登录词(简称OOV)的问题进行处理.在现有的两份英文标准数据集上,实验结果都取得了显著的提升,达到了新的最高性能.
-
-
Jie Zhu;
朱杰;
Junhui Li;
李军辉;
Longhua Qian;
钱龙华
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
抽象语义表示到文本(AMR-to-text)生成的任务是给定AMR图,生成相同意义表示的文本.可以把此任务当成一个从源端AMR图到目标端句子的翻译任务.然而,传统的序列到序列(seq2seq,简称S2S)的方法,使用循环递归网络进行编码,并不能很好的解决长短期依赖的问题.当前最好的性能是图到序列(graph2seq,简称G2S)的模型,使用了图模型直接对AMR图结构进行编码,但对于非直接相连的节点依然会损失大量的结构信息.针对上述问题,基于seq2seq框架,提出了一种直接而有效的AMR-to-text生成方法.在这项工作中,引入了当前最优的seq2seq模型Transformer作为基准模型,并且使用字节对编码(简称BPE)和共享词表的方法联合来对未登录词(简称OOV)的问题进行处理.在现有的两份英文标准数据集上,实验结果都取得了显著的提升,达到了新的最高性能.
-
-
Jie Zhu;
朱杰;
Junhui Li;
李军辉;
Longhua Qian;
钱龙华
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
抽象语义表示到文本(AMR-to-text)生成的任务是给定AMR图,生成相同意义表示的文本.可以把此任务当成一个从源端AMR图到目标端句子的翻译任务.然而,传统的序列到序列(seq2seq,简称S2S)的方法,使用循环递归网络进行编码,并不能很好的解决长短期依赖的问题.当前最好的性能是图到序列(graph2seq,简称G2S)的模型,使用了图模型直接对AMR图结构进行编码,但对于非直接相连的节点依然会损失大量的结构信息.针对上述问题,基于seq2seq框架,提出了一种直接而有效的AMR-to-text生成方法.在这项工作中,引入了当前最优的seq2seq模型Transformer作为基准模型,并且使用字节对编码(简称BPE)和共享词表的方法联合来对未登录词(简称OOV)的问题进行处理.在现有的两份英文标准数据集上,实验结果都取得了显著的提升,达到了新的最高性能.
-
-
Jie Zhu;
朱杰;
Junhui Li;
李军辉;
Longhua Qian;
钱龙华
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
抽象语义表示到文本(AMR-to-text)生成的任务是给定AMR图,生成相同意义表示的文本.可以把此任务当成一个从源端AMR图到目标端句子的翻译任务.然而,传统的序列到序列(seq2seq,简称S2S)的方法,使用循环递归网络进行编码,并不能很好的解决长短期依赖的问题.当前最好的性能是图到序列(graph2seq,简称G2S)的模型,使用了图模型直接对AMR图结构进行编码,但对于非直接相连的节点依然会损失大量的结构信息.针对上述问题,基于seq2seq框架,提出了一种直接而有效的AMR-to-text生成方法.在这项工作中,引入了当前最优的seq2seq模型Transformer作为基准模型,并且使用字节对编码(简称BPE)和共享词表的方法联合来对未登录词(简称OOV)的问题进行处理.在现有的两份英文标准数据集上,实验结果都取得了显著的提升,达到了新的最高性能.
-