一种面向长文本小数据集自动摘要任务的数据增强策略

皮洲; 奚雪峰; 崔志明; 周国栋

首页> 中文期刊> 《中文信息学报》 >一种面向长文本小数据集自动摘要任务的数据增强策略

一种面向长文本小数据集自动摘要任务的数据增强策略

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

当前长文本自动摘要任务缺乏充足的数据集,限制了该领域相关算法、模型的研究。数据增强是在不直接补充训练数据的情况下增加训练数据的方法。针对上述长文本自动摘要数据缺乏问题,基于CogLTX框架,该文提出了一种面向长文本自动摘要任务的数据增强方法EMDAM(Extract-Merge Data Augmentation Method)。EMDAM主要分为抽取和归并两个核心环节。首先,从原有长文本数据集中“抽取”得到若干短句;其次,将抽取出的短句按照定义顺序“归并”为长文本;最终形成满足限定条件的新增长文本数据集。与基线模型相比较,该文在PubMED_Min、CNN/DM_Min、news2016zh_Min数据集上采用增强策略能明显提高基线模型的性能;而在SLCTDSets上使用该文的数据集增强策略,最终的Rouge得分相比未使用增强策略的模型提高了近两个百分点。上述实验结果表明,EMDAM可以在小数据集上进行扩展,为文本摘要研究提供数据支持。

著录项

来源
《中文信息学报》 |2022年第9期|46-56|共11页
作者
皮洲; 奚雪峰; 崔志明; 周国栋;
展开▼
作者单位

苏州科技大学电子与信息工程学院;

苏州市虚拟现实智能交互及应用技术重点实验室;

苏州大学计算机科学与技术学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
数据增强; TextRank; Seq2Seq; 生成式摘要;

相似文献

中文文献
外文文献
专利

1. TP-AS:一种面向长文本的两阶段自动摘要方法 [J] . 王帅 ,赵翔 ,李博 . 中文信息学报 . 2018,第6期
2. 一种面向自动文本摘要特征评价的新方法 [J] . 王大亮 ,孙建涛 ,陆玉昌 . 计算机工程与应用 . 2004,第033期
3. 一种面向多维数据集的经营问题自动诊断方法 [J] . 胡波 ,陈保国 . 信息与电脑 . 2017,第024期
4. 藏文文本摘要数据集 [J] . 闫晓东 ,王羿钦 ,黄硕 . 中国科学数据:中英文网络版 . 2022,第2期
5. 文本摘要常用数据集和方法研究综述 [J] . 侯圣峦 ,张书涵 ,费超群 . 中文信息学报 . 2019,第005期
6. 面向非任务型对话系统的人工标注中文数据集 [C] . Jing Li ,李菁 ,Haisong Zhang . 第十七届全国计算语言学学术会议暨第六届基于自然标注大数据的自然语言处理国际学术研讨会（CCL 2018） . 2018
7. 大规模短文本摘要数据集的构建与自动过滤方法 [A] . 祝方泽 . 2015

一种面向长文本小数据集自动摘要任务的数据增强策略

摘要

著录项

相似文献

相关主题

期刊订阅