首页> 中文期刊> 《中文信息学报》 >一种面向长文本小数据集自动摘要任务的数据增强策略

一种面向长文本小数据集自动摘要任务的数据增强策略

         

摘要

当前长文本自动摘要任务缺乏充足的数据集,限制了该领域相关算法、模型的研究。数据增强是在不直接补充训练数据的情况下增加训练数据的方法。针对上述长文本自动摘要数据缺乏问题,基于CogLTX框架,该文提出了一种面向长文本自动摘要任务的数据增强方法EMDAM(Extract-Merge Data Augmentation Method)。EMDAM主要分为抽取和归并两个核心环节。首先,从原有长文本数据集中“抽取”得到若干短句;其次,将抽取出的短句按照定义顺序“归并”为长文本;最终形成满足限定条件的新增长文本数据集。与基线模型相比较,该文在PubMED_Min、CNN/DM_Min、news2016zh_Min数据集上采用增强策略能明显提高基线模型的性能;而在SLCTDSets上使用该文的数据集增强策略,最终的Rouge得分相比未使用增强策略的模型提高了近两个百分点。上述实验结果表明,EMDAM可以在小数据集上进行扩展,为文本摘要研究提供数据支持。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号