首页> 中文会议>中国中文信息学会二十五周年学术会议 >基于网络化数据挖掘策略的中文多文档自动文摘研究

基于网络化数据挖掘策略的中文多文档自动文摘研究

摘要

多文档自动文摘是近期自然语言处理领域的一项热点研究课题.文中提出了一种基于网络化数据挖掘策略的中文多文档自动文摘方法,该方法的特色在于生成的摘要具有全面而简洁的特性,其内容能同时获得主题覆盖和冗余之间的平衡.考虑到同一主题的文档集合其潜在子主题的分布往往符合段落密度特性,提出了以段落为中心的研究方法,利用网络模型来表达段落并模拟段落间的语义相关性联系,利用网络化数据挖掘策略来自适应地划分段落语义网络中的各抱团结构并依此识别文档集合中的各潜在子主题,通过对子主题中心句子单元的抽取及排列生成最终的摘要.此外,一种基于句子向量相似度的方法被用来自动评价生成摘要的覆盖度和冗余度,通过与几种典型的多文档摘要方法的实验比较及对自动评价和人工评价结果的统计相关性分析验证了该方法的可行性和有效性.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号