首页> 中文期刊> 《情报学报》 >基于关键词的学术文本聚类集成研究

基于关键词的学术文本聚类集成研究

         

摘要

文本聚类是一种无监督且高效的文本类别划分方法.从文本中抽取的关键词代表了文本主旨内容,基于关键词的文本聚类是当下主流方式之一.在学术文本聚类研究中,主要使用单一的聚类方法.目前,一部分提升聚类性能的方法被提出,聚类集成是其中之一.因此,根据聚类集成思想,本文开展了基于关键词的学术文本聚类研究.为分析聚类集成在学术文本聚类中的有效性,本文比较了非集成聚类算法与聚类集成算法的性能.同时,为分析关键词对聚类集成性能的影响,本文分析了不同关键词抽取方法和不同关键词个数下学术文本的聚类结果.实验结果表明,聚类集成算法能够提升学术文本聚类的性能.其中,当使用TextRank作为关键词抽取方法时,学术文本聚类结果较佳;随着关键词个数的增加,学术文本类别划分性能随之提升.

著录项

  • 来源
    《情报学报》 |2019年第8期|860-871|共12页
  • 作者

    张颖怡; 章成志; 陈果;

  • 作者单位

    南京理工大学信息管理系;

    南京 210094;

    中国科学技术信息研究所;

    北京 100038;

    南京理工大学信息管理系;

    南京 210094;

    中国科学技术信息研究所;

    北京 100038;

    南京理工大学信息管理系;

    南京 210094;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    抽取; 文本聚类; 主题划分; 聚类集成;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号