首页> 中文期刊> 《计算机技术与发展》 >融合多因素的TFIDF关键词提取算法研究

融合多因素的TFIDF关键词提取算法研究

         

摘要

为了能更加准确、快速地提取文本中的关键词,首先需要对待提取的文本进行数据清洗,去掉其中的噪声数据,接着对文本进行分词操作,在去掉停用词的基础上,综合考虑词语的位置、词性、词语关联性、词长和词跨度等因素,将这些因素与经典的TFIDF关键词提取算法相结合,采用不同权重的方法得到最终的词语权重,按照词语权重从大到小取得前5个词作为文本的关键词.以本校图书馆提供的8045篇《红色中华》新闻为源数据,从准确度、召回率及F1值三个指标对文中算法、经典的TFIDF算法和专家标注进行对比,发现文中算法在三个指标上均优于经典的TFIDF算法,与专家标注比较接近.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号