首页> 中文期刊> 《现代图书情报技术》 >利用《知网》和领域关键词集扩展方法的短文本分类研究

利用《知网》和领域关键词集扩展方法的短文本分类研究

         

摘要

【目的】实现短文本特征扩展,提高短文本分类性能。【方法】按照特征词和隐含主题两种特征粒度,分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布,将概率大于某一阈值的主题对应的关键词扩展到待分类文本中。借助《知网》计算待分类文本与各领域关键词集的语义相似度。【结果】与LDA模型的短文本分类算法相比,本文提出的分类算法在复旦语料、Sogou语料和微博语料上的MacroF1分别平均提高4.9%、5.9%和4.2%,在MicroF1上分别平均提高4.6%、6.2%和2.8%。而与VSM的短文本分类算法相比,本文方法在各语料上都提高13%以上。且实验证明结合领域高频词和主题核心词的特征扩展方法的分类性能优于仅使用领域高频词或主题核心词进行特征扩展的方法。【局限】短文本中存在很多《知网》未收录的特征词,无法利用《知网》计算相似度,影响分类效果。【结论】本文方法能有效提高短文本分类性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号