首页> 中文期刊> 《情报学报》 >学术文本词汇功能识别——在关键词自动抽取中的应用

学术文本词汇功能识别——在关键词自动抽取中的应用

         

摘要

传统的关键词自动抽取常以候选词的出现频次、位置等非语义信息构建特征,并未考虑关键词在学术文献中承担的特定语义角色,即词汇功能.通过对现有数据统计,本文发现作者标注关键词中约有67.99%是研究问题或研究方法词.因此,本文将关键词的词汇功能分为三类:"研究问题""研究方法"和"其他",在传统的词频特征以及位置特征基础上,融合词汇功能特征,使用计算机领域的学术文献基于分类和排序两种思想进行关键词抽取实验.实验结果表明,融合词汇功能后,关键词抽取效果得到明显提升.相较于基准实验,二分类模型的准确率Acc和F值分别相对提升24.63%和25.19%,达到了0.840和0.666;排序模型的MAP、NDCG@5和P@5分别相对提升168.32%、189.50%和148.30%,提升至0.813、0.828和0.447,证明了学术文献词汇功能特征在关键词自动抽取中具有重要作用.

著录项

  • 来源
    《情报学报》 |2021年第2期|152-162|共11页
  • 作者单位

    武汉大学信息管理学院 武汉 430072;

    武汉大学信息检索与知识挖掘研究所 武汉 430072;

    武汉大学信息管理学院 武汉 430072;

    武汉大学信息检索与知识挖掘研究所 武汉 430072;

    武汉大学信息资源研究中心 武汉 430072;

    武汉大学信息管理学院 武汉 430072;

    武汉大学信息检索与知识挖掘研究所 武汉 430072;

    武汉大学信息管理学院 武汉 430072;

    武汉大学信息检索与知识挖掘研究所 武汉 430072;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类
  • 关键词

    词汇功能; 关键词抽取; 支持向量机; 学习排序; 学术文本;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号