首页> 中文期刊> 《科技传播》 >新闻文档关键词抽取技术研究

新闻文档关键词抽取技术研究

         

摘要

关键词抽取是从文档中筛选出核心的词语,简要概括文档的主题。对于新闻文档来说,有效的关键词抽取可以帮助读者迅速筛选感兴趣的内容,提高用户体验。传统的关键词抽取技术主要考虑词语的统计特征,使得选出的都是出现频率较高的词语。然而有些关键词在文档中并没有很高的统计词频,这就造成文档和关键词之间较大的词汇差异。另外有些关键词语是由多个词组合而成,而这些词语并不存在于候选的关键词列表当中,这也会对关键词抽取的结果产生一定的影响。本文以新华社真实的新闻语料作为实验数据集,进行关键词抽取技术研究,通过构建“文档-关键词”翻译器,并对机器翻译的方法进行训练,提高文档词和关键词之间的翻译概率;把训练的模型进行抽象模型化,实现关键词抽取,取得良好的效果。同时,通过引入维基百科词条库进行词语合并,使得关键词抽取效果得到更进一步的提升。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号