首页> 中文期刊> 《现代图书情报技术》 >专利术语抽取的层次过滤方法

专利术语抽取的层次过滤方法

         

摘要

【目的】专利术语作为专利文献的核心内容和重要组成部分,其抽取任务是专利研究的基础工作。【方法】提出一种基于层次过滤的方法抽取专利术语。基于后缀数组获取重复字串作为候选词,根据候选词集合中无效字串的特点将其分为破碎字串、冗余字串和通用词,通过识别和过滤三类无效字串获得专利术语。分别提出计算独立性算法过滤破碎字串,相对活跃度计算方法和分词纠错法过滤冗余字串。【结果】实验结果表明,该方法对中文专利术语抽取有较好的效果,平均正确率为90.54%,平均召回率为87.33%。【局限】只针对重复字串,无法识别文献中出现频次为1的专利术语。【结论】该方法用于专利术语抽取是有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号