首页> 中文学位 >基于自动查询扩展的专利文档检索方法
【6h】

基于自动查询扩展的专利文档检索方法

代理获取

目录

声明

摘要

第1章 绪论

1.1 研究背景

1.2 国内外研究现状

1.2.1 专利检索系统现状

1.2.2 专利检索技术研究现状

1.3 本文研究目标与主要内容

1.4 本文结构

第2章 基于自动查询扩展的专利文档检索方法框架

2.1 专利文档特点及专利分类

2.2 专利文档检索的特点分析

2.3 基于自动查询扩展的专利文档检索方法框架

2.4 本章小结

第3章 专利文档内容分析

3.1 专利文档内容获取

3.2 专利内容预处理

3.3 领域词表构建

3.3.1 专利字段选择

3.3.2 领域文档特征提取

3.4 本章小结

第4章 基于伪相关反馈的自动查询扩展

4.1 查询扩展相关技术

4.2 查询输入分析

4.2.1 输入串句法分析

4.2.2 查询领域性分析

4.3 查询扩展项生成及排序

4.3.1 基于术语分布差异的关联度计算

4.3.2 基于语义的关联度计算

4.4 查询重定义

4.5 本章小结

第5章 实验结果及分析

5.1 测试集及测评标准

5.2 实验结果及分析

5.2.1 改进型TF-IDF算法的实验分析

5.2.2 检索性能实验分析

5.3 本章小结

第6章 总结与展望

6.1 研究工作与成果总结

6.2 展望

参考文献

致谢

展开▼

摘要

近年来信息检索在社会经济发展中的重要性愈发显现。专利文档作为保存现代科技成果的重要方式,几乎包含一切应用领域的创新成果,涉及社会生活的方方面面。对专利文档信息的应用的第一步,就是对专利文档的有效检索。随着专利数量的增长,对高效专利检索的需求越来越高。
   本文在研究了当前常见的专利检索方法和查询扩展技术的基础上,分析了专利文档及专利检索的特点,提出了一种基于自动查询扩展的专利文档检索方法,用于对英文专利文档的检索。
   方法首先对专利文档进行预处理,利用国际专利分类体系,针对专利文档特点对TF-IDF(Term Frequency-Inverse Document Frequency)公式进行改进,提出基于改进TF-IDF公式的专利领域词表提取方法,成功构建了专利领域词表。接着对查询输入串进行分析得到查询关键词汇,同领域词表相结合,以确定查询所在领域及查询扩展难度。然后利用基于伪相关反馈的自动查询扩展技术,根据伪相关文档的术语分布差异分析以及词汇间语义关联度计算的结果,生成查询扩展项并排序,最后将扩展项与原始查询条件相结合,重新组成查询条件,完成专利查询。
   本文采用NTCIR-6的测试集,设计了一些实验,并进行了对比分析。实验验证了使用本方法完成专利检索的可行性,与其他检索方法的横向对比表明该方法具有较高的召回率和平均准确率,是一种有效可行的专利检索方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号