首页> 中国专利> 一种面向权利要求点的检索方法和装置

一种面向权利要求点的检索方法和装置

摘要

本发明属于人工智能领域,公开了一种面向权利要求点的检索方法和装置,包括如下步骤:步骤1:专利权利要求点语义化模型生成:流水线生成模型包括专利数据采集、数据预处理、迭代训练、模型生成、模型部署;步骤2:专利权利要求点检索方法;该检索方法包括了前期专利数据生成向量,向量插入向量数据库,构建索引和检索;步骤3:利用专利权利要求点的检索系统,调用后端检索接口得到Top K检索结果,显示到界面上。本发明针对权利要求点的向量检索,大大缩短了专利检索时间,能够以较短的时间提供给用户高质量的专利检索结果。

著录项

  • 公开/公告号CN115238083A

    专利类型发明专利

  • 公开/公告日2022-10-25

    原文格式PDF

  • 申请/专利权人 之江实验室;

    申请/专利号CN202210702865.7

  • 发明设计人 朱亚光;徐小良;

    申请日2022-06-21

  • 分类号G06F16/36(2019.01);G06F16/33(2019.01);G06F16/31(2019.01);G06F40/30(2020.01);G06K9/62(2022.01);G06Q50/18(2012.01);

  • 代理机构杭州浙科专利事务所(普通合伙) 33213;

  • 代理人陈洁

  • 地址 311100 浙江省杭州市余杭区中泰街道之江实验室南湖总部

  • 入库时间 2023-06-19 17:25:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-11-11

    实质审查的生效 IPC(主分类):G06F16/36 专利申请号:2022107028657 申请日:20220621

    实质审查的生效

说明书

技术领域

本发明属于人工智能领域,尤其涉及一种面向权利要求点的检索方法和装置。

背景技术

权利要求点的语义检索方法,是指根据专利的权利要求点文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等的技术。该技术涉及到了人工智能模型训练、向量数据库检索、非结构化数据的索引构建、前后端系统装置的构建。

其相关技术包括:专利权利要求点语义化模型生成、基于专利权利要求点检索方法。在专利检索、学术搜索引擎、大数据处理、人工智能模型训练等领域都有广泛的应用。

对于专利检索方法,常用的传统方法种类比较多,比如通过人工输入技术方案中的关键词从专利数据库中检索已公开的相关专利文献。但这种方法效率低,检索结果差,而且耗时耗力。

无法满足大数据时代专利检索的需求。

另外随着人工智能领域的发展,典型的机器学习实现是通过使用组合工具来进行数据准备、训练模型、评估性能和部署。

由于一个端到端的机器学习系统涉及到多种领域的技术,需要多个岗位的人员配合。所以面对数据的不断更新,模型需要重新训练,服务也要根据最新训练的模型进行部署。

发明内容

本发明目的在于提供一种面向权利要求点的检索方法和装置,以解决已有的专利检索技术中的自动化和智能化水平低、过程繁琐、效率低下、检索和装置结果无法满足大数据时代的专利检索需求的技术问题。

为解决上述技术问题,本发明的一种面向权利要求点的检索方法和装置的具体技术方案如下:

一种面向权利要求点的检索方法,包括如下步骤:

步骤1:专利权利要求点语义化模型生成:模型生成包括专利数据采集、数据预处理、迭代训练、模型生成、模型部署;

步骤2:专利权利要求点检索方法;该检索方法包括了前期专利数据生成向量,向量插入向量数据库,构建索引和检索;

步骤3:利用专利权利要求点的检索系统,调用后端检索接口得到Top K检索结果,显示到界面上。

进一步地,所述步骤1的专利权利要求点语义化模型生成方法包括采集原始专利数据,采集完成后并不断同步至源数据库,通过预处理提取专利权利要求点之后,进入设计好的模型生成流水线;进行第一轮训练,生成了初始版本的语义化模型,随后随着专利数据的更新,流水线会根据专利数据的增加自动执行训练任务,进行模型更新。

进一步地,所述步骤2的专利权利要求点检索方法,是将原始的数据通过语义模型生成向量数据,然后把向量数据插入向量数据库,接着对向量数据构建索引,然后对检索数据也进行向量化,最后根据检索数据对向量进行检索,得到检索结果。

进一步地,步骤3所述专利权利要求点的检索系统,调用后端检索接口得到Top K检索结果,显示到界面上。

进一步地,所述步骤1包括如下具体步骤:

步骤1.1:专利数据采集并存储,采集的数据包括专利的正文信息和权利要求书信息;

步骤1.2:数据的预处理,提取权利要求点信息,并导出;

步骤1.3:原始专利数据经过等量切割成多个数据块,对这些数据块按顺序逐一训练;

步骤1.4:把第一个数据块作为初始数据,训练参数为初始默认值,开始第一轮训练,得到第一轮训练的语义化模型和参数;

步骤1.5:根据第一轮训练的模型和参数,和第二个数据块,进行第二轮训练,得到第二轮训练的模型和参数;按照此步骤迭代训练,直到将存量训练数据训练完得到最终的训练模型和参数;

步骤1.6:随着原始专利数据继续增加,达到可以训练的阈值数据量后,便导出数据,在上一个步骤基础上继续训练,得到最新的训练模型和参数;

步骤1.7:最新的模型一旦生成,便直接通过 kubeflow KFServing部署到后端服务中去;

步骤1.8:将以上步骤编写成流水线模版,把训练环境打包成Docker镜像,实现全流程流水线化和自动化。

进一步地,所述步骤2包括如下具体步骤:

步骤2.1:原始的专利权利要求点数据,经过步骤1生成的语义化模型生成向量,然后把转换的向量逐一插入到向量数据库中 milvus 中;

步骤2.2:配置构建索引参数,开始对向量数据库milvus 中的数据进行构建HNSW索引;

步骤2.3:构建完索引,进行基于权利要求点的专利检索,将待检索的技术特征描述数据,经过步骤1生成的语义模型生成向量,根据生成向量调用向量数据库的检索接口进行向量检索,得到Top K检索结果;

步骤2.4:随着采集的专利数据继续增加,达到可以训练的阈值数据量后,便导出数据;对于增量数据,经过步骤1生成的语义化模型转化成向量,然后把转换的向量逐一插入到向量数据库milvus 中;最后对于增量向量数据构建索引。

进一步地,所述步骤3包括如下具体步骤:

步骤3.1:用户在前端输入待检索的技术特征描述数据;

步骤3.2:前端输入待检索的技术特征描述数据,经过语义化模型生成向量;

步骤3.3:基于生成后的向量,使用向量数据库的接口进行向量检索,得到Top K检索结果,并显示在前端。

本发明还提供了一种面向权利要求点的检索装置,包括控制器,所述控制器包括存储器、处理器及存储在存储器上的可在处理器上运行的计算机程序,处理器执行程序时实现专利权利要求点检索方法的步骤。

本发明的一种面向权利要求点的检索方法具有以下优点:本发明自动根据专利数据的增长,定时训练模型,并自动将模型部署到检索系统中去。无需手动再次训练,再次部署,能够让新增的专利数据在第一时间能够被检索到。针对权利要求点的向量检索,大大缩短了专利检索时间,能够以较短的时间提供给用户高质量的专利检索结果。

附图说明

图1为本发明的专利权利要求点语义化模型生成示意图;

图2为本发明的专利权利要求点检索方法示意图;

图3为本发明的专利权利要求点检索系统示意图。

具体实施方式

为了更好地了解本发明的目的、结构及功能,下面结合附图,对本发明一种面向权利要求点的检索方法做进一步详细的描述。

本发明的一种面向权利要求点的检索方法,包括如下步骤:

步骤1:专利权利要求点语义化模型生成:流水线生成模型包括专利数据采集、预处理、迭代训练、模型生成、模型部署。

专利权利要求点语义化模型生成,采集的原始专利数据不断添加到源数据库mysql中,通过预处理提取权利要求点之后,进入设计好的流水线生成语义化模型。生成的语义化模型会自动部署。随后随着数据的更新,流水线会根据数据的增量自动执行训练任务,进行模型更新,对应的服务也会同步更新。

步骤2:专利权利要求点检索方法;该检索方法包括了前期专利数据生成向量,向量插入向量数据库,构建索引和检索。

专利权利要求点检索方法,是将原始的专利数据通过语义模型转换成向量数据,然后把向量数据插入向量数据库,接着对向量数据构建索引,然后对检索数据也进行向量化,最后根据检索数据对向量进行检索,得到检索结果。

步骤3:专利权利要求点检索系统:该检索系统包括了一种基于vue框架构建的查询专利的前端系统和一种基于flask的权利要求点的检索方法系统。

一种基于vue框架构建的查询专利的前端系统和一种基于flask的权利要求点的检索方法系统,是一整套前后端专利检索系统。前端输入待检索的技术特征描述数据,经过语义化模型生成向量,调用后端检索接口得到Top K检索结果,显示到界面上。

具体的,

参照图1,示出了本发明的一种专利权利要求点语义化模型生成方法实施例的步骤流程图,具体可以包括如下步骤:

步骤1.1:专利数据采集并存储,采集的数据包括专利的正文信息和权利要求书信息。

步骤1.2:数据的预处理,提取权利要求点信息,并将存储在mysql里面的原始专利数据导出。

步骤1.3:原始专利数据比较大,无法进行训练。经过等量切割成多个数据块。对这些数据块按顺序逐一训练。

步骤1.4:把第一个数据块作为初始数据,训练参数为初始默认值bert-base。开始第一轮训练,得到第一轮训练的语义化模型和参数。

步骤1.5:根据第一轮训练的模型和参数,和第二个数据块。进行第二轮训练。得到第二轮训练的模型和参数。按照此步骤迭代训练,直到将存量训练数据训练完得到最终的训练模型和参数。

步骤1.6:随着原始mysql的专利数据继续增加,达到可以训练的阈值数据量后,便导出数据,在上一个步骤基础上继续训练,得到最新的训练模型和参数。

步骤1.7:最新的模型一旦生成,便直接通过 kubeflow KFServing部署到后端服务中去。

步骤1.8:将以上步骤编写成流水线模版,把训练环境打包成Docker镜像,实现全流程流水线化和自动化。

参照图2,示出了本发明的一种专利数据增量更新检索方法实施例的步骤流程图,具体可以包括如下步骤:

步骤2.1:原始的专利权利要求点数据,经过步骤1生成的语义化模型生成向量,然后把转换的向量逐一插入到向量数据库milvus 中。

步骤2.2:配置构建索引参数,开始对向量数据库milvus 中的数据进行构建HNSW索引。

步骤2.3:构建完索引,进行基于权利要求点的专利检索,将待检索的技术特征描述数据,经过步骤1生成的语义模型生成向量,根据生成向量调用向量数据库 milvus 的检索接口进行向量检索,得到Top K检索结果。

参照图3,示出了本发明的一种基于vue框架构建的查询专利的前端系统和一种基于flask的权利要求点的检索方法后端系统示例图,具体可以包括如下步骤:

步骤3.1:用户在前端输入待检索的技术特征描述数据。

步骤3.2:前端输入的专利权利要求点查询内容,经过后端的基于flask RESTful模型服务转换成向量。

步骤3.3:基于转换后的向量数据,基于向量数据库 milvus 的python sdk调用向量查询接口。得到检索的专利向量。

步骤3.4:得到了专利检索的向量和主键ID,根据主键ID从关系型数据库中得到了检索结果专利内容并显示在前端。

可以理解,本发明是通过一些实施例进行描述的,本领域技术人员知悉的,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明所保护的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号