首页> 中国专利> 基于分布式平台的行业文本实体提取方法

基于分布式平台的行业文本实体提取方法

摘要

本发明公开了一种基于分布式平台的行业文本实体提取方法,包括:采用深度学习神经网络训练文本数据集得到关系特征模型;将提取的关系特征生成多个弹性分布式关系特征数据集RDD;将RDD中的数据集通过改进的非线性SVM分类算法训练得到的类别特征模型提取类别特征;根据提取的类别特征找到对应语境实体模型,并通过训练好的实体模型提取对应类别特征的文本中的实体数据;判断相应语境文的本数量是否超过设定阈值,若超过阈值时,重新训练该语境实体模型,利用重新训练的实体模型提取对应类别特征的文本中的实体数据,否则,保存文本实体特征和文本数据。可以处理不同语境下的文本特征实体,有效提高了实体提取的效率以及提取实体准确率。

著录项

  • 公开/公告号CN107908642B

    专利类型发明专利

  • 公开/公告日2021-11-12

    原文格式PDF

  • 申请/专利权人 江苏华通晟云科技有限公司;

    申请/专利号CN201710902720.0

  • 发明设计人 武克杰;周书勇;

    申请日2017-09-29

  • 分类号G06F16/35(20190101);G06F40/289(20200101);

  • 代理机构32103 苏州创元专利商标事务所有限公司;

  • 代理人范晴;丁浩秋

  • 地址 215000 江苏省苏州市工业园区星湖街328号创意产业园2-B803

  • 入库时间 2022-08-23 12:47:56

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号