首页> 中国专利> 基于机器学习算法对针对数据分类器的训练语料库的自动提取

基于机器学习算法对针对数据分类器的训练语料库的自动提取

摘要

一种用于未分割电子文档的迭代分类器基于机器学习算法。电子文档中的文本串使用组合传统词典和基于电子文档的上下文和性质而被开发的自适应词典的复合词典而被分割。分类器使用通过检测用于针对文本串的预先建立的类的集合的签名而从电子文档被自动地提取的训练和测试样本的语料库而被构建。当新的电子文档中的文本串被处理和分类时,分类器通过实时自动地扩展训练和测试样本的语料库而被进一步迭代地改进。

著录项

  • 公开/公告号CN108391446B

    专利类型发明专利

  • 公开/公告日2022-02-22

    原文格式PDF

  • 申请/专利权人 埃森哲环球解决方案有限公司;

    申请/专利号CN201780004079.7

  • 发明设计人 侯芳;武义凯;程晓培;丁思非;

    申请日2017-06-20

  • 分类号G06F16/28(20190101);G06F16/35(20190101);G06F16/36(20190101);G06N20/10(20190101);G06K9/62(20220101);G06V30/242(20220101);G06V30/19(20220101);

  • 代理机构11256 北京市金杜律师事务所;

  • 代理人酆迅;辛鸣

  • 地址 爱尔兰都柏林

  • 入库时间 2022-08-23 13:09:34

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号