首页> 中国专利> 基于语境信息的文本内容校正方法

基于语境信息的文本内容校正方法

摘要

本发明提供一种基于语境信息的文本内容校正方法,用于对经过OCR转换形成的文本内容进行内容校正,其特征在于,包括:步骤S1,获取文本内容作为待核验文本;步骤S2,依次将待核验文本中的各个位置词作为当前待核验词;步骤S3,使用多个预先根据不同语境训练得到的语境模型同时预测当前待核验词得到多个预测结果;步骤S4,通过主投票策略将预测结果融合形成语境词语;步骤S5,计算语境词语在所有预测结果中的出现频率,并在出现频率高于预设的校验阈值时将语境词语替换待核验文本中的当前待核验词;步骤S6,重复步骤S2至步骤S5直到待核验文本中的所有位置词都被核验完成。

著录项

  • 公开/公告号CN111695342A

    专利类型发明专利

  • 公开/公告日2020-09-22

    原文格式PDF

  • 申请/专利权人 复旦大学;

    申请/专利号CN202010536286.0

  • 发明设计人 陈刚;张成洪;黄丽华;

    申请日2020-06-12

  • 分类号G06F40/232(20200101);G06F40/226(20200101);G06F40/284(20200101);G06N3/04(20060101);G06N3/08(20060101);G06K9/62(20060101);G06F17/18(20060101);

  • 代理机构31204 上海德昭知识产权代理有限公司;

  • 代理人卢泓宇

  • 地址 200433 上海市杨浦区邯郸路220号

  • 入库时间 2023-06-19 08:20:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-04-25

    授权

    发明专利权授予

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号