首页> 中国专利> 一种汉盲对照双语语料库的构建方法和系统

一种汉盲对照双语语料库的构建方法和系统

摘要

本发明涉及一种汉盲对照双语语料库的构建方法和系统,包括:获取内容相同的汉语文本和盲文文本;分别将盲文文本和汉语文本进行切分处理,得到第一盲文句子集合和汉语句子集合;在第一盲文句子集合和汉语句子集合之间进行汉语盲文匹配处理,以在第一盲文句子集合中找到与汉语句子集合中汉语句子相匹配的盲文句子,保留匹配成功的汉语句子和盲文句子;将所有匹配成功的汉语句子和盲文句子按照篇章、句子、词语多级对照的要求生成汉盲双语语料库。本发明可由计算机自动从内容相同但不精确对应的汉语和盲文文件中自动对齐和抽取语料,生成篇章、句子、词语多级对照的汉盲双语语料库。相对于人工语料库构建方法,提高了效率、降低了成本。

著录项

  • 公开/公告号CN109344389B

    专利类型发明专利

  • 公开/公告日2020-08-18

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN201810929248.4

  • 发明设计人 王向东;蔡佳;钱跃良;刘宏;

    申请日2018-08-15

  • 分类号

  • 代理机构北京律诚同业知识产权代理有限公司;

  • 代理人祁建国

  • 地址 100080 北京市海淀区中关村科学院南路6号

  • 入库时间 2022-08-23 11:09:52

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-18

    授权

    授权

  • 2019-03-12

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20180815

    实质审查的生效

  • 2019-02-15

    公开

    公开

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号