首页> 中国专利> 一种汉盲对照双语语料库的构建方法和系统

一种汉盲对照双语语料库的构建方法和系统

摘要

本发明涉及一种汉盲对照双语语料库的构建方法和系统,包括:获取内容相同的汉语文本和盲文文本;分别将盲文文本和汉语文本进行切分处理,得到第一盲文句子集合和汉语句子集合;在第一盲文句子集合和汉语句子集合之间进行汉语盲文匹配处理,以在第一盲文句子集合中找到与汉语句子集合中汉语句子相匹配的盲文句子,保留匹配成功的汉语句子和盲文句子;将所有匹配成功的汉语句子和盲文句子按照篇章、句子、词语多级对照的要求生成汉盲双语语料库。本发明可由计算机自动从内容相同但不精确对应的汉语和盲文文件中自动对齐和抽取语料,生成篇章、句子、词语多级对照的汉盲双语语料库。相对于人工语料库构建方法,提高了效率、降低了成本。

著录项

  • 公开/公告号CN109344389A

    专利类型发明专利

  • 公开/公告日2019-02-15

    原文格式PDF

  • 申请/专利权人 中国科学院计算技术研究所;

    申请/专利号CN201810929248.4

  • 发明设计人 王向东;蔡佳;钱跃良;刘宏;

    申请日2018-08-15

  • 分类号

  • 代理机构北京律诚同业知识产权代理有限公司;

  • 代理人祁建国

  • 地址 100080 北京市海淀区中关村科学院南路6号

  • 入库时间 2024-02-19 07:03:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-18

    授权

    授权

  • 2019-03-12

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20180815

    实质审查的生效

  • 2019-02-15

    公开

    公开

说明书

技术领域

本发明涉及盲文和盲文语料领域,特别是涉及一种汉盲对照双语语料库的构建方法和系统。

背景技术

盲文是盲人日常阅读和获取信息的重要渠道。它是一种触觉符号系统,印刷在纸张或显示在点显器等电子设备上,可通过触摸进行阅读。盲文的基本单位是盲文符号,也称作“方”。在汉语盲文中,一般用2-3个盲文符号表示一个汉字,其中一方表示声母,一方表示韵母,另有一方表示声调,但声调有时可省略。汉语盲文与汉语最大的区别在于及其“分词连写”规则,即要求词与词之间用空方分隔,且盲文分词与汉语分词不同,许多汉语中的短语,如“王老师”、“大红花”等,在盲文中被连写为词。中国盲文标准中给出了100多条涉及语法和语义的详细规则定义哪些情况需要连写,如“‘不i和动词、能愿动词、形容词、介词、单音节程度副词均应连写”。

盲文语料库是指由大量的真实盲文文本形成的数据库。盲文语料库在盲文语言学研究和计算机盲文处理领域都具有重要作用。盲文专家可通过分析语料库中的语言现象,总结和统计盲文的语言特点和规律,以进一步指导盲文教育和盲文改革。计算机领域的研究者可基于盲文语料库研发盲文处理系统,如自动盲文分词系统、汉语-盲文自动翻译系统等。要进行上述的研究或开发工作,不只需要盲文文本,还需要该盲文对应的汉语文本,并且还要建立汉语与盲文之间在篇章、句子和词语级别的对应。例如,对于每一个盲文词,语料库中应该存有它对应的汉语词,这样才能方便地进行语言分析统计或计算机系统的研发。但是当前的汉语文本并不分词,这就需要人工处理汉语文本,将其按盲文的分词情况进行词语分割,从而生成汉盲对照的语料库。显然,这种人工构建汉盲对照语料库的方法工作量很大、效率很低,严重阻碍了盲文语言学研究和计算机盲文处理技术的发展。

当前,也存在一些内容相同的汉语和盲文文本,如同一本书的汉语和盲文的电子版文件等。但是,这些文件最多只能实现文件或篇章级的对应,而无法实现句子级和词语级的对照。要实现句子和词语级对照,就必须在汉语和盲文文本中精确地对齐句子和词语。但是,当前,即使同一本书的汉语和盲文文本,其内容也并不逐句、逐词的精确对照,而是会有一定差别,例如,为了便于盲人理解,盲文编辑会对内容进行适当的修改,比如文本增删、段落拆分和合并等,从而使盲文和汉语内容并不完全相同;另外,盲文会增加目录、页码等内容,且都作为文本,不能通过特定的格式标记去除。因此,很难通过计算机自动化处理实现所有句子和词语的完全对应,需要进行智能匹配,抽取能够对应成功的部分、丢弃匹配失败的部分,以匹配成功的部分构成最终生成的语料库。本发明的目标即是实现这种方式。

发明内容

针对现有技术尚无可用的汉盲双语对照,特别是词语级对照的语料库,而人工构建语料库工作量极大、效率很低的问题。本发明公开了一种自动从内容相同但不精确对照的汉语和盲文文本中对齐和抽取语料,以自动生成双语对照语料库的方法,可以大大提高构建语料库的效率。

具体地说,本发明公开了一种汉盲对照双语语料库的构建方法,其中包括:

步骤1、获取内容相同的汉语文本和盲文文本;

步骤2、分别将该盲文文本和该汉语文本进行切分处理,得到第一盲文句子集合和汉语句子集合;

步骤3、在第一盲文句子集合和汉语句子集合之间进行汉语盲文匹配处理,以在第一盲文句子集合中找到与汉语句子集合中汉语句子相匹配的盲文句子,保留匹配成功的汉语句子和盲文句子;

步骤4、将所有匹配成功的汉语句子和盲文句子按照篇章、句子、词语多级对照的要求生成汉盲双语语料库。

该汉盲对照双语语料库的构建方法,其中该步骤3包括:

步骤31、获取该盲文句子集合{A1,A2,A3,…,Ai,…}以及该汉语句子集合{B1,B2,B3,…,Bi,…},其中Ai代表该盲文句子集合中的第i个盲文句子,Bi代表该汉语句子集合中的第i个汉语句子;通过汉盲字典对该汉语句子集合{B1,B2,B3,…,Bi,…}中每个汉语句子进行翻译,得到每个汉语句子对应的盲文句子集合{a1,a2,…,an,…},其中an代表汉语句子对应的第n个盲文句子;

步骤32、对于由汉语句子生成的盲文句子集合{a1,a2,…,an,…},检查其中的每个句子是否与该盲文句子集合{A1,A2,A3,…,Ai,…}中的盲文句子匹配,若是,则执行步骤33,否则执行步骤34;

步骤33、从盲文句子集合{a1,a2,…,an,…}和盲文句子集合{A1,A2,A3,…,Ai,…}中提取匹配的盲文句子对{ax,Ax},其中ax为盲文句子集合{a1,a2,…,an,…}中的某一盲文句子且其与盲文句子集合{A1,A2,A3,…,Ai,…}中的盲文句子Ax相匹配,将ax按照Ax分词,并将ax对应的汉语句子按与ax相同的方式分词,以得到按照盲文规则分词的汉语句子,作为匹配成功的汉语句子,保存匹配成功的汉语句子和与其匹配的盲文句子Ax

步骤34、执行步骤32,继续处理汉语句子集合{B1,B2,B3,…,Bi,…}中下一个汉语句子对应的盲文句子集合{a1,a2,…,an,…}。

该汉盲对照双语语料库的构建方法,其中该步骤1包括:

文本预处理步骤,清除该汉语文本和该盲文文本的格式信息以及图表内容,统一该汉语文本编码格式和存储格式,统一该盲文文本编码格式和存储格式。

该汉盲对照双语语料库的构建方法,其中该步骤2包括:

句子切分步骤,检测该汉语文本和该盲文文本中的标点符号,并以标点符号为边界将该汉语文本和该盲文文本切分为句子。

该汉盲对照双语语料库的构建方法,其中该匹配是指两个盲文句子在忽略分词和忽略声调符号的情况下完全相同。

本发明还公开了一种汉盲对照双语语料库的构建系统,其中包括:

切分处理模块,用于获取内容相同的汉语文本和盲文文本,并分别将该盲文文本和该汉语文本进行切分处理,得到第一盲文句子集合和汉语句子集合;

匹配模块,用于在第一盲文句子集合和汉语句子集合之间进行汉语盲文匹配处理,以在第一盲文句子集合中找到与汉语句子集合中汉语句子相匹配的盲文句子,保留匹配成功的汉语句子和盲文句子;

语料库生成模块,用于将所有匹配成功的汉语句子和盲文句子按照篇章、句子、词语多级对照的要求生成汉盲双语语料库。

该汉盲对照双语语料库的构建系统,其中该匹配模块包括:

翻译模块,用于获取该盲文句子集合{A1,A2,A3,…,Ai,…}以及该汉语句子集合{B1,B2,B3,…,Bi,…},其中Ai代表该盲文句子集合中的第i个盲文句子,Bi代表该汉语句子集合中的第i个汉语句子;通过汉盲字典对该汉语句子集合{B1,B2,B3,…,Bi,…}中每个汉语句子进行翻译,得到每个汉语句子对应的盲文句子集合{a1,a2,…,an,…},其中an代表汉语句子对应的第n个盲文句子;

判断模块,用于对于由汉语句子生成的盲文句子集合{a1,a2,…,an,…},检查其中的每个句子是否与该盲文句子集合{A1,A2,A3,…,Ai,…}中的盲文句子匹配,若是,则调用句子保存模块,否则执行循环模块;

句子保存模块,用于从盲文句子集合{a1,a2,…,an,…}和盲文句子集合{A1,A2,A3,…,Ai,…}中提取匹配的盲文句子对{ax,Ax},其中ax为盲文句子集合{a1,a2,…,an,…}中的某一盲文句子且其与盲文句子集合{A1,A2,A3,…,Ai,…}中的盲文句子Ax相匹配,将ax按照Ax分词,并将ax对应的汉语句子按与ax相同的方式分词,以得到按照盲文规则分词的汉语句子,作为匹配成功的汉语句子,保存匹配成功的汉语句子和与其匹配的盲文句子Ax

循环模块,用于调用该判断模块,继续处理汉语句子集合{B1,B2,B3,…,Bi,…}中下一个汉语句子对应的盲文句子集合{a1,a2,…,an,…}。

该汉盲对照双语语料库的构建系统,其中该切分处理模块包括:

文本预处理模块,用于清除该汉语文本和该盲文文本的格式信息以及图表内容,统一该汉语文本编码格式和存储格式,统一该盲文文本编码格式和存储格式。

该汉盲对照双语语料库的构建系统,其中该切分处理模块包括:

句子切分模块,用于检测该汉语文本和该盲文文本中的标点符号,并以标点符号为边界将该汉语文本和该盲文文本切分为句子。

该汉盲对照双语语料库的构建系统,其中该匹配是指两个盲文句子在忽略分词和忽略声调符号的情况下完全相同。

本发明提出了通过自动方式生成盲文和汉语相对应的语料库的方法,该方法无需人工,可由计算机自动从内容相同但不精确对应的汉语和盲文文件中自动对齐和抽取语料,生成篇章、句子、词语多级对照的汉盲双语语料库。相对于当前常用的人工语料库构建方法,可大大提高效率、降低成本,对于推动盲文语言学研究和计算机处理技术的开发具有重要作用。

附图说明

图1为本发明汉盲对照双语语料库的构建方法流程图;

图2为预处理后的汉语txt文件和盲文txt文件比照图;

图3为汉语-盲文ASCII码标点符号对照表;

图4为句子切分后的汉语txt文件和盲文txt文件比照图;

图5为匹配成功的汉语和盲文句子比照图。

具体实施方式

本发明公开了一种利用内容相同但不精确对照的汉语和盲文文本中对齐和抽取语料,以自动生成双语对照语料库的方法,其过程包括如下关键步骤:

步骤1、盲文和汉语文本预处理。选取内容相同但不精确对照的汉语和盲文文本。对其分别进行预处理,包括去除格式标记和图表,只保留文本,统一编码格式和存储格式等。

步骤2、将盲文和汉语文本分别切分为句子。采用的方法为在盲文和汉语文本中分别匹配标点,并以标点为边界将文本切分为句子,同时删除标点。

步骤3、设步骤2中得到的盲文句子集合为{A1,A2,A3,…,Ai,…},汉语句子集合为{B1,B2,B3,…,Bi,…},其中Ai代表该盲文句子集合中的第i个盲文句子,Bi代表该汉语句子集合中的第i个汉语句子。在盲文句子集合{A1,A2,A3,…,Ai,…}与汉语句子集合{B1,B2,B3,…,Bi,…}之间进行汉语盲文自动匹配,保留匹配成功的句子,丢弃匹配失败的句子。

步骤31、将每个汉语句子通过汉盲字典转换为对应的盲文句子集合{a1,a2,…,an,…},其中an代表汉语句子对应的第n个盲文句子。由于汉语句子不分词,因此生成的盲文句子也并不分词。之所以是集合,是因为句子中的多音字可以对应多个不同的盲文符号串,因此根据句中多音字的所有读音进行全部组合,得到所有可能的盲文句子的集合。此时,汉语句子集合{B1,B2,B3,…,Bi,…}被转换为盲文句子集合的集合,即汉语句子集合{B1,B2,B3,…,Bi,…}中每个汉语句子均对应一个盲文句子集合{a1,a2,…,an,…}。

步骤32、对于所述每一个由汉语句子生成的盲文句子集合{a1,a2,…,an,…},检查其中的每个句子,判断是否与{A1,A2,A3,…,Ai,…}中的句子匹配。所谓匹配,是指两个盲文句子在不考虑分词(即忽略空方)和标调的情况下完全相同。

步骤33、从盲文句子集合{a1,a2,…,an,…}和盲文句子集合{A1,A2,A3,…,Ai,…}中提取匹配的盲文句子对{ax,Ax},其中ax为盲文句子集合{a1,a2,…,an,…}中的某一盲文句子且其与盲文句子集合{A1,A2,A3,…,Ai,…}中的盲文句子Ax相匹配,将ax按照Ax分词,并将ax对应的汉语句子按与ax相同的方式分词,以得到按照盲文规则分词的汉语句子,作为匹配成功的汉语句子,保存匹配成功的汉语句子和与其匹配的盲文句子Ax。这样就得到了词语级对照的汉语句子(匹配成功的汉语句子)和盲文句子Ax

步骤34、如果没有找到{A1,A2,A3,…,Ai,…}中的盲文句子能够与{a1,a2,…,an,…}中的任意一个句子匹配,则丢弃当前{a1,a2,…,an,…}及其对应的汉语句子,继续处理汉语句子集合{B1,B2,B3,…,Bi,…}中下一个汉语句子及其生成的盲文句子集合。

步骤4、将所有保存下来的按照盲文规则分词的汉语句子和对应的盲文句子按照篇章、句子、词语多级对照的要求生成汉盲双语语料库。

为了使本发明的目的、技术方案及优点更加清楚,以下结合附图及实施例,对本发明的一种汉盲对照双语语料库的构建方法进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明提出了通过自动方式,从内容相同的汉语和盲文文件中自动对齐并抽取文本从而形成语料库的方法。总体流程和步骤如附图1所示。

1、盲文和汉语文本预处理

选取内容相同但不精确对照的汉语和盲文文本。对其分别进行预处理,包括去除格式标记和图表,只保留文本,统一编码格式和存储格式等。

在一个实施例中,选取130余种书籍的汉语和盲文版电子文件作为输入。其中,每种书籍的汉语文件为word格式(doc文件或docx文件),盲文文件为阳光盲文编辑软件采用的bdo文件。

在汉语文本预处理时,采用软件工具从汉语文件中抽取文本,忽略格式信息,丢弃图表等内容,统一编码格式和存储格式,形成新的汉语文本文件。在一个实施例中,采用软件工具解析word文件格式,从word文件中抽取文本,忽略字体、对齐等格式信息,丢弃图、表等内容。在该实施例中,统一采用UTF-8编码表示汉语文本,采用txt格式进行存储。如果输入文件的编码不同则需采用编码转换工具自动进行编码转化。最终将每一个输入的汉语文件转换为一个txt文件,文件内容为UTF-8编码的汉语文本。

在盲文文本预处理时,采用软件工具从盲文文件中抽取文本,忽略格式信息,丢弃图表等内容,统一编码格式和存储格式,形成新的盲文文本文件。在一个实例中,采用软件工具解析bdo文件格式,从bdo文件中抽取盲文文本,忽略强调、对齐等格式信息,丢弃图、表等内容。在该实施例中,统一采用ASCII编码表示盲文文本,采用txt格式进行存储。如果输入文件的编码不同则需采用编码转换工具自动进行编码转化。最终将每一个输入的盲文文件转换为一个txt文件,文件内容为ASCII编码的盲文文本。

附图2给出了同一种书籍《XXX》经预处理后得到的汉语txt文件和盲文txt文件的部分内容,其中汉语文件为UTF-8编码,盲文文件为ASCII编码。盲文txt文件中直接显示盲文ASCII编码对应的ASCII字符,而非其对应的盲文符号,这样更便于计算机处理和计算机专业人员查看。

2、盲文和汉语句子切分

在进行匹配和对齐之前,需要将汉语和盲文文本切分为句子。采用的方法为检测文本中的标点符号,并以标点为边界将文本切分为句子。标点符号可采用汉语和盲文中的全部标点符号集合或根据实际情况选取一个子集。在一个实施例中,采用的标点符号集合如附图3所示,这个集合涵盖了汉语和盲文中的常用标点符号。

汉语句子切分比较简单,只需在文本中查找选定的标点符号,然后删除标点并换行输出为短句即可。将所有短句输出到一个txt文件中作为后续步骤的输入。

对于盲文ASCII码文件,标点符号的ASCII编码并非定长编码,一个标点符号可能对应一个或多个ASCII码字符,很多盲文标点符号的ASCII编码之间存在包含关系。例如,双引号的ASCII编码为^,而单引号的ASCII编码为^^。所以在标点识别时需要添加规则判定以确认标点符号。具体方法如下:首先使用字符串匹配算法,如KMP算法,在盲文文本中匹配选定的所有盲文标点符号对应的ASCII编码串,获得盲文标点符号的位置列表,然后对比具有包含关系的标点符号的位置信息,如果存在相同的位置信息,则删掉被包含的较短的ASCII编码串对应的标点符号的位置信息。最后,基于找到的盲文标点符号的位置信息,在盲文文本中删除标点并换行输出为短句。将所有短句输出到一个txt文件中作为后续步骤的输入。附图4给出了一个已经完成预处理的汉语文本及其盲文文本在进行句子切分之后的内容。

3、汉语和盲文自动匹配

设步骤2中得到的盲文句子集合为{A1,A2,A3,…,Ai,…},汉语句子集合为{B1,B2,B3,…,Bi,…},其中Ai代表该盲文句子集合中的第i个盲文句子,Bi代表该汉语句子集合中的第i个汉语句子。在盲文句子集合{A1,A2,A3,…,Ai,…}与汉语句子集合{B1,B2,B3,…,Bi,…}之间进行汉语盲文自动匹配,保留匹配成功的句子,丢弃匹配失败的句子。

3.1将每个汉语句子通过汉盲字典转换为对应的盲文句子集合。由于汉语句子不分词,因此此时生成的盲文句子也并不分词。之所以是盲文句子集合,是因为汉语句子中的多音字可以对应多个不同的盲文符号串,因此根据句中多音字的所有读音进行全部组合,得到所有可能的盲文句子的集合。此时,汉语句子集合{B1,B2,B3,…,Bi,…}被转化为盲文句子集合{a1,a2,…,an,…}的集合{{a1,a2,…,an,…}1,{a1,a2,…,an,…}2,{a1,a2,…,an,…}3,…,{a1,a2,…,an,…}i,…},其中{a1,a2,…,an,…}i为第i个汉语句子Bi对应的盲文句子的集合,其它依此类推。

3.2对于所述每一个由汉语句子生成的盲文句子集合{a1,a2,…,an,…},检查其中的每个句子,判断是否与{A1,A2,A3,…,Ai,…}中的句子匹配。所谓匹配,是指两个盲文句子在不考虑分词(即忽略空方)和不考虑标调(即忽略声调符号)的情况下完全相同。所谓标调,是指盲文中为避免歧义,会对一些易混淆词进行标调处理,即用一个盲文符号标出词中的字的声调。现行盲文中大约有5%的字会标出声调,为此定义了4个声调符号,其ASCII编码为别为“A”(一声)、“1”(二声)、“,”(三声),“2”(四声)。由于在步骤3.1中为每个汉语句子生成的盲文句子都是不标声调的,因此在匹配时忽略声调,即忽略用于表示声调的上述4个声调符号。

3.3从盲文句子集合{a1,a2,…,an,…}和盲文句子集合{A1,A2,A3,…,Ai,…}中提取匹配的盲文句子对{ax,Ax},其中ax为盲文句子集合{a1,a2,…,an,…}中的某一盲文句子且其与盲文句子集合{A1,A2,A3,…,Ai,…}中的盲文句子Ax相匹配,将ax按照Ax分词,并将ax对应的汉语句子按与ax相同的方式分词,以得到按照盲文规则分词的汉语句子,作为匹配成功的汉语句子,保存匹配成功的汉语句子和与其匹配的盲文句子Ax

3.4如果没有找到{A1,A2,A3,…,Ai,…}中的盲文句子能够与{a1,a2,…,an,…}中的任意一个句子匹配,则丢弃当前{a1,a2,…,an,…}及其对应的汉语句子,继续处理汉语句子集合{B1,B2,B3,…,Bi,…}中下一个汉语句子及其生成的盲文句子集合。

附图5给出了一个汉语文本及其盲文文本在进行匹配后匹配成功的内容。其中的汉语文本已经根据盲文内容进行了分词,从而实现了汉语和盲文在词语级的对照。

4、输出汉盲对照语料库

将所有保存下来的按照盲文规则分词的汉语句子和对应的盲文句子按照篇章、句子、词语多级对照的要求生成汉盲双语语料库。

在一个实施例中,语料库被设计为直接采用txt文件存储。构建两个文件夹,每个文件夹中分别是每一篇文章的中文和盲文的txt文件,每个句子占一行,汉语和盲文句子都按盲文规则分词。这样,就以最简单的方式实现了汉语和盲文的篇章、句子和词语级对照。

以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。

本发明还公开了一种汉盲对照双语语料库的构建系统,其中包括:

切分处理模块,用于获取内容相同的汉语文本和盲文文本,并分别将该盲文文本和该汉语文本进行切分处理,得到第一盲文句子集合和汉语句子集合;

匹配模块,用于在第一盲文句子集合和汉语句子集合之间进行汉语盲文匹配处理,以在第一盲文句子集合中找到与汉语句子集合中汉语句子相匹配的盲文句子,保留匹配成功的汉语句子和盲文句子;

语料库生成模块,用于将所有匹配成功的汉语句子和盲文句子按照篇章、句子、词语多级对照的要求生成汉盲双语语料库。

该汉盲对照双语语料库的构建系统,其中该匹配模块包括:

翻译模块,用于获取该盲文句子集合{A1,A2,A3,…,Ai,…}以及该汉语句子集合{B1,B2,B3,…,Bi,…},其中Ai代表该盲文句子集合中的第i个盲文句子,Bi代表该汉语句子集合中的第i个汉语句子;通过汉盲字典对该汉语句子集合{B1,B2,B3,…,Bi,…}中每个汉语句子进行翻译,得到每个汉语句子对应的盲文句子集合{a1,a2,…,an,…},其中an代表汉语句子对应的第n个盲文句子;

判断模块,用于对于由汉语句子生成的盲文句子集合{a1,a2,…,an,…},检查其中的每个句子是否与该盲文句子集合{A1,A2,A3,…,Ai,…}中的盲文句子匹配,若是,则调用句子保存模块,否则执行循环模块;

句子保存模块,用于从盲文句子集合{a1,a2,…,an,…}和盲文句子集合{A1,A2,A3,…,Ai,…}中提取匹配的盲文句子对{ax,Ax},其中ax为盲文句子集合{a1,a2,…,an,…}中的某一盲文句子且其与盲文句子集合{A1,A2,A3,…,Ai,…}中的盲文句子Ax相匹配,将ax按照Ax分词,并将ax对应的汉语句子按与ax相同的方式分词,以得到按照盲文规则分词的汉语句子,作为匹配成功的汉语句子,保存匹配成功的汉语句子和与其匹配的盲文句子Ax

循环模块,用于调用该判断模块,继续处理汉语句子集合{B1,B2,B3,…,Bi,…}中下一个汉语句子对应的盲文句子集合{a1,a2,…,an,…}。

该汉盲对照双语语料库的构建系统,其中该切分处理模块包括:

文本预处理模块,用于清除该汉语文本和该盲文文本的格式信息以及图表内容,统一该汉语文本编码格式和存储格式,统一该盲文文本编码格式和存储格式。

该汉盲对照双语语料库的构建系统,其中该切分处理模块包括:

句子切分模块,用于检测该汉语文本和该盲文文本中的标点符号,并以标点符号为边界将该汉语文本和该盲文文本切分为句子。

该汉盲对照双语语料库的构建系统,其中该匹配是指两个盲文句子在忽略分词和忽略声调符号的情况下完全相同。

虽然本发明以上述实施例公开,但具体实施例仅用以解释本发明,并不用于限定本发明,任何本技术领域技术人员,在不脱离本发明的构思和范围内,可作一些的变更和完善,故本发明的权利保护范围以权利要求书为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号