首页> 中国专利> 一种用于中文和东盟各国语言互译的PDA翻译系统

一种用于中文和东盟各国语言互译的PDA翻译系统

摘要

一种用于中文和东盟各国语言互译的PDA翻译系统,它的CPU处理器为32位CPU处理器,通过32位数据地址线与存储器连接,存储器包括中文字体库和句子库、英文字体库和句子库、越南文字体库和句子库、泰国文字体库和句子库、中文和马来西亚文互译词典数据库与语音库、中文和印度尼西亚文互译词典数据库与语音库、中文和越南文互译词典数据库与语音库以及中文和泰国文互译词典数据库与语音库。安装有中文和东盟各国语言互译的PDA翻译系统的PDA翻译设备,通过输入、分词、词汇互译、查找句子、输出和调整,最终实现中文和东盟各国语言的互译,能够解决东盟国家文字在PDA上显示乱码的问题,具有检索查询速度快和节省储存空间的优点。

著录项

  • 公开/公告号CN102929865A

    专利类型发明专利

  • 公开/公告日2013-02-13

    原文格式PDF

  • 申请/专利权人 广西大学;

    申请/专利号CN201210387241.7

  • 发明设计人 邓力;唐秋玲;

    申请日2012-10-12

  • 分类号G06F17/28(20060101);G06F17/30(20060101);

  • 代理机构45104 广西南宁公平专利事务所有限责任公司;

  • 代理人黄永校

  • 地址 530004 广西壮族自治区南宁市西乡塘区大学路100号

  • 入库时间 2024-02-19 17:47:45

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-11-24

    未缴年费专利权终止 IPC(主分类):G06F17/28 授权公告日:20150603 终止日期:20161012 申请日:20121012

    专利权的终止

  • 2015-06-03

    授权

    授权

  • 2013-03-20

    实质审查的生效 IPC(主分类):G06F17/28 申请日:20121012

    实质审查的生效

  • 2013-02-13

    公开

    公开

说明书

技术领域

本发明涉及翻译技术领域,具体是一种用于中文和东盟各国语言互译的 PDA翻译系统。

背景技术

翻译机器技术经过多年的发展,已经形成了比较成熟的理论体系和应用系 统。目前国内翻译机器主要有两类,一类是基于PC机上的翻译软件,如金山词 霸、金山快译等;另一类是电子词典,电子词典在我国市场上己经出现近十年, 文曲星、快译通、好记星等是国内的知名品牌,随着电子技术的进步,消费性 信息家电的潮流已成为势不可挡的趋势,具有更强、更多功能的掌上电脑PDA 已逐步取代电子词典,掌上电脑转型向智能手持机发展的趋势也已经越来越明 显。

翻译机器技术按照翻译方法,可分为直接法(Direct)、基于规则的方法 (Rule-Based)和基于语料库的方法(Corpus—Based),其中基于语料库的方法又 可分为基于统计的方法(Statistics—Based)、基于实例的方法(Example-Based) 和翻译记忆的方法(Translation Memory’)。而这些单独的翻译机器策略,都因 为各种原因存在着一些难以避免的弊端,语言的歧义、多义选择、惯用表达等 多种语言问题难以得到充分的解决。

我国虽然已经有一些商品化的翻译机器系统,但翻译语种大多集中在英汉、 日汉、俄汉等语言,目前在中国市场专注于小语种翻译机器的生厂商很少,针对 东盟国家的翻译机器几乎为空白。

国内现有翻译机器存在以下不足:

1、我国虽然已经有一些商品化的翻译机器系统,如文曲星等,但翻译语种 大多集中在英汉、日汉、俄汉等语言,针对汉语和东盟国家语言互译的翻译机 器几乎为空白。

2.电子词典存储能力有限而且速度较慢,无操作系统或只有简单的操作系 统,所有的程序都是固化在存储器里,因而功能单一且不具有扩充性。

3.目前市场上的翻译机采用芯片都是低端的8位、16位的CPU处理器,随 着网络、通信、多媒体技术的发展,8位、16位的CPU在速度和内存容量上己 经很难满足这些领域的应用需求,而且翻译机无操作系统支持。

4.电子词典只能完成单词的互译,而基于PC机上的翻译软件虽然能完成 文本的互译,但是目前还没有针对东盟国家的翻译软件。

5.针对东盟国家的翻译机器现在都缺少东盟语言的发音功能。

发明内容

本发明的目的是针对上述现有翻译机器存在的不足,提供一种用于中文和 东盟各国语言互译的PDA翻译系统,采用32位CPU处理器、内嵌操作系统和 彩色液晶触摸屏,完成汉语和东盟四国语言的互译,满足与东盟四国交流中的 语言互译需求。

本发明为了实现上述目的所采取的技术方案是:一种用于中文和东盟各国 语言互译的PDA翻译系统,包括电池充电管理电路、电池电源、电源管理电路、 CPU处理器、存储器和液晶显示系统,所述的CPU处理器为32位CPU处理器, 32位CPU处理器通过32位数据地址线与存储器连接,存储器包括中文字体库 和句子库、英文字体库和句子库、越南文字体库和句子库以及泰国文字体库和 句子库,存储器还包括以下互译词典数据库和语音库:

中文和马来西亚文互译词典数据库与语音库,

中文和印度尼西亚文互译词典数据库与语音库,

中文和越南文互译词典数据库与语音库,

中文和泰国文互译词典数据库与语音库;

所述的互译词典数据库与语音库中设置有索引,索引字段为定长字段型, 索引对应的翻译字段为变长字段型。

所述的互译词典数据库与语音库中,中文按照拼音排序,马来西亚文和印 度尼西亚文按照字母排序,越南文和泰国文按照字母和声调排序。

所述的互译词典数据库与语音库中,存储有词条对应的词义,其中,中文 和马来西亚文互译词典数据库与语音库,每个马来西亚文词条只对应同义的中 文词条,每个中文词条只对应同义的马来西亚词条;中文和印度尼西亚文互译 词典数据库与语音库中,每个印度尼西亚文词条只对应同义的中文词条,每个 中文词条只对应同义的印度尼西亚文词条;中文和越南文互译词典数据库与语 音库中,每个越南文词条只对应同义的中文词条,每个中文词条只对应同义的 越南文词条;中文和泰国文互译词典数据库与语音库中,每个泰国文词条只对 应同义的中文词条,每个中文词条只对应同义的泰国文词条。

所述的互译词典数据库与语音库中,还存储有单词的词性。

所述的互译词典数据库与语音库中,包括词汇或短语统计调序翻译模块。

一种PDA翻译设备,包括机壳,还包括上述用于中文和东盟各国语言互译 的PDA翻译系统。

所述的PDA翻译设备,安装有Windows CE或Windows Mobile操作系统。

所述的PDA翻译设备,还安装有计算器模块和记事本模块。

一种用于中文和东盟各国语言互译的PDA翻译系统的翻译方法,包括以下 步骤:

(1)调用输入法,输入源语言句子;

(2)对源语言进行分词处理,将句子处理成各单词或短语的联接组合;

(3)确定源语言句子的词性组合,并通过互译词典数据库将分词所得的单 词翻译为目标语言的词汇;

(4)查找目标语言的句子库,通过词性、语义分类和原文匹配方式寻找与 待翻译部分匹配度最高的句子;

(5)译文生成输出;

(6)目标语言的人员对输出的译文进行人工判断,译文能正确理解即完成 一次翻译;目标语言的人员对译文不能理解,再对输出的目标语言句子的词序 和关键词进行调整后通过PDA将调整后的句子反馈给源语言的人员,源语言的 人员判断返回的译文与原输入的源语言句子表达一致,则完成翻译;源语言的 人员判断返回的译文与原输入的源语言句子不一致,目标语言的人员重新对输 出的译文进行人工判断,至翻译完成。

所述的用于中文和东盟各国语言互译的PDA翻译系统的翻译方法,步骤(4) 中,利用词汇或短语统计调序翻译模块,通过词汇或词汇之间的调序,并依照 句法结构来抽取短语互译对,或者按照短语互译对的需要重新构造一种基于句 法的结构;将词汇或短语调序关系和句法树各个层次上节点的调序结合起来, 通过词对齐确定节点调序,然后计算短语对应的句法结构的调序概率,在翻译 记忆库中查找完全相同的句子或相似的句子。

本发明与现有的翻译技术相比,具有以下有益效果:

(1)本发明通过建立互译词典数据库及语音库,并在数据库选择相应的字 段建立索引,通过选择相应的数据库,再根据输入的单词相对应的数据库中建 立的索引查询到相对应的外文单词,通过分库查询来提高查询的速度。

(2)本发明根据数据库中各个字段,设置数据库中索引字段为定长字段型, 而对应的翻译字段为变长字段型,使得既能保证查询的速度,又能节省存贮的 空间。

(3)本发明针对东盟不同的国家安装相应的字库文件,能够解决东盟国家 文字在PDA上显示乱码的问题,并根据不同国家文字的特定,编写相应的输入 法程序。

(4)本发明通过词汇或短语统计调序翻译模块,能够显著提高翻译质量; 采用32位精简指令的处理器、操作系统、数据库进行互译PDA软件开发,能够 解决电子词典查询速度慢、词典容量小的问题,并且PDA上的互译软件能够应 用于智能手机上,通过手机的上网功能完成在PDA上无法实现的功能。

附图说明

图1是本发明所述的用于中文和东盟各国语言互译的PDA翻译系统的结构 示意图。

图2是本发明所述的用于中文和东盟各国语言互译的PDA翻译系统的翻译 方法流程图。

具体实施方式

以下结合附图和实施例对本发明的技术方案做进一步的说明。

如图1所示,一种用于中文和东盟各国语言互译的PDA翻译系统,包括电 池充电管理电路、电池电源、电源管理电路、CPU处理器、存储器和液晶显示 系统,所述的CPU处理器为32位CPU处理器,32位CPU处理器通过32位数 据地址线与存储器连接,存储器包括中文字体库和句子库、英文字体库和句子 库、越南文字体库和句子库、泰国文字体库和句子库、中文和马来西亚文互译 词典数据库与语音库、中文和印度尼西亚文互译词典数据库与语音库、中文和 越南文互译词典数据库与语音库以及中文和泰国文互译词典数据库与语音库, 四个互译词典数据库与语音库中均设置有索引,索引字段为定长字段型,索引 对应的翻译字段为变长字段型。

四个互译词典数据库通过程序处理,生成两种不同文字的排序的数据。即: ①中文和越南文互译词典数据库。解决越南文和中文同义词之间互译。这个数 据库就利用现有的越中电子词典的数据库,并通过程序处理,自动生成按越南 字母和声调排序,和中文拼音排序的两种不同文字的排序的数据。当由越南文 翻译为中文时,通过程序就从越南文排序的数据中找出中文的同义词,反之, 当由中文翻译为越南文时,就从中文拼音排序的数据中找出越南文的同义词。 ②中文和马来西亚文互译词典数据库、中文和印度尼西亚文互译词典数据库。 解决马来文和中文、印尼文和中文之间的互译,并通过程序处理,自动生成按 马来文、印尼文字母排序,和中文拼音排序的两种不同文字的排序的数据。当 由马来文翻译为中文时,就从马来文字母排序的数据中找出中文的同义词,反 之,当由中文翻译为马来文时,就从中文拼音排序的数据中找出马来文的同义 词。印尼文与中文的互译也是进行同样的操作。③泰国文互译词典数据库。解 决泰国文和中文之间的互译。并通过程序处理,自动生成按泰国文字母和声调 排序,和中文拼音排序的两种不同文字的排序的数据。当由泰国文翻译为中文 时,就从泰国文排序的数据中找出中文的同义词,反之,当由中文翻译为泰国 文时,就从中文拼音排序的数据中找出文的同义词。

开发泰国文、越南文、印尼文、马来文、英文、中文、数字及符号的PDA 字库,由于马来西亚文和印尼文词汇字母的构成与英文相同,因此马来文和印 尼文可以用英文字库。马来文和印尼文的输入也采用英文的输入来完成。

越南文有33个字母,其中26个字母与英文字母相同,另外7个字母与 英文不同,越南文中有12个元音,每个元音有6种声调,除平声外,还有5 个声调符号。

泰文是在泰国用于书写泰语和一些其他少数民族语言的字母,有44个辅音 字母、21个元音字母、4个声调符号、和一些标点符号。泰语字母书写水平从 左至右,不分大写和小写。

PDA翻译系统的越南文输入法,可直接输入越南文。泰文输入法可以完成 泰国文的输入。

在存储器中,建立一个两种文字同义词的数据库。如为越南文翻译为中文 建立了一个数据库。这个数据库的特点是:每一个越南文词条,只对应同义多 个中文词条,按多条同义词条处理。同样,中文有多个越南文释义时,也要作 为多个同义词条处理,短语也作为一个词条。而且,建立这样的数据库,如果 我们基本是按越南文字母和声调排序录入的,录入以后,还必需通过程序的处 理,自动生成按中文拼音排序的数据。对中国与对应国家建立相对应的目标语 言和对应的一个数据库,生成了文字的排序后,虽然增加了存储量,增加了词 典的成本,但提高了运算速度,无论是越文翻译为中文,还是中文翻译为越文, 速度都可以满足使用的要求。

词库中存储的单词除存储有词义外,还存储有对应的词性:如动词(用V 标识等),当输入源语言后,首先对输入的句子进行分词处理,将一句的文本分 成各个单词,然后在对应的目标语言词库中查找出现对应的词汇,并标注出各 个词汇的词性,将句子中各个单词的连接转换成各词性的联接并包含先后的联 接顺序。

四个互译词典数据库中,还包括词汇或短语统计调序翻译模块。

一种PDA翻译设备,包括机壳和上述用于中文和东盟各国语言互译的PDA 翻译系统,并安装有Windows CE或Windows Mobile操作系统、计算器模块和 记事本模块。

如图2所示,用于中文和东盟各国语言互译的PDA翻译系统的翻译方法,

具体步骤如下:

(1)调用输入法,输入源语言句子;

(2)对源语言进行分词处理,将句子处理成各单词或短语的联接组合;

(3)确定源语言句子的词性组合,并通过互译词典数据库将分词所得的单 词翻译为目标语言的词汇;

(4)根据源语言句子的词性组合顺序并结合查找所得的目标语言的词汇, 并将源语言句子中除名词以外的动词、形容词、副词等词汇作为关键词在在目 标语言的句子库中查找与句子中含源语言句子中关键词汇对应翻译后的目标语 言词汇并且与源语言词性组合相同或相近的句子。

通过建立词汇和词汇之间的调序模型实现调序,依照句法结构来抽取短语 互译对,或者按照短语互译对的需要重新构造一种基于句法的结构。依照词汇、 短语切分方式来考察句法树相应部分的调序关系,将词汇、短语调序关系和句 法树各个层次上节点的调序结合起来,从而能够克服词汇、短语和句法树结构 不一致带来的困难。通过词对齐确定节点调序,然后计算短语对应的句法结构 的调序概率,并将调序概率作为所建立的线性模型中的一个特征,如果在翻译 记忆库中找不到完全相同的句子,则进行相似句的模糊查找,从而将句法特征 融入词汇、短语翻译模型中。

在句法分析树的基础上定义了一个新句法结构,并通过新的句法结构建立 了调序模型。所建立的句法结构能够和源语言句子的任意短语切分方式相对应, 因此词汇、短语抽取不受句法结构约束,并且该模型对于翻译过程中的词汇、 短语交叉现象不敏感,能够较好地和翻译过程相结合。

发明兼顾相同句的高效检索和相似句的模糊检索,在检索过程中,对待翻 译句进行分词后,在翻译词库中查找包含这些单词的句子。在检索到的句子中, 通过相似程度的比较,计算出待翻译句与例句的差异,这种方式除了能够计算 出相似度之外,还可以得到待翻译句与例句中具体的差异,在辅助翻译中给出 这些差异可以使得用户更高效地专注于这些不同之处的翻译。

该翻译系统同时使用句法依存树作为输入进行翻译。

原文匹配阶段是翻译系统的核心,其主要的技术即规则匹配的算法,模块 的思想为:寻找句子中的主动词,然后找到该主动词相应的配价模式,通过词 性、语义分类、原文匹配等方式寻找与待翻译部分匹配度最高的句子。

(5)译文生成输出:在译文生成阶段中,首先根据匹配模式中的译文模式 生成匹配部分译文,再利用默认规则处理未能匹配的短语,最后将简单句以特 定的形式组装、还原成为最终的译文结果。

此外,在该系统中,对否定词、表示时态的助词、副词等内容也进行了相应 的处理,以便适应中文与马来文、印尼文、泰国文、越南文不同的表达方式。

(6)翻译结果的人工调整:将句子使用目标语言的文字在PDA屏幕上输出 后,目标语言的人员阅读翻译后输出的目标语言句子,如果能准确的理解句子 的意思,就可以完成这一翻译的过程,如果对翻译的句子理解有歧义,就对输 的目标语言的句子进行词序的和关键词进行调整,并将调整后的句子通过PDA 系统翻译后反馈给源语言的输入人员,源语言的人员阅读后如果还有歧义就对 句子进行调整后再翻译输出,通过目标语言和源语言两方人员的调整和PDA的 翻译,最终获得一个双方都能理解的翻译结果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号