首页> 中国专利> 母语人士学用其它语言文字之软件代脑方法和系统

母语人士学用其它语言文字之软件代脑方法和系统

摘要

本发明提供一种母语人士学用其它语言文字之软件代脑方法。母语人士对双语文本的阅读理解移到计算机上进行,阅读理解同时用鼠标点击或软件自动识别出可作句舱的词串、将其标注上句舱和舱眼借以保留阅读理解成果生成句理解模板、含表意构件,模板和构件间语意相同且相互映射;成为软件代脑之“学”还将众人学之所得集结于句理解模板数据库。软件以后者拆分源语句子为表意构件,再转换表意构件为目语句子,给出待校句进行更正运作。无需更正的接续处理下一句;需要更正的有11种简捷更正方法并与自学习模块联动;更正可使后续A向B语句的转换更精准。从而提供母语读外文、外-母翻译、母-外翻译、句骼助写作为无力阅读外文的母语人士获得阅读、参考外文资料能力之多项代脑应用。

著录项

  • 公开/公告号CN103218353A

    专利类型发明专利

  • 公开/公告日2013-07-24

    原文格式PDF

  • 申请/专利权人 刘树根;

    申请/专利号CN201310086775.0

  • 发明设计人 刘树根;

    申请日2013-03-05

  • 分类号G06F17/27(20060101);G06F17/28(20060101);

  • 代理机构

  • 代理人

  • 地址 516002 广东省惠州市滨江东路江景新苑二区六栋803室

  • 入库时间 2024-02-19 19:37:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-06-26

    专利权的转移 IPC(主分类):G06F17/27 登记生效日:20200605 变更前: 变更后: 申请日:20130305

    专利申请权、专利权的转移

  • 2018-12-11

    授权

    授权

  • 2016-04-06

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20130305

    实质审查的生效

  • 2013-07-24

    公开

    公开

说明书

【技术领域】

本发明涉及一种软件代脑的方法及系统;特别涉及一种具母语和专业知识而学用外语者使用的软件代脑方法和系统。

【背景技术】

1)CN99804904.2专利授权,刘莎公开了一项“开放式全息模板人机对话语言翻译方法及全息语义标注系统”。建立一个以句子为对象的自然语言受限对话模板,模板中包含各种自然语言的所有必要语义信息要素,在模板上通过全选式人机对话确定自然语言符号实际携带的词汇信息项和句法信息项,完成原文信息求解,根据求解结果生成译文,并将求解结果转换成译文符号,供译文语义查询。其试图不依赖上下文语境作语义分析并充分利用人机优势互补的作用,获得网络通信中扫除语义信息传递障碍。其以“句子为对象”建立模板为之可取;但模板中包含“各种自然语言的所有必要语义信息要素”,太复杂、难学难用。并借此确定实际携带的“词汇信息项”和“句法信息项”;没有抓住不同语言间的表意共性,不可能获得好结果。

2)CN20880128636.7专利申请,刘树根中公开了“一种语句构件的制作方法”。利用相同内容的双语或多语种文字版本的语料作为训练样本。取出一个句对,利用人机交互方式进行句型层面剖析比对获得句型和小习语;进行句舱层面剖析比对获得舱模和意群串。然后又用同样的方法剖析下一个句对。同时将在这个过程中获得的句型、舱模、意群串和小习语统称语句构件,加以建库保存。该方法获取语句构件的过程与人脑阅读理解过程(方式)接近,意义重大。

3)CN200810086229.6专利授权,刘树根公开了“一种基于语句构件的母语读外文方法”。利用上款相同方法获得语句构件;基于语句构件产生母语读外文方法。产生人们可以用各自的母语直接阅读外文的技术效果;实现了人们盼望已久的梦想。

4)CN200910129096.0专利申请,刘树根公开了“一种基于语句构件的多语种专业翻译方法”。基于语句构件;使语句构件库具有字段结构映射关系。利用语句构件对待译源句进行拆分,把句子拆分成语句构件;以被拆分的源语语句构件通过相应库的映射关系,映射并取出目语语句构件,以后者组装成目语句子给出。既可获得高质量译文又不需要具独立翻译能力者操作。整个过程很简单,计算机只做了简单而高效的记忆、搜索和查表;不必直接处理语义,绕过了长久以来机器翻译不能逾越的“语义障碍”;具明显进步。

上述专利及申请2-4之间,有一个共同特点,都在人脑、电脑、语言文字之间寻求一个最佳结合点,试图借此获得突破性的技术进展。也有着一种进步和关联关系。

本申请在上述专利和申请2-4的基础上进一步创新;上述专利和申请2-4也是本申请在先的连带专利与申请,部分内容需要同时实施。

人们往往在掌握了母语且有一定的专业基础知识之时学习另一种语言文字,他们是母语人士(下称母语人士);为了工作和事业,需要再学习一门或更多其它语言文字,以便可以阅读参考外文资料;特别是借助阅读双语文本进行范读、扩大词汇量的学习。非外语专业的各专业院校,无一例外地开设外语课,目的就是为了阅读参考外文资料。“学”的目的是“用”;开设外语课的“学”是为了“阅读参考”外文资料之用。事实上,母语人士之学外语,效果普遍不理想,能使他们学外语效率提高,那将获得巨大的经济、社会效益。

众所周知,人脑有独特的理解能力,电脑没有;电脑有非凡的记忆搜索能力,人脑则远远不及。如果能合二为一,势必爆发突破。

合二为一有两种取向;其一,借助于某种脑电波的仪器使人脑电脑互连,人脑可以将电脑作为记忆的扩充部件;从而,人脑可以直接搜索电脑记忆体。其二,将人脑对有限目标的理解能力有形化,成为有限目标理解产物或模板,这有限目标产物或模板转移给电脑,电脑对有限目标可以进行基于这种理解的信息处理。虽然当今有人探索利用意念,通过脑电波指挥机器人;但是要实现前者这种人脑电脑的互连,实在太遥远。后者,对人脑有限目标的理解能力有形化,以理解产物或模板转移给电脑,与传统让电脑模拟人脑的做法相近,可能实现。

人脑在阅读理解时,以句段为单元眼睛逐字扫描;大脑将它们分割成多个语义块,理出块与块之间线性或多维联系。块分割完了,块间联系清晰了;就是理解了。如果分割不利索,块间联系不清晰,没理解;没理解就得重复这个过程……。为了加强分割、理出联系,手也帮忙——画线、划书、做笔记,留下阅读理解的种种印记。

当人脑再次阅读这种留下种种印记的文本(书本)时,块分割、块间联系瞬间显现,使阅读理解变得简单而快捷。

尽管人与人之间,阅读理解留下印记之千差万别;阅读理解的深浅程度也不同;但是,这是规律,这是普遍规律。要不,天下就没有划书,没有做笔记之事;自然也就没有划书之典范、《列宁哲学笔记》了。

综上所述,阅读理解时,划书、做笔记是人脑独特理解能力之印记。现有技术和现状的缺点是:人脑阅读理解与电脑语言文字信息处理没有任何关联;人脑阅读理解之所得不能为计算机所借用,不能和电脑非凡的记忆搜索能力合二为一,两者完全脱节。能否利用软件手段,使阅读理解留下更多的、规范统一的印记为电脑所用;是一项具非常意义的技术尝试和挑战。

“母外语言文字学用”指母语人士,学习外语,使用外文——阅读、参考、翻译外文资料——的全过程,在这个过程中通过人机交互的手段、软件留下阅读理解更多的、规范统一印记的“句理解模板”,借以实现和达到“软件代脑”作用和功效。

【发明内容】

本发明申请的总体构思是:

刘树根在前专利和申请2-4上继续前进,提供一种母语人士学用其它语言文字之软件代脑方法和系统。有①阅读理解移到计算机上进行;②软件标注句舱和舱眼;③模板和构件间语意相同并相互映射;④拆分源语句子为表意构件;⑤转换表意构件为目语句子;⑥更正和机器学习等六大步骤。

步骤①~②是代脑“学”的体现,通过人机交互的软件手段,使母语人士的阅读理解留下更多的、规范统一的印记,用以保留当前句对阅读理解的产物(成果)。从而在“母语人士”、“句为单元”和“以A-B语句转换翻译为理解深度”三个有限约束条件下,产生有限目标——句理解模板,保存后者、转移给电脑并使后续工作能够通过软件完成。这样代脑之学A)学的胃口再大也可行,电脑海量记忆和非凡搜索都能发挥作用;B)代脑之学容易实现且能共享,母语人士加个电脑即可,更具意义的是众人学之所得,可以相加、能够共享;C)代脑之学紧随科技发展,任何语用新成果、新方法、翻译经验,很容易归结到句理解模板。

步骤③模板和构件间语意相同并相互映射,在步骤①~②已经获得的句理解成果,由于句子可以根据其框架式表意构件进行分类;幼儿学说话,人们造句思想交流,都是使用这种框架式表意构件的过程。然而,这来自一个句对理解实例之句理解产物,事实是一类句子代表,能提炼出一类句子的“模板”。

步骤④软件在拆分源语句子为表意构件,接着⑤转换表意构件为目语句子,⑥提供更正机会并进行软件自学习,这些本在人脑完成的、由A语句向B语句的转换过程,通过软件在电脑里实现。④~⑥步骤不断循环是软件代脑“用”的核心;至少能产生四种代脑应用:A)为无力阅读外文的广大母语人士获得阅读、参考外文资料能力之代脑应用——母语读外文。B)为无力作翻译的广大母语人士获得翻译外文资料的代脑应用——外-母书面翻译。C)为无力作母-外翻译的母语人士获得难度较大翻译能力的代脑应用——母-外书面翻译。D)为无力而需要用外文写作的母语人士获得用外文写作能力的代脑应用——句骼助写作。

母外语言文字学用软件代脑之实现,使母语人士获得既减轻学外语费时费脑、阅读参考外文资料不力之难,同时又为扩充相当庞大、可以涵盖语言文字表意构件之所有的表意构件数据库添砖加瓦;使后来的母语人士获得更多更优的软件代脑好处。

本发明要解决的技术问题是:

本发明提供提供一种母语人士学用其它语言文字之软件代脑方法和系统。要解决的技术问题是现有技术(现状),人脑阅读理解之所得,不能为计算机语言文字信息处理所利用;人脑独特的理解能力和电脑非凡的记忆搜索能力不能合二为一;电脑不能逐句将语言文字A转换成语意不变的语言文字B的技术问题。

本发明解决其技术问题所采用的技术方案是:

提供一种母语人士学用其它语言文字之软件代脑方法和系统,其特征包括如下步骤;

S1.阅读理解移到计算机上进行,母语人士对相同内容双语文本的阅读理解移到计算机上进行,软件把双语文本A和B被分别置于源文A和B区;

软件从源文A和B区根据句末符号切分并取出双语文本A和B一个句对置阅读理解区A和B,源文A和B区相应减少一句;

若母语人士认为切句不妥,单击源文区A或B某点,软件将该点之前部分移入阅读理解区紧随A或B已取句之后;

若单击阅读理解区A或B某点,软件将该点之后部分退回源文区A或B;

S2.软件标注句舱和舱眼,母语人士阅读理解同时用鼠标点击阅读理解区A和B句当前可作为句舱的表意相同词串或连续的若干个词串,软件将它们以大写字母依先后为序加花括号在A和B句同时预标为一个句舱;

或软件自动识别出A和B句当前表意相同词串或连续的若干个词串将它们以大写字母依先后为序加花括号在A和B句同时预标为一个句舱;

母语人士阅读理解或软件自动识别都是以数量串、专名串、冠名串依次搜索,双语同时预标一个句舱,若这三种串全部搜索完且骼例比在15-50%之间,预标句舱结束;

若这三种串全部搜索完且骼例比>50%,再以无冠名串、其它语意匹配串继续依次搜索预标句舱,直至骼例比在15-50%之间,预标句舱结束;

当预标句舱结束,软件进行句舱、句骼格式检查,用16进制数字替换大写字母以A句从左到右为序整理前述预标为正式标注;

经正式标注的双语句对进一步检测每个句舱,若有大于原有5个词串的大句舱需进一步标注舱眼或组复词,标注舱眼以无冠名串、其它语意匹配串依次为靶词串,模例比为50-70%之间,舱眼用16进制数字以A句从左到右为序加方括号标注,以上是第一轮句舱及舱眼理解标注的步骤,从第二轮理解标注开始,以已标语种句为模板软件自动识别、标出未标语种句相应表意相同的句舱及舱眼;

每轮标注选内容相同的AB两种语言文字版本的语料,第二轮开始每轮理解标注新增一种语言文字,另一种为已经标注过的语言文字,A语分配给已经标注的语言文字,B语分配给新加入的语言文字;

每个句对的正式标注结束,进行下一句对的标注,接续S1;

S3.模板和构件间语意相同并相互映射,软件在这种必须由人脑主导的阅读理解过程中把当前阅读理解区的双语句对标注上句舱、舱眼,用以保留当前句对阅读理解的成果,以句理解模板100的方式转移给电脑,使后续工作能够通过软件完成而产生代脑功效,为了句理解模板能更好用于理解标注其它句子,软件将它们保存于句理解模板数据库代替人脑进行记忆,句理解模板数据库至少可分解出句骼、舱模、意群串、习语四种表意构件,分别构成相应的表意构件库,它们是句理解模板数据库的分库;

S4.拆分源语句子为表意构件,软件利用句理解模板100拆分源语句子为表意构件,代替人脑理解和拆分句子,先进行配句骼运作,事先按句骼词串与句舱之空穴生成句骼串表并索引,配句骼时把源语句子从左到右逐字或逐词串取下搜索句骼串表的骼首字段并存于临时表,再逐记录取出临时表内容,以句骼词段查询源语句子,句骼串的每段都可以在源语句子中查到且次序相同为匹配,再根据句骼串表取出当前匹配的源语句骼;

将源语句子套入源语句骼拆分源语句子为表意构件使之成为当前源语句理解模板101;

利用当前源语句句骼映射作用取出相应目语句句骼;

S5.转换表意构件为目语句子,软件利用源语句句骼搜索到目语句的句骼,将当前源语句理解模板上的句舱内容转移到目语句骼相应句舱;

检测所有句舱,不含舱模的跳过,若含有舱模,将该句舱内容套入舱模,利用该舱模分库的映射作用取出相应目语舱模,将当前源语舱眼内容移到目语舱模的相应舱眼;

逐个搜索目语句理解模板102的句舱或舱眼,用其中的源语词串搜索意群串库,将搜索到的目语所有解释结果保存到更正表,利用预选模块,预选其中之一作为目语意群串替换当前句舱或舱眼的源语词串,直至所有句舱、舱眼替换结束。

S6.更正和自学习,软件从目语句理解模板102上取出作为目语待校句显示给出,接受操作者确认或更正,同时进行自学习;

或软件从目语模板上取出作为目语待校句显示给出,从源语模板上取出作为源语参考句显示给出,接受操作者确认或更正,软件同时进行自学习;

当人脑读到,阅读理解的印记瞬间显现,阅读理解变得简单而快捷,软件配合操作进入校正运作201;

软件在拆分源语句子为表意构件S4,接着转换表意构件为目语句子S5,软件配合作更正并自学习S6,这些本在人脑完成的由语言文字A103的句子向语言文字B104的句子转换,软件给以实现在S4-S6之间循环,能产生多项代脑应用。

上述方法中,步骤S3所述句理解模板数据库进一步的特征是:句理解模板包括句例、句舱、句骼、舱眼、舱模、意群串、习语,它们共为句理解模板的成员,直接用以表意的成员为表意构件,以它们相连可组成一个多语种句理解模板的长链;

软件在获得句理解模板的同时,用数据库进行保存代替人脑进行记忆,第一轮理解标注句理解模板数据库含有A句模、B句模字段,第二轮理解标注开始每轮新增一种语言文字,句理解模板数据库先增设一个相应语之句模字段,每轮理解标注必须取同内容、不同文字版本语料确保相同记录的各语种句模所表达的语意相同,并互相映射;

从句理解模板数据库分解出若干种类表意构件,分别构成表意构件库,它们是句理解模板数据库的分库,分库具继承性,继承了句理解模板数据库的特性,分库中同记录表意构件语意也相同,它们也互相映射。

上述方法中,步骤S5所述的利用预选模块,预选其中之一作为目语意群串替换当前句舱或舱眼的源语词串,其进一步的特征是:

更正表至少有词串段、搜索串、解释、串首位字段,预选模块与语言文字种类密切相关;

英译中的预选312是①用当前句舱或舱眼内英文词串查询“经验选词”库,查有取出解释字段内容的首条中文词串为313最大适配的目语串给出,查无以更正表本词串段首记录为最大适配的目语串给出;②用当前句舱或舱眼已经获得的中文内容314查询“中词序”库的原序字段,查有以正序字段内容替换为最大适配的目语串315给出,查无不变;

中译英的预选以源、目语过渡式中句舱或舱眼的源语内容查询更正表搜索串字段,有全等的以同记录解释字段内容为最大适配的目语串给出,无全等时317的再查询“舱经验”库中舱字段,有318以英舱字段内容为最大适配的目语串给出,查“舱经验”库无以当前句舱或舱眼中文内容为最大适配的目语串给出;

凡预选模块选用了更正表某查得项改变了原给出内容的,同时在更正表中将它换位到本词串段之首。

上述方法中,步骤S6所述软件从目、源句理解模板取出作为目语待校句,和或作为源语参考句,接受操作者确认或更正,同时进行自学习,进一步的特征是:

当用户读到目语待校句和相应的源语参考句时即校正开始,语意校正有待校句完全正确无需更正和需要更正两种情况,无需更正时接受用户单击“返回”按钮接续S4,需要更正的进入校正运作201后再接续S4;

软件进入校正运作201,且与自学习模块301联动,对校正过程的人机互动进行学习、记忆且为预选模块提供数据。

上述方法中述需要校正的进入校正运作201,进一步包括如下步骤:

A)不妥词串的替换202——当用户认为待校句某词串不妥时,单击它系统搜索更正表,弹出下拉列表给出全部相关查得项待选,然后以被单击选中的查得项替换译句不妥词串,同时置换为词串段之首;

B)连续句舱的切分203——当遇到没有参照无法自动进行切分的连续句舱给出待切,当被单击后以被单击点为切分点将两个句舱内容分开;

C)干预另选句骼204——当遇到句舱和舱眼不匀称、有残缺、或堆叠之错选句骼表现时,或用户不认可当前译句时单击“继后”按钮,系统把多对匹配句骼给出待选,以单击选取后的句骼重新套入接续S6继续运作;

D)补加意群串205——当不妥词串另选替换而缺失时,接受用户使用延伸词义、粘带前引或后随字词方法补加意群串,以补加串进行替换并补加于意群串相应语种构件字段;

E)组选复串206——当不妥词串另选替换而缺失时,接受用户使用组复词或改选复词的方法补加复词串,以补加串进行替换并补加于意群串的复词库相应语种构件字段;

F)句舱词序207——当译句句舱有词序错误时,接受用户单击其中串,再单击“←移”或“移→”命令按钮,将单击串前移或后移一个串位;

G)编词替换208——当连续多串不妥,不能用单击选中时,用拖放操作选中选中串时,然后在编词替换处填上其它词串、编辑或为空,再单击“∧”按钮时,系统以后者置换前者;

H)修辞209——当出现不能用上述步骤解决的修辞现象时,接受用户单击“修辞”按钮,然后将当前待校句复制到编辑框,接受用户使用编辑的方法进行修辞操作;

I)舱转换210——当中译英时接受用户单击某句舱或舱眼内容,搜索更正表所有当前句舱或舱眼含有的查得项,列表给出等待用户多次有序的单击选取,将它们置换待校句相应句舱或舱眼内容;

J)补量词211——当英译中时由于英语无量词而中文有量词因而需要在待校句需要之处补上量词,接受用户单击待校句的需补加处,系统搜索最接近单击点的数串后中心名词,当“▲”按钮同时被单击,以中心名词搜索量词库,取出相应量词补加到待校句;如果量词库查无,给出对话接受输入给以补加且录入量词库;

K)补冠它212——当中译英时由于中文没有而英文有冠词、动词to/be、to/have等,这些需要补加,在系统给出保留句舱标志标号的目语待校句时,已经显示了“a/an”、“the”、“to/be”、“to/have”,当它们之一被单击,待校句也被单击时,系统将它们之一在待校句被单击处加上适当形式的词串;

以上A-H状态步骤与语言文字的种类无关,具共性特点,可以出现在多语种之间A译B或B译A的双向翻译的过程中;I状态步骤与语言文字的种类相关,用于无词间间隔表意文字的翻译之中;J-K状态步骤与语言文字种类密切相关,它们具个性特点根据具体语种设置。

上述方法中,所述的与自学习模块联动,对校正过程的人机互动进行学习、记忆且为预选模块提供数据,进一步的特征是:

A、经验选词,在英译中语意校正运作过程中当用户单击待校句的不妥词串后303,系统搜索更正表,列表给出全部相关查得项待选的同时,将所有相关待选项以空格相隔生成经验串,末尾把相应的英词串附后;

当用户选取列表之一置换的同时,用选中词条和英串查询“经验选词”库,查有频度=频度+1,查无,将选中词条移到经验串之首且压栈式存入该库305的中解释字段,英串从经验串取下存入英串字段,当前句骼号存入句骼号字段;

B、中文词序,在英译中语意校正运作过程中将生成的中文待校句给出时备份于“给出句”,当测得用户使用“←移”或“移→”按钮移动句舱或舱眼词序时306,记下被移句舱的舱标号或舱眼号,当语意校正结束,“返回”命令按扭被单击时搜索经过移位调整词序的句舱或舱眼,是,以句舱为单位将移位前、后结果分别存于中词序库308的“原序”、“正序”字段,且清除当前句舱或舱眼在经验选词库305中的相关记录;

C、舱经验,在中译英语意校正的“舱转换”运作时309备存当前句舱、舱眼标号,当“返回”命令按钮被单击,将当前句所有经过舱转换的转前转后内容查舱经验库311,查有频度+1;查无压栈式存入该库。

上述方法中,步骤S1完成之后,S2步骤开始之前,还有一个步骤:

先用当前A语例句进行配句骼运作,搜索当前例是否已有匹配句骼,若搜索到A语句有匹配句骼且套入后得到操作者认可的跳过,不必理解标注,读入下一个句对;

若没有搜索到A语句有匹配句骼或搜索到有但套入后被操作者否认时作查配标运作后,进入理解标注句舱的步骤S2。

上述方法中,步骤S6所述的在S4-S6之间循环产生多项代脑应用,进一步的特征是为无力阅读外文的广大母语人士获得阅读、参考外文资料能力之代脑应用:

母语读外文——让人们利用自己的母语直接阅读外文资料。通过步骤4-6的循环,一句一句地将源语转换成目语给出,供人一句一句地阅读,若有词串不妥、用鼠标单击进行更正;可以仅仅取多语种表意构件库的A、B语构件两个字段生成专用的母语读外文专版,将常用高频表意构件保存于用户端,其余由网络支持更好地适应用户个性化。

外-母翻译——为无力翻译外文资料的广大母语人士获得参考、翻译外文资料的代脑应用,软件逐句切分外文资料,进行S4-S6之间的转换循环,转换出母语句子,以母语句理解模板的方式显示给出待校句,同时显示源语参考句;

当用户觉得某处不妥用鼠标单击时,软件立即启动校正运作及机器自学习;

用户端保留高频表意构件,当用以保留高频表意构件库接近个人机满负荷时,自动进行清理,删除低频端20%腾出空间,重新计频,其余部分通过网络由公司服务器进行后台实时支持。

上述方法中,步骤S6所述的在S4-S6之间循环产生多项代脑应用,进一步的特征是为无力作母-外翻译的母语人士获得母-外翻译能力的代脑应用:

母-外书面翻译——把母语资料翻译成外文文本,软件逐句切分母语资料,进行S4-S6之间的转换循环,转换出外文句子,以外文句理解模板的方式显示给出待校句,同时显示母语句理解理解模板备考;

当用户觉得某处不妥用鼠标单击时,软件立即启动校正运作,必要时作相应必要的交互,翻译要求语意精准,给出原文语意不变的外语译文;

更正操作有的与具体语言文字种类直接相关,除公有更正功能外,软件据具体语种给以适宜的个性化的更正操作。

上述方法中,步骤S6所述的在S4-S6之间循环产生多项代脑应用,进一步的特征是为无力而需要用外文写作的母语人士获得用外文写作能力的代脑应用,句骼助写作,软件接收母语人士以三种方式示意,若示意中含有句末符没有下横线判定为①以母语句示意,若示意中含有句末符也有下横线判定为②以模糊句骼示意,若示意的汉语词串中含有空格或前两者配句骼失败后判定为③以若干词串示意,分别继续下列其一运作:

①以母语句示意,在“母语意思区”写出完整的母语句子表示想用外文表达的意思。可以只写一句,也可以书写多句,必须使用句末符。软件依句末符切分,以切分下来的作为例句,进行配句骼运作,如没有搜索到匹配句骼,跳转③处理;搜索到,给出搜索结果进行S4-S6之循环;

当全部转换成英文词串后,软件按钮“尾加”接受用户单击,将当前句尾加到英文书写区,也可以接受操作者在英文书写区进行编辑修改;

②以模糊句骼示意,软件接收单击“配句骼”命令按钮运作后,弹出一个列表,列出含有“模糊句骼”成份的句骼,并且光标落在合意可能最大的记录上,同时它的中、英句骼已经显示在上部相应框内。接收用户单击“↓尾加”命令按钮,将英文句骼尾加于英文写作窗口,等待用户填写句舱内容,完成该句英文写作;

如果首个记录并不符合用户要表达的意思,可以在列表另选,单击该记录后再单击“←另选”命令按钮,该记录详细内容将显示;

③以若干词串示意,软件将示意切分为词串,根据词串搜索后的结果,到双语文本或句对库、记忆库等以句为单元存在的素材中搜索含有的句子,并以含有词串长度的多少排序,取高端10个记录列表以参考句给出待选。

与现有技术相比,本发明的有益效果是:

1)母语人士获得既减轻学外语费时费脑、阅读参考外文资料不力之难;同时又为扩充相当庞大、可以涵盖语言文字表意构件之所有的表意构件数据库添砖加瓦,使后来的母语人士获得更多软件代脑之好处。

2)通过软件使人脑阅读理解留下更多统一的印记,用以保留阅读理解产物的句理解模板,将后者转移给电脑使后续工作能够通过软件完成;这样的“学”,a)效率很高;b)这种学容易实现且能共享,母语人士加个电脑即可,更具意义的是众人学之所得,可以相加、能够共享;c)这种学紧随科技发展,任何语用新成果、翻译经验,很容易归结成句理解模板。

3)电脑能逐句将语言文字A转换成语意不变的语言文字B,借此进行高译文质量的机器翻译;借此母语人士可以直接以母语阅读参考外文资料。

4)在当前软件能否“代脑”人们还在设想和争论之时,率先实现有限目标下的软件代脑,开发出软件代脑产品,具有积极的学术价值和现实意义。

5)本发明具弘扬中文汉语,促进世界语言文字一体化的有益效果。人类自然语言已经经历了漫长的“文字化”时期,“文字化”没有完成,即还没有文字的语言,将完全消失。文字化后的自然语言,堪称“语言文字”,将进入这个以现代科技为背景的“以表意进行关联”技术走到一起的第二个时期。这个时期之后是世界语言文字一体化;或者说这个时期就是语言文字一体化的初级阶段。“以表意进行关联”后的语言文字不再是“在各自独立体系内缓慢发展”,而是在“以表意进行关联”后共同、快速地发展。

这个以现代科技为背景,“以表意进行关联”的技术的完全有可能就是本发明所公开的技术。其以汉英作为第一个语言文字对,也是核心语言文字对。即将成为其它语言文字表意关联的模板,象DNA复制一样那样对其它语言文字进行表意的关联。这点对于弘扬中文汉语意义重大。

中文汉语,曾经由于字符集太大在计算机面前苦脑犯愁难以输入。自然语言大量被吞并,不少国人志士为之犯愁。感叹没有词间间隔,表意文字落后于拼音文字等等;甚至呼吁在被吞并危协来到之前改为拼音文字。这些犯愁虽然不无道理,但没想到在本系列发明这里,呼吁变多余、所愁变优势,没有词间间隔反而更容易被表意关联;拼音文字虽然先进,在世界语言文字一体化面前不一定更优越。所以支持、实施本系列发明(包括后继的发明)具有弘扬中文汉语的有益效果。

【附图说明】

图1句理解模板模式图;

图2更正运作流程示意图;

图3自学习模块和预选模块流程示意图;

【具体实施方式】

一种母语人士学用另一语言文字之软件代脑方法和系统,下面以掌握汉语中文的汉语人士,各企事业单位专业技术人员以及在校大学生。他们都掌握了中文汉语,有相应专业知识和一定的英语基础,他们需要学习或继续学习英语,参考阅读英文资料,是汉语人士。下面参照附图,以他们为母语人士,学习使用英语进行阅读参考英文资料为实施例。分①阅读理解移到计算机上进行;②软件标注句舱和舱眼;③模板和构件间语意相同并相互映射;④拆分源语句子为表意构件;⑤转换表意构件为目语句子;⑥更正和机器学习;⑦多项代脑应用的软件实现等将本发明的内容进一步说明如下:

一、阅读理解移到计算机上进行

人脑在阅读理解时,以句段为单元眼睛逐字扫描;大脑将它们分割成多个语义块,理出块与块之间线性或多维联系。块分割完了,块间联系清晰了;就是理解了。如果分割不利索,块间联系不清晰,没理解;没理解就得重复这个过程……。为了加强分割、理出联系,手也帮忙——画线、划书、做笔记,留下阅读理解的种种印记。

当人脑再次阅读这种留下种种印记的文本(书本)时,块分割、块间联系瞬间显现,再阅读理解变得简单而快捷。

把人脑的阅读理解移到计算机上进行,不少人们已经是这样做了;在计算机或网络上阅读电子文档。技术关键是如何保留阅读理解的“印记”;首先需要确定一个理解的深度和目的。我们的目的是以“表意”将不同语言文字进行关联,将双语句对标出相应的表意构件。母语人士的阅读理解深浅度以钩划出双语句对表意构件为度,能标注出句舱、舱眼即可。然而,对人脑理解深度要求不是很高,只要在两个句子中找出相同表意的词串。通过软件利用电子词典进行自动识别、或者外语水平不高的母语人士,都可以做到。

计算机和网络现成的相同内容不同语言文字版本的文档是很好的样本部分,其次,书面的相同内容不同语言文字版本的文档,通过扫描识别或者键盘输入进入计算机。随后的人脑阅读理解就可以在计算机上进行了。

在本方法的软件界面设置四个区域。软件把双语文本A和B分别读入系统,分别置于源文A和B区。然后,从源文A和B区根据句末符号切分并取出双语文本A和B一个句对置阅读理解区A和B,源文A和B区相应减少一句。某些特殊情况,若母语人士认为切句不妥,单击源文区A或B某点,软件将该点之前部分移入阅读理解区紧随A或B已取句之后。若单击阅读理解区A或B某点,软件将该点之后部分退回源文区A或B。

作好准备后,首先需要为句对搜索匹配句骼,有匹配句骼并且套入后各句舱和舱眼匀称、无残缺、无堆叠现象的跳过;无匹配句骼或有残缺、有堆叠现象的句对才进行理解标注。首先进行配句骼运作。配句骼事先以语种为单元,按句骼词串与句舱之空穴生成句骼串表并索引,例如句骼“I know{1}got crush on{2},{3}you could{4}.”等使之成为句骼词串“I know...got crush on...,...you could....”;句骼串表至少有“句骼词串、句骼码(句骼库记录号)、骼首(如该例=“I”)”字段;加索引。句骼词串被句舱分割成句骼词段如“I know”、“got crushon”、“,”、“you could”、“.”;注意“,”、“.”与“got crush on”等同也是一个句骼词段。这就构成英语句骼串表,可用于以英文为源句的搜索。再例如句骼“我知道朝露{1}喜欢上{2}了,{3}你{4}看。”等使之成为句骼词串“我知道...喜欢上...了,...你...看。”;和句骼码、骼首字段共同制表索引。句骼词串被句舱分割成句骼词段如“我知道”、“喜欢上”、“了,”、“你”、“看。”;这就构成中文句骼串表,可用于以中文为源句的搜索。

配句骼运作——事先按句骼词串与句舱之空穴生成句骼串表并索引之后,配句骼时把A语句例从左到右英逐单词中逐字取下搜索句骼串表的骼首字段(英含句骼词串第一个单词或符号;中含第一个字或标点符号)并存于临时表,再逐记录取出临时表内容,以句骼词段查询句对例,句骼串的每段都可以在句对例中查到且次序相同为匹配句骼,再根据句骼串表的句骼码字段取出相应语种句骼。以A语句搜索,取出A、B语句骼;将当前句对例对号入座地全部套入。

配句骼运作搜索到匹配句骼,将当前句对例套入并显示给出“舱检测”和“切配标”按钮,当操作者读到后认为各句舱和舱眼匀称、无残缺、无堆叠现象且语意正确时单击“舱检测”按钮,表示认可,系统接续舱检测步骤。如果不是这样,不认可,单击“切配标”按钮,系统进入切配标运作,用A语词串查询意群串库(或和传统电子词典)看B语句是否含有,生成当前句对语意匹配表;为标注句舱、舱眼作好准备。

若搜索到A语句有匹配句骼且套入后得到操作者认可的跳过,不必理解标注,读入下一个句对。若没有搜索到A语句有匹配句骼或搜索到有但套入后被操作者否认时进行切配标运作后,进入理解标注句舱的步骤。

切配标运作——切配标运作机器利用含有词性、A语词、B语词字段的语意匹配表,先以A语句子单词串为单元切分、依次填入匹配表A语词字段,随后逐记录取出查询意群串库或传统电子词典,以查得的相应B语解释搜索B语句是否含有,含有且是最长串填入B语词字段同时将其A语词性填入词性字段,无含有B语词字段为空。一条A词串有多条B语解释的,它们的A语词词字段相同。这就作好了识别标注句舱的准备,将句舱计数器(N=0)清零。接续标注句舱的步骤。

二、软件标注句舱和舱眼

语言文字的本质是表意,所表之意人类互通;句子是能够表达完整语意的基本单位。不同语言文字的句子可以表达相同的语意。不同语言文字的表意由几种共同的表意构件实现。然而,把多种语言文字以表意进行关联,就可以划分出它们相应的表意构件。句子分句骼和句舱两部分,句骼是句子的骨骼和框架,句舱是句骼框架上灵活、常被替换的舱。它们像填空题,句骼是题干;句舱是题干上的空。它们像数学公式,句骼是算式,句舱是变量。然而拿不同的词串替换句舱内容就可以生成许多新句子;换一句话说,句骼是一类句子的骨骼和框架。幼儿呀呀学语是在模仿、尝试着找句骼、用句骼;成人遣词造句交流思想,是使用句骼的过程;传统机器翻译以字、词组合成句,欠缺的就是句骼框架。

标注句舱,根据当前句对、以A、B语句词串是否表意相同来决定是否作为一个句舱。其中词性是一个参考,最常作为句舱或者最适合作为句舱的词串依次是:数量串,表示数、量的词串或连续数条词串;专名串,专有名词串;冠名串,由冠词携带的名词词串,多种语言文字有冠词(可作识别标志);无冠名串,没有冠词携带的名词词串;其它语意匹配串,除前4种词串以外的其它词串,只要在句对中表意相同都可以作为句舱,在骼例比适宜的范围内。母语人士阅读理解或软件自动识别都是以数量串、专名串、冠名串依次搜索,双语同时预标一个句舱。句舱与句舱之间以有词串相隔为佳,没有词串相隔为连续句舱;仅仅允许两舱相连。一旦A、B语之一出现三舱相连,软件立即提示“返工”,否则不能继续运行。A、B语句同时出现两个相续的句舱,例如A语有2、3句舱相续;B语也有2、3或3、2相续,并且英共含词串(包括间隔词串)<=5,软件提示操作者考虑合并;仅是“考虑”。

骼例比为长期反复多次实验获得的标注句舱、舱眼的指标;是句骼和句例含有字符数之比例。第一轮标注A语选英文,B语选中文。以英文字符数计算,假如一个中英句对,英文字符总数(包括标点符号)是100;开始标注时它的骼例比是100%;标注一个句舱后,舱内含20个字符,这时的骼例比=20/100,等于20%;再标注一个句舱,句舱内的总字符数增加到45个,骼例比等于45%;以此类推。第二轮开始以已经标注语句为模板,象DNA复制一样识别标注未标语句的句舱及舱眼,骼例比仍然以英文句计算。

把句对标注出句舱有两种方法:

方法之一,由操作者、母语人士阅读理解句对,将在句对中表意一致的词串或连续的几条词串定为一个句舱,用鼠标单击其首尾,A、B语句同时进行;软件将被单击两个点之间的内容,作为一个句舱进行标注;标注好一对句舱、再标注第二对……。在前申请2公开了“一种语句构件的制作方法”,表意构件是语句构件的进步,标注操作方法步骤一致,操作者可参考上述最适合作句舱词串依次考虑搜索,将它们作为句舱,当骼例比合适时终止标注句舱。这里不再赘述。

方法之二,由软件自动按上述最适合作为句舱的词串,依次搜索作为句舱进行标注。先以先后为序预标,达标后以英语句从左到右为序改预标为正式标注。第二轮开始以已经标注的语句为模板对未标语句进行识别标注,句舱标号也同时复制;这也是不同语言文字同类表意构件语意相同的技术特征保证之一。

利用上述方法之一,母语人士阅读理解同时用鼠标点击阅读理解区A和B句当前表意相同词串或连续的若干个词串,软件将它们以大写字母依先后为序加花括号在A和B句同时预标为一个句舱。

利用上述方法之二,软件自动识别出A和B句当前表意相同词串或连续的若干个词串将它们以大写字母依先后为序加花括号在A和B句同时预标为一个句舱。

自动识别预标句舱的运作,例如句对例:

“In Hengtung County,its per-mu_grain_yield surpassed800jin in1970,doublethat before1965.

衡东县在1970年每亩产量超过800斤,是1965年以前的两倍。”

机器查询当前句对语意匹配表,首先搜索识别数量串,有、将它不们在A、B语句子中同时据N=N+1以“A、B、C……”预标;本例有3对数量串,预标为“A、B、C”3个句舱,例如:

“In Hengtung County,its per-mu_grain_yield surpassed A{800jin}in B{1970},double that before C{1965}.

衡东县在B{1970年}每亩产量超过A{800斤},是C{1965年}以前的两倍。”

无或识别搜索完全句数量串后识别搜索专名串,有、同样将它不们在A、B语句子中同时据N=N+1以“A、B、C……”预标;本例有1对专名串,接续预标为句舱“D”例如:

“In D{Hengtung County},its per-mu_grain_yield surpassed A{800jin}in B{1970},double that before C{1965}.

D{衡东县}在B{1970年}每亩产量超过A{800斤},是C{1965年}以前的两倍。”

无或识别搜索完全句专名串后识别搜索冠名串,有、同样将它不们在A、B语句子中同时据N=N+1以“A、B、C……”预标。本例无;无或识别搜索完全句冠名串后显示符号“|”且在两侧分别显示“←”、“→”命令按钮、计算并显示骼例比、以及“√”命令按钮,接受操作者更正或认可;同时显示骼例比为“64%”;本例因没有达到15-50%的指标,需要继续识别标注句舱;接受操作者单击“√”按钮,继续识别标注。

以上是双语依次同时识别数量串、专名串、冠名串;这三种词串识别之后,计算骼例比,连同预标结果,一些命令按钮一同显示给出。若这三种串全部搜索完且骼例比在15-50%之间,预标句舱结束。若这三种串全部搜索完且骼例比>50%,再以无冠名串、其它语意匹配串继续依次搜索预标句舱,直至骼例比在15-50%之间,预标句舱结束。母语人士核实确认或作指点由软件执行更正。无需更正而骼例比超标,如同本例,则继续识别标注。如果骼例比高于15-50%,以匹配表为据搜索词性字段是名词且A语词B语词字段不空的为语意匹配的无冠名串,或者不是名词而A语词B语词字段不空的为其它语意匹配串。同上且加显当前句对语意匹配表、“|手|”、“∨”、“<⌒”、“格式检查”按钮。

本例继续识别无冠名串和其它语意匹配串,注意,现在开始是每识别预标一个句舱即暂停,等待交互认可或更正。如本例从左向右搜索无冠名串,有“per-mu_grain_yield”、“每亩产量”,且与前、后的已标句舱都有词串相隔,因而进一步预标句舱“E”,如:

“In D{Hengtung County},its E{per-mu_grain_yield}surpassed A{800jin}inB{1970},double that before C{1965}.

D{衡东县}在B{1970年}E{每亩产量}超过A{800斤},是C{1965年}以前的两倍。”

(待续)

这时骼例比为“42%”已经达标,但没有=<15%由操作者根据语意情况可结束识别,单击“格式检查”按钮;也可再识别预标单击“√”按钮;也可以使用其它命令按钮进行更正。

更正操作和上述显示的命令按钮相关联,逻列如下:

“←|→”按钮:当A或B语句被单击在单击点插入显示“|”然后判别“←”、“→”按钮是否被单击;当“←”被单击,将“|”左边的词串左移,如果“|”在句舱内则将其左边词串移出句舱;如果“|”在句舱外则将其左边词串移入句舱。当“→”被单击,将“|”右边的词串右移,如果“|”在句舱内则将其右边词串移出句舱;如果“|”在句舱外则将其右边词串移入句舱。借此更正句舱内容的多寡。

“√”按钮:认可当前识别已预标句舱,继续识别预标新句舱。

“|手|”按钮:手工标识句舱,同时在A、B语待校句各单击欲标句舱的首尾,然后单击“|手|”按钮,将它们再预标一对句舱,自动修改骼例比。

“<⌒”按钮:每次单击反悔最后识别预标的句舱,还原到最后预标前状态以及骼例比;可重复直到完全删去。

上述句对例的识别预标句舱有部份内容还未涉及,再举例说明如下:

例如读入句对“for three years,there is been a running fight between the Toryand Labour members of the Housing Committee about raising council ho house rents.”、“3年来,住房供给委员会的保守党成员和工党成员就提高社团房租事宜互相进行了追击战。”

如上述自动依次同时识别数量串、专名串、冠名串;其中有提示:“冠名串‘running’不匹配!”;当这三种词串识别预标句舱之后,显示骼例比为59%,预标结果:

“for A{three years},there is been a running fight between B{the Tory}andC{Labour members}of D{the Housing Committee}about raising council house rents.”;

“A{3年}来,D{住房供给委员会}的B{保守党成员}和C{工党成员}就提高社团房租事宜互相进行了追击战。”

本例出现上例未曾涉及的内容:同上且加显当前句对语意匹配表、“|手|”、“∨”、“<⌒”按钮;接受操作者使用组复词、延伸词义、粘带前引或后随字词方法等意群对齐方法修改匹配表,增补语意匹配词串,继续预标句舱。

数、专、冠三种词串识别预标中有提示“冠名串‘running’不匹配!”;看匹配表,语种A中的“running”相应的语种B字段为空所以还未匹配;查传统电子词典“running”的解释有:“n,奔跑;赛跑;运转;转动;流出;adj,奔跑的;不断的;连接的;流动的;赛跑的”。它们都在搜索B语句中不含有而没有匹配。根据当前句对例的语意,它表达了“追击”之意;是“奔跑”、“赛跑”的词义延伸。符合“意群对齐”的操作要求(详后)。所以在语种B字段增补“追击”(词性字段填入“t”示其它补加词类,下同);使“running”、“追击”匹配成为意群串。然而冠名串“a running fight”与“追击战”匹配;被识别预标为句舱“E”;骼例比为48%。如:

“for A{three years},there is been E{a running fight}between B{the Tory}andC{Labour members}of D{the Housing Committee}about raising council house rents.”;

“A{3年}来,D{住房供给委员会}的B{保守党成员}和C{工党成员}就提高社团房租事宜互相进行了E{追击战}。”

看句对的后部一大段,没有句舱,同时骼例比48%;可以继续识别预标句舱。因而看匹配表,后的“raising council house rents”与“提高社团房租事宜”其中由于“council”未能匹配。传统词典它有“n,参议会;顾问班子;理事会;讨论会议;立法班子;委员会;政务会;议员”等词义;在这里表达了“社团”之意,是原有词串的词义延伸。符合“意群对齐”的操作要求。所以在语种B字段增补“社团”解释;当母语人士单击“√”按钮,继续自动识别、预标为:

for A{three years},there is been E{a running fight}between B{the Tory}andC{Labour members}of D{the Housing Committee}about F{raising council house rents}.

A{3年}来,D{住房供给委员会}的B{保守党成员}和C{工党成员}就F{提高社团房租事宜}互相进行了E{追击战}。

这时骼例比为26%;句舱分布合理(舱间间隔一般为1-5串的)。识别预标结束;搜索接受“格式检查”按钮被单击。进行格式检查运作。然后正式标注为:

for1{three years},there is been2{a running fight}between3{the Tory}and4{Labour members}of5{the Housing Committee}about6{raising council house rents}.

1{3年}来,5{住房供给委员会}的3{保守党成员}和4{工党成员}就6{提高社团房租事宜}互相进行了2{追击战}。

“格式检查”按钮:结束当前句对的更正操作,进行句舱、句骼格式检查,用16进制数字替换大写字母以A句从左到右为序整理前述预标为正式标注。经正式标注的双语句对进一步检测每个句舱,若有大于原有5个词串的大句舱需进一步标注舱眼或组复词,标注舱眼也以数量串、专名串、冠名串、无冠名串、其它语意匹配串依次为靶词串,模例比(仿效骼例比)为50-70%之间,舱眼用16进制数字以A句从左到右为序加方括号标注。

逐个句舱检测,=>5个原有词串要进入组复词运作。组复词——根据当前句对、句舱语意判断,如其一需要原有两个词条或更多词条合并,语意才等于另一时,前者以“-”将它们相连合并为一个词条,称为复词。换句话说,当两个或两个以上原有词串的总语义不能由词串义相加获得的以“_”相连成复词(复串),如:“works little”“工作懒散”,在句对“theunsuccessful person,on the other hand,works little and just waits to see pass by.”;“而失败者工作懒散,眼看机遇悄然而过。”中表意相同。虽然“works”有“工作”之义,但“little”没有“懒散”之意;它们的总语义不能由词串义相加获得,故以“_”相连,组为复词。又如:knew_nothing_about_it一无所知;compelled_to_go非去不可;Late_at_night深夜;works_little工作懒散;等等。

若=>原有8个词串的以当前句舱作“切配标”运作生成当前句舱语意匹配表以进一步提取舱模为有模句舱,如下例:

1{the American}2{economic}system is,organized around3{a basically private-enterprise},4{market-oriented economy}in which5{consumers}largely determine6{what shall be produced}by7{spending their money in the marketplace for those goods and services that they want most}.

1{美国的}2{经济}是以3{基本的私有企业}和4{市场导向经济}为架构的,在这种2{经济}中,5{消费者}很大程度上通过7{在市场上为那些他们最想要的货物和服务付费}来决定6{什么应该被制造出来}。

依次逐个句舱检测,1-6号句舱都没有超过8个原有串;句舱7{spending their money in themarketplace for those goods and services that they want most}超过8个原有词串,作切配标运作生成当前句舱语意匹配表以备进一步提取舱模为有模句舱。

提取舱模,也以数量串、专名串、冠名串双语同时依次识别、预标为舱眼,例如当前舱被标注为:

spending their money in A[the marketplace]for those goods and services that they want most

在A[市场上]为那些他们最想要的货物和服务付费

这时模例比81%;大于50-70%,再以无冠名串或其它语意匹配串在有间隔的前提下逐个标为舱眼,母语人士除认可更正外,还可以使用组复词、延伸词义、粘带前引或后随字词等意群对齐的方法修改匹配表,增补语意匹配词串,继续预标舱眼B为:

spending their money in A[the marketplace]for those B[goods and services]that they wantmost

在A[市场上]为那些他们最想要的B[货物和服务]付费

这时模例比65%;模例比在50-70%之间;看语意需要,可以结束也可以再预标句舱C;再预标舱眼C必须模例比也在50-70%之间;否则反悔还原,标眼结束。

spending their money in A[the marketplace]for those B[goods and services]that C[they wantmost]

在A[市场上]为那些C[他们最想要]的B[货物和服务]付费

这时模例比53%;也在50-70%之间,允许。最后,以英语句舱从左到右为序修改舱眼预标为正式标注,例如当前句舱正式标注为:

spending their money in1[the marketplace]for those2[goods and services]that3[they wantmost]

在1[市场上]为那些3[他们最想要]的2[货物和服务]付费

将当前句舱纳入当前句对,成为:

1{the American}2{economic}system is,organized around3{a basically private-enterprise},4{market-oriented economy}in which5{consumers}largely determine6{what shall be produced}by7{(623786)spending their money in1[the marketplace]for those2[goods and services]that3[they want most]}.

1{美国的}2{经济}是以3{基本的私有企业}和4{市场导向经济}为架构的,在这种2{经济}中,5{消费者}很大程度上通过7{(623786)在1[市场上]为那些3[他们最想要]的2[货物和服务]付费}来决定6{什么应该被制造出来}。

以上是第一轮句舱及舱眼标注的步骤,第二轮句舱及舱眼标注开始,不用据词串而是以已标语种句为模板软件自动识别、标出未标语种句相应当前表意相同的句舱及舱眼;

每轮标注选内容相同的AB两种语言文字版本的语料,第一轮选最具代表性的英汉二种语言文字,第二轮开始每轮标注新增一种语言文字,另一种为已经标注过的语言文字,A语分配给已经标注过的语言文字,B语分配给新加入的语言文字。

三、模板和构件间语意相同并相互映射

软件在这种必须由人脑主导的阅读理解过程中把当前阅读理解区的双语句对标注上句舱、舱眼,用以保留当前句对阅读理解的成果为句理解模板。

句理解模板包括句例;被花括号所括的句舱;花括号外的句骼。以及大句舱内被方括号所括的舱眼;方括号外的舱模。句舱和舱眼内含有原有若干词串或被组复词所连的复词串,它们是双语以至多语种语意匹配对齐的意群串。意群串是一类填充性的表意构件,填充于句舱或舱眼之中。舱模在大句舱内虽有框架、被填充的情况,但本身也具填充性、填充于句舱。句骼是框架式的表意构件,句骼是句理解模板唯一的固定部分,包括舱标号和花括号,其它都非固定可以被置换的部分或实例。有一些特殊的句子,它们不包含如上所述语意匹配对齐的句舱,直接以句匹配进行表意使用的习语。它们共同成为句理解模板的成员。以上例为例,如:“

1{the American}2{economic}system is,organized around3{a basicallyprivate-enterprise},4{market-oriented economy}in which5{consumers}largelydetermine6{what shall be produced}by7{spending their money in1[the marketplace]for those2[goods and services]that3[they want most]}.

1{美国的}2{经济}是以3{基本的私有企业}和4{市场导向经济}为架构的,在这种2{经济}中,5{消费者}很大程度上通过7{在1[市场上]为那些3[他们最想要]的2[货物和服务]付费}来决定6{什么应该被制造出来}。”

这是当前句对阅读理解的成果。由于上述的阅读理解已经移到计算机上进行了,在计算机上由软件进行标注,所以“转移给电脑”自然隐含实现。这种通过人机交互的软件手段,使母语人士的阅读理解留下更多的、规范统一印记的成果;是在“母语人士”、“句为单元”和“以A-B语句转换翻译为理解深度”三个有限约束条件下,产生有限目标的——句理解模板100。句理解模板如图1所示,有A语句理解模板101;B语句理解模板102;这是第一轮理解标注时所含语言文字种类,也是以后长连当中的某一片段;以后每轮理解标注新增一种语言文字,它将逐步增长,多语种句理解模板可以组成长链。语言文字A103的句子,通过A语句理解模板101,由它们的成员,表意构件与另一语言文字,B语句理解模板102的表意构件产生语言文字B的句子104。简言之,园语言文字A103的句子,可以转换出语意不变的语言文字B的句子;逆向也一样,由语言文字B104的句子,可以转换出语意不变的语言文字A103的句子。句理解模板包括句例,如:“

the American economic system is,organized around a basically private-enterprise,market-oriented economy in which consumers largely determine what shall be produced byspending their money in the marketplace for those goods and services that they want most.

美国的经济是以基本的私有企业和市场导向经济为架构的,在这种经济中,消费者很大程度上通过在市场上为那些他们最想要的货物和服务付费来决定什么应该被制造出来。”

包括被花括号所括的句舱,如:“the American美国的”;“economic经济”;“a basicallyprivate-enterprise基本的私有企业”;“market-oriented economy市场导向经济”;“consumers消费者”;“what shall be produced什么应该被制造出来”;“spending their money in the marketplacefor those goods and services that they want most在市场上为那些他们最想要的货物和服务付费”;

包括花括号外的句骼,如“

{1}{2}system is,organized around{3},{4}in which{5}largelydetermine{6}by{7}.

{1}{2}是以{3}和{4}为架构的,在这种{2}中,{5}很大程度上通过{7}来决定{6}。”

以及包括大句舱内被方括号所括的舱眼,“the marketplace市场上”;“goods and services货物和服务”;“they want most他们最想要”

和方括号外的舱模,“

spending their money in[1]for those[2]that[3]

在[1]为那些[3]的[2]付费”。

句舱和舱眼内含有原有一条或若干词串及被组复词所连的复词串,它们是双语以至多语种语意匹配对齐的意群串,如上面所列的“the American美国的”;“economic经济”;“a basicallyprivate-enterprise基本的私有企业”;”等等。另有一些特殊的句子,它们不包含如上所述语意匹配对齐的句舱,直接以句匹配进行表意使用的习语,例如:“

“一个和尚挑水喝,二个和尚抬水喝,三个和尚没水喝。”;“one boy is aboy,two boys halfa boy,three boys no boy.”;“兵不厌诈”;“There can never be too much deception in war.”等等;没有表意相等可划为句舱的词串,无法标注出句骼、句舱归属于习语。中文的成语、俗语、谚语、歇后语等几乎都是习语。

正如上述,句理解模板包括句例、句舱、句骼、舱眼、舱模、意群串以及习语,它们共为句理解模板的成员。如图1所示,A语句理解模板101、B语句理解模板102分别含有这7种成员。其中直接用以表意的成员为表意构件,有句骼、舱模、意群串及习语四种;A、B模板中相应的表意构件有横线相连,表示它们语意相同且能相互映射。多语种的句理解模板通过表意构件相连组成一个句理解模板的长链。

其中连接“句骼”的横线特粗表示它是模板唯一的固定成员。7个成员中有四者是表意构件,也就是说,从句理解模板上至少可以分解出句骼、舱模、意群串及习语四种类表意构件。语言文字的本质是表意。句子是能够表达完整语意的基本单位;不同的语言文字的句子可以表达相同的语意;不同语言文字的表意以相同的表意构件实现。

意群串是一类填充性的表意构件,填充于句舱或舱眼之中,包括原有词汇、术语、短语以及由意群整词补加的词串。舱模在大句舱内虽有框架、被填充的情况,但本身也具填充性、填充于句舱。句骼是框架式的表意构件,包括舱标号和花括号。句骼是句理解模板上唯一固定成员;其它成员都非固定,都是可以被置换的部分或实例。习语是以句匹配进行表意使用的一类特殊句子,它是表意构件之一。句例不是表意构件,句例是可以表达完整语意的基本单位,是模板的句子实例。

句理解模板客观存在,不管人们是否认识和如何评价它。幼儿呀呀学语,人们遣词造句思想交流,都是自觉或不自觉地是利用句理解模板,运用表意构件的过程。这是句理解模板单用的情况。此外,可一对一对地使用;一对一对地使用可产生A、B语言文字间句子的转换。由于同类的表意构件语意相同且互相映射,所以转换出来的A、B语言文字的句子语意不变。

一对句理解模板包含许多句例。具有相同句骼的一类句子都可以在这对句理解模板上被拆分;被组装出来。一对句理解模板能涵盖句例的多少,是句理解模板和句骼的代表性,代表能力的体现。显然,句子可以根据其句骼进行分类;句理解模板可以来自某一个句对实例,而它的唯一固定成员,句骼可代表和涵盖一类句子,可以被一类句子所套用。

例如这个对句例“The fisherman consents to return the feather suit,on condition that fairydance and play heavenly music for him.在仙女为他跳舞并演奏天上乐曲的条件下,渔夫答应归还羽衣。”,称为“原始例”被保留于句理解模板。以它为句对实例而产生的一对模板:“

1{The fisherman}consents to return2{the feather suit},on condition that3{(00205)1[fairy]2[dance]and3[play heavenly music]for him}.

在3{1[仙女]为他2[跳舞]并3[演奏天上乐曲]}的条件下,1{渔夫}答应归还2{羽衣}。”以及它们的句骼:“

{1}consents to return{2},on condition that{3}.

在{3}的条件下,{1}答应归还{2}。

”;它们的句骼可以代表和涵盖一类句子,可以被一类句子所套用,如可套用出:“

1{The child}consents to return2{Ipad},on condition that3{(00205)1[father]2[buy the toys]and3[play games together]for him}.

在3{(00205)1[爸爸]为他2[买玩具]并3[一起玩游戏]}的条件下,1{孩子}答应归还2{Ipad电脑}。

1{The boy}consents to return2{her bag},on condition that3{(00205)1[hisfemale classmate]2[prepare the homework]and3[not inform others]for him}.

在3{(00205)1[同班女生]为他2[写作业]并3[不告知他人]}的条件下,1{男孩}答应归还2{她的书包}。

1{The employer}consents to return2{the delinquent wages},on condition that3{the workersnot reveal}.

在3{农民工不告发}的条件下,1{雇主}答应归还2{拖欠的工资}。

1{Tom}consents to return2{calculator},on condition that3{the homework is finished}.

在3{完成家庭作业}的条件下,1{汤姆}答应归还2{计算器}。

1{Mother}consents to return2{his favorite doll},on condition that3{the child get A greed inthe next exam}.

在3{孩子下一次测试获得A级}的条件下,1{妈妈}答应归还2{他最喜欢的玩具}。

”;等等很多句对;用于产生许多对英-中或中-英间句子的转换。

之所以称句理解模板鉴于其特性:1)一种产物,一个经过人脑阅读理解由软件标注上更多统一印记的句对理解产物。2)一种场所,一种可以拆分句子和组装句子的场所。3)有固定设施,一种特殊的固定设施——句骼,句骼是句子的骨骼和框架;句骼是不同语言文字表意不可或缺的表意成份。4)有运作模式,一种句理解模式;一种基于句理解的由A语句子向B语句子转换的模式,或拆分A语句、组装出B语句的运作模式。5)可以长期应用,可以累积、可以共享。

为了句理解模板能更好用于理解标注其它句子、通过A、B句理解模板进行A、B语句之转换,软件将它们保存于句理解模板数据库代替人脑记忆,功效自然更高。不仅如此,保存于句理解模板能保证“句理解模板、同种表意构件之间语意相同并互相映射”。当今数据库技术要达到这一目的并不难。首先是建立“句理解模板数据库”第一轮理解标注选取最具代表意义的汉英两种语言文字,该数据库上相应有中模板、英模板两个字段。如上例英汉两个句理解模板分别贮存于当前记录相应语模板字段下。其中英文句理解模板“

1{The fisherman}consents to return2{the feather suit},on condition that3{(00205)1[fairy]2[dance]and3[play heavenly music]for him}.”存贮于当前记录“英模板”字段;相应中文句理解模板“

在3{(00205)1[仙女]为他2[跳舞]并3[演奏天上乐曲]}的条件下,1{渔夫}答应归还2{羽衣}。”存贮于当前记录“中模板”字段。这种存贮由软件执行,可以完全准确无误。并且,只要通过数据库搜索,就可以找到该记录,且同记录字段间能相互映射。例如搜索到“英模板”字段下的当前例的英模,通过映射取出同记录“中模板”字段内容,肯定是当前例中模。它们的语意一定相同;这“一定相同”还有相关步骤保证,如“每轮标注取同内容、不同文字版本语料”进行;获得模板之后,本节所述步骤保存方法和步骤等。

从第二轮理解标注开始,每轮新增一种语言文字,句理解模板数据库相应增设一个某语模板字段。例如第二轮新增俄文,增设一个“俄模板”字段,利用中俄双语样本句对,经理解标注后获得中俄两个句理解模板:“

1{约翰}象4{亨利}一样3{努力}2{工作}吗?

1{Paботaeт}2{Джон}тaк3{ycepно}кaк4{Γeнли}?”;以已经标注的中文之句理解模板搜索到当前记录,可见“中模板”字段下的“1{约翰}象4{亨利}一样3{努力}2{工作}吗?”;也可看到“英模板”字段下有“Does1{John}2{work}as3{hard}as4{Henry}?”;然后将当前俄句理解模板“1{Paботaeт}2{Джон}тaк3{ycepно}кaк4{Γeнли}?”存贮于“俄模板”字段。此后,它们三者不但语意相同,且可以相互影射。

句理解模板至少包含句骼、舱模、意群串、习语四种表意构件。这里将它们分解出来,分别存贮于相应的构件数据库,相应的构件数据库同样有语种构件字段,同样是同记录语意相同且相互映射。例如上例分解出中、英、俄三种句骼存贮于句骼库相应中、英、俄句骼字段,如:“Does{1}{2}as{3}as{4}?”存贮于英句骼字段;“{1}象{4}一样{3}{2}吗?”存贮于中句骼字段;“{1}{2}тaк{3}кaк{4}?”存贮于俄句骼字段。其它表意构件,舱模、意群串、习语以此类推。

这些表意构件数据库是句理解模板数据库的分库。分库继承总库,继承了句理解模板数据库的特性,分库中同记录表意构件语意也相同,它们也互相映射。分库与分库之间相互独立。总库与分库关系为上、下位概念且有分工;总库贮存句理解模板,分库贮存它们的表意构件;这样的安排,搜索、存取等应用方便、灵活。

四、拆分源语句子为表意构件

软件利用句理解模板100拆分源语句子为表意构件,代替人脑理解和拆分句子,先进行配句骼运作。配句骼运作事先按句骼词串与句舱之空穴生成句骼串表并索引,配句骼时把源语句子从左到右逐字或逐词串取下搜索句骼串表的骼首字段并存于临时表,再逐记录取出临时表内容,以句骼词段查询源语句子,句骼串的每段都可以在源语句子中查到且次序相同为匹配,再根据句骼串表取出当前匹配的源语句骼。例如:

事先按语种把句骼变成句骼词串,如英句骼“draw{1}to divide{2}into{3}.”变成句骼词串“draw to divide into.”贮存于英句骼串表(至少含句骼串、骼首、句骼码三字段)对句骼串字段索引(骼首字段“draw”)。配句骼时把源语句子从左到右逐字或逐词串取下搜索句骼串表的骼首字段并存于临时表,再逐记录取出临时表内容,以句骼词段查询源语句子。当前例从临时表句骼串字段取出“draw to divide into.”句骼串的每段都可以在源语句子中查到且次序相同为匹配。当前例4段(其中“.”也是一个段),它们都可以在源语句子“Draw a diagonal line to divide the square into two triangles.”中查到且次序相同,所以匹配。再根据句骼串表当前记录的句骼码字段到句骼库取出当前匹配的源语句骼:“draw{1}to divide{2}into{3}.”。

然后,将源语句子“Draw a diagonal line to divide the square into two triangles.”套入源语句骼“draw{1}to divide{2}into{3}.”拆分源语句子为:

draw1{a diagonal line}to divide2{the square}into3{two triangles}.

它们的表意构件清晰可见,很容易由软件分解出来。如该例得到源语句骼“draw{1}todivide{2}into{3}.”;意群串“diagonal”、“line”、“square”、“two”、“triangles”等。

这就得到当前源语句理解模板;已经将源语例拆分成表意构件。

五、转换表意构件为目语句子

当上一步骤将源语例拆分成表意构件之后。软件利用句理解模板100转换表意构件为目语句子,如图1所示,A、B语种的表意构件一一相应,有线条相连。软件利用源语句理解模板上的句骼“draw{1}to divide{2}into{3}.”搜索到相应目语句的句骼“画{1},把{2}分成{3}。”,将当前源语句理解模板上的句舱内容转移到目语句骼相应句舱。例如:

“画1{a diagonal line},把2{the square}分成3{two triangles}。”

检测所有句舱,不含舱模的跳过,若含有舱模,将该句舱内容套入舱模,利用该舱模分库的映射作用取出相应目语舱模,将当前源语舱眼内容移到目语舱模的相应舱眼里。当前例不含舱模,继续下一步骤。

逐个搜索目语句理解模板的句舱或舱眼,用其中的源语词串搜索意群串库,将搜索到的目语所有解释结果保存到更正表。例如“a”的中文解释有“一种”、“一个”、“一条”;“diagonal”的中文解释有“对角线”、“斜纹织物”;“square”的中文解释有“广场”、“平方”、“正方形”、“直角尺”、“公正的”、;“triangles”的中文解释有“可三角剖分的”、“三角形”等等全部被搜索罗列到更正表。更正表至少有词串段、搜索串(该例是英串)、解释、串首位字段。其中词串段即源文词串以及它的所有解释占居更正表连续记录的段。

利用预选模块,预选其中之一作为目语意群串替换当前句舱或舱眼的源语词串,直至所有句舱、舱眼转换结束。

预选模块与语言文字种类密切相关。英译中的预选312是①用当前句舱或舱眼内英文词串查询“经验选词”库,查有取出解释字段内容的首条中文词串为313最大适配的目语串给出,查无以更正表本词串段首记录为最大适配的目语串给出;②用当前句舱或舱眼已经获得的中文内容314查询“中词序”库的原序字段,查有以正序字段内容替换为最大适配的目语串315给出,查无不变。中译英的预选以源、目语过渡式中句舱或舱眼的源语内容查询更正表搜索串字段,有全等的以同记录解释字段内容为最大适配的目语串给出,无全等时317的再查询“舱经验”库中舱字段,有318以英舱字段内容为最大适配的目语串给出,查“舱经验”库无以当前句舱或舱眼中文内容为最大适配的目语串给出;

凡预选模块选用了更正表某查得项改变了原给出内容的,同时在更正表中将它换位到本词串段之首。例如上所述得到目语句子:

“画1{一条对角线},把2{正方形}分成3{两个三角形}。”;作为待校句显示给出。

六、更正和自学习

当母语人士读到目语待校句和相应的源语参考句时即开始了校正,同时系统的校正模块(附图2)借更正表进行语意校正运作,自学习模块301联动,对校正过程的人机互动进行学习、记忆且为预选模块提供数据;

语意校正有待校句完全正确无需更正和需要更正两种情况,无需更正时接受用户(同指母语人士,下同)单击“返回”按钮接续S4,需要更正的进入校正运作后再接续S4。

需要更正的进入校正运作201举例如下:

A)不妥词串的替换202:例如,当用户读到的待校句及相应的源语参考如:

“如果你1{买到那一栋房子},你是否将在3{那里}渡过2{你的晚年}?”

“if you1{buy that home},will you spend2{the_rest_of_your_life}3{there}?”

当用户认为待校句某词串“那一”不妥时,单击它系统搜索更正表,弹出下拉列表给出全部相关查得项待选。根据被击词串,及其所在待校句的字符位置数查询搜索串、串首位字段,符合记录以下拉列表给出;如“那个、由于、那、那么”等等。

当列表某项被用户单击,例如“那”被单击,以“那”置换待校句当前不妥词串“那个”;并在更正表中将“那”和“那个”2记录内容换位;由于“那”、“那个”不等长,还要修改以后记录“串首位”字段之值。

当“返回”按钮被单击,将上述更正相关信息记录于经验选词库备预选模块搜索使用;最后返回,进行下一句的翻译运作。

B)连续句舱的切分203——当遇到没有参照无法自动进行切分的连续句舱给出、等待操作者干预。假如连续句舱含2个词串,两个句舱各取其一,自动切分。又例如两个句舱相连,其中之一又是重复句舱,参考重复句舱的另一个,将连续句舱内容划出与重复句舱相同部分,剩下部分即属于连续句舱之中的另一个,自动切分,不必交互。除此之外的情况视为“没有参照无法自动进行切分”。

例如待译句“When will he go there,tomorrow or some_other_day?”运作时半途停下,出现连续句舱“1{2{he go there}”,没有参照无法自动切分;所以显示“连续句舱,请单击切分点:”:

“1{2{he go there}”以及如下信息:

when will1{2{he go there},3{tomorrow}or4{some_other_day}?

[1]+什么时候+[2]+,+[3]+还是+[4]+?

显然,应将“he go there”切分为“he”,“go there”;分别被放到[1]+什么时候+[2]中去。

当“he go there”被单击后以被单击点为切分点将两个句舱内容分开;成为:

“when will1{he}2{go there},3{tomorrow}or4{some_other_day}?”

继续运作。

C)干预另选句骼204——当遇到句舱和舱眼不匀称、有残缺、或堆叠之错选句骼表现时,或用户不认可当前译句时单击“继后”按钮,系统把多对匹配句骼给出待选,以单击选取后的句骼重新套入接续S6继续运作;例如待译句:

I went to see_my_doctor for a check-up yesterday.

自动给出待校句为:

我去看1{我去了■请医生的■体格检查昨天}。

1{I went to see_my_doctor for a check-up yesterday}.

参考句全部内容堆叠到一个句舱;起码的“句子有句骼、句舱两个部分”都不支持;自动选句骼有误,“继后”按钮接受到用户单击;把多对匹配句骼给出待选;

当用户另选一个句骼后,继续运作给出待校句以及相应源语参考句为:

3{昨天}我去1{请医生}作了2{■体格检查}。

I went to1{see_my_doctor}for2{a check-up}3{yesterday}.

根据上述命令按钮被用户单击由判别和后续213接续相应后续运作。上面的“■”表示不表意的词串,当用户觉得不妥单击后可弹出列表惫选(下同)。

D)补加意群串205——当不妥词串另选替换而缺失时,接受用户使用延伸词义、粘带前引或后随字词等意群对齐方法补加意群串,以补加串进行替换并补加于意群串相应语种构件字段。例如待译句:

Now doctors have discovered a cause of ulcers.

自动给出的待校句为:

1{现在doctors}发现了一种导致2{溃疡}的原因。

当用户单击“doctors”时更正表中找不到待选项;当用户选中查词典时给出“doctors是名复或动3”提示。本方法规定,凡有词形变化的作为新词登录。然而接受用户输入“医生们”为“doctors”和“医生们”补加为意群串,存入意群串库。同时待译句更换成:

1{现在医生们}发现了一种导致2{溃疡}的原因。

根据上述命令按钮被用户单击由判别和后续213接续相应后续运作。

E)组选复串206——当不妥词串另选替换而缺失时,接受用户使用组复词或改选复词的方法补加复词串,以补加串进行替换并补加于意群串的复词库相应语种构件字段;

例如待译句:

It usually happens before eating or during the night.

自动给出的待校句和相应源语句参考为:

它通常出现在1{以前吃饭}或2{在...的期间■夜晚}。

it usually happens1{before eating}or2{during the night}.

当用户单击这两个句舱之一词串时,更正表列出的备选项用户没有选取。当用拖放选中“before eating”接受用户使用组复词的方法将它们组成复串“饭前”,这里更换且补加于复词库。接着用户又用拖放方法选中“during the night”自动查询复词有“during the night夜里”给出;接受用户单击选用,这时的待校句更正为:

它通常出现在1{饭前}或2{夜里}。

根据上述命令按钮被用户单击由判别和后续213接续相应后续运作。

F)句舱词序207——当译句句舱有词序错误时,接受用户单击其中串,再单击“←移”或“移→”命令按钮,将单击串前移或后移一个串位;

例如待译句:

Doctors have been able to help lessen the pain of ulcers.

自动给出的待校句和相应源语句参考为:

1{医生们}早已能够帮助2{减轻■疼痛的溃疡}。

1{Doctors}have been able to help2{lessen the pain of ulcers}.

如果用户单击“疼痛”,再连续2次单击“移→”按钮,右移2次,待校句变成:

1{医生们}早已能够帮助2{减轻■的溃疡疼痛}。

接着用户单击“的”后单击“移→”按钮,待校句更正为:

1{医生们}早已能够帮助2{减轻■溃疡的疼痛}。

当用户单击“返回”按钮时,先判别用户使用“←移”或“移→”按钮移动了词序,启动自学习模块,将当前移动过的句舱,移前、移后内容保存到“中词序”库。然后返回。

G)编词替换208——当连续多串不妥,不便用单击选中时,用拖放操作选中选中串后,然后在编词替换处填上其它词串、编辑或为空,再单击“∧”按钮时,系统以后者置换前者。

例如待译句:

Alfred Herman,he shared the1911Nobel Peace Prize for his work toward worldpeace.

自动给出的待校句和相应源语句参考为:

1{阿尔弗雷德赫尔曼},因2{他}为4{世界和平}所做的贡献,获得3{1911诺贝尔Peace Prize}。

1{Alfred Herman},2{he}shared3{the1911Nobel Peace Prize}for his worktoward4{world peace}.

当用户认为“诺贝尔Peace Prize”;并用拖放操作选中,系统将它们显示于“选中串”和“编词替换”字样下的文本框;接受编辑为“年诺贝尔和平奖”。当“∧”按钮补单击,以后者替换前者,更正待校句为:

1{阿尔弗雷德赫尔曼},因2{他}为4{世界和平}所做的贡献,获得3{1911年诺贝尔和平奖}。

根据上述命令按钮被用户单击由判别和后续213接续相应后续运作。

H)修辞209——当出现不便用所列其它步骤处理的修辞现象时,接受用户单击“修辞”按钮,然后将当前待校句复制到编辑框,接受用户使用编辑的方法进行修辞操作。

例如待译句或经其它所列步骤处理后的修辞现象时,如:

Dickens’language,at once rich colourful and varied,is like fine and sensitivemusical instrument.

自动给出的待校句和相应源语句参考为:

1{狄更斯的语言}既2{丰富多采}又3{变化多端},很象4{精美而动人的音乐的工具}。

1{Dickens’language},at once2{rich colourful}and3{varied},is like4{fine and sensitive musical instrument}.

当用户单击“修辞”按钮时,将当前待校句复制到编辑框,接受用户使用编辑的方法进行修辞操作。操作后的目语待校句为:

1{狄更斯的语言}既2{丰富多采}又3{变化多端},很象4{精美而动人的乐器}。

“返回”命令按钮除上文所述功能外,它在返回之前还会扫描专为修辞所设的编辑框;当该编辑框不空时,取该框内容返回;要不取待校句返回。

J)补量词211——当英译中时由于英语无量词而中文有量词因而需要在待校句需要之处补上量词,接受用户单击待校句的需补加处,系统搜索最接近单击点的数串后中心名词,当“▲”按钮同时被单击,以中心名词搜索量词库,取出相应量词补加到待校句;如果量词库查无,给出对话接受输入给以补加并录入量词库。例如待译句:

On April24,1970,China successfully launched its first man-made earthsatellite.

自动给出的待校句和相应源语句参考为:

1{在四月24},2{1970,中国}成功发射了3{第一人造地球卫星}。

1{on April24},2{1970,China}successfully launched its3{first man-madeearth satellite}.

当用户把数字串或数串之后的中心名词利用拖放操作选中。例如用户选中“人造地球卫星”;系统将它们显示于“选中串”和“编词替换”下;

当用户单击命令按钮“▲”时,以中心名词(这里是“卫星”)搜索量词库,取出相应量词,“颗”补加到待校句;这时的待校句变成:

2{1970}年1{在四月24},3{中国}成功发射了4{第一颗人造地球卫星}。

如果量词库查无,给出对话提示:“查无;可在编词替换下以‘量/名’形式加入。”如该例输入“颗/卫星”即可。

根据上述命令按钮被用户单击由判别和后续213接续相应后续运作。

以上A-H状态步骤与语言文字的种类无关,具共性特点,可以应用于多语种双向翻译;如英译中或中译英的双向翻译的过程中。J状态步骤与语言文字种类密切相关,用于英译中或其它语种译成中文时使用。下文还有I、K状态步骤与语言文字的种类相关。I状态步骤用于无词间间隔表意文字的翻译之中,例如中译英;K状态步骤用于中译英。I-K都具个性特点根据具体语种设置。上文以英译中为例说明;下文I、K出现在中译英过程中。所以下文以相应中译英实例说明:

I)舱转换210——当中译英时接受用户单击某句舱或舱眼内容,搜索更正表所有当前句舱或舱眼含有的查得项,列表给出等待用户多次有序的单击选取,将它们置换待校句相应句舱或舱眼内容;

例如待译句:

“理论在本质上是对认识了的现实的一种抽象和符号化的表达。”

自动给出的待校句和相应源语句参考为:

1{essentially},a2{theory}is an3{abstract},4{符号化的表达}of what isconceived to be5{reality}.

2{理论}在1{本质上}是对认识了的5{现实}的一种3{抽象}和4{符号化的表达}。

待校句有4个句舱;其中3个句舱都已经译成英文;仅句舱4还保留着源语句舱内容“4{符号化的表达}”

当用户单击该舱内容“符号化的表达”时,由于查询意群库生成更正表的过程中,无词间间隔的表意文字从左到右可能的排列作为词串查询意群库,所有查得项存于更正表。“符号化的表达”被分为“符号”、“符号化”、“符号化的”、“的”、“表达”等中文词串,查得项包含它们以及它们的相关英文解释。供用户根据英文习惯依次选取。

这里用户应先选取“symbolic符号化的”;再选取“representation表达”;然而当前句舱处理完毕,当前待校句为:

1{essentially},a2{theory}is an3{abstract},4{symbolic representation}ofwhat is conceived to be5{reality}.

不管有无其它更正;系统都检测上述命令按钮和给出的相关框、表是否被用户单击来判别后续213,接续相应后续运作。

K)补冠它212——当中译英时由于中文没有冠词、动词to/be、to/have区分等,在中译英时,这些需要补加;在系统给出保留句舱标志标号的目语待校句时,已经显示了“a/an”、“the”、“to/be”、“to/have”、“###”,当它们之一被单击(“###”除外是结束标志),待校句也被单击时,系统将它们之一在待校句被单击处加上适当形式的词串;

例如待译句:

我们累了,这是有目共睹的。

自动给出的待校句和相应源语句参考为:

1{我们累了},as anyone can see.

1{我们累了},这是有目共睹的。

系统以“我们累了”可能排列查询意群串库,将所有查得项保存于更正表备用户选取。这里用户会选取“we我们”和“tired累了”;这时的待校句变成:

1{we tired},as anyone can see.

这样的显然不符合英语的要求。用户会单击“补冠它”下方列出的“a/an the to/be to/have###”其中的“to/be”;并且再单击“we tired”中间的空格。系统判定这里需要“补冠它”操作,并且根据“to/be”的要求,这里自动插入动词“are”;然而当前待校句变成为:

1{we are tired},as anyone can see.

不管有无其它更正;系统都检测上述命令按钮和给出的相关框、表是否被用户单击来判别后续213,接续相应后续运作。

上文逻列并说明了需要更正的状态步骤。还有一种情况,给出的待校句完全正确,操作者没有单击任何上述按钮以及相关给出显示的页面控件,就单击“返回”按钮;即给出的待校句完全正确,无需更正的情况;这种情况随着自学习的运行占比例会越用越多。

需要补充说明的是,上文所提及的待校句都是以保留了句舱、舱眼标志、标号的目语句理解模板形式给出的。当“返回”命令按钮被单击返回,这些句舱、舱眼标志、标号以及不需要的空格都将弃去,与传统方式一样:如:“1{we are tired},as anyone can see.”;“2{1970}年1{在四月24},3{中国}成功发射了4{第一颗人造地球卫星}。”等等变成:“we are tired,as anyone can see.

在1970年四月24日,中国成功发射了第一颗人造地球卫星。”等等返回;给出到译文框,以至最后生成目标译文输出。如由语言文字A103的句子运作后给出语意不变的语言文字B104的句子。

自学习模块301,对校正过程的人机互动进行学习、记忆且为预选模块提供数据,具体运作包括如下内容。例如:

A、经验选词,在英译中语意校正运作过程中当用户单击待校句的不妥词串后303,系统搜索更正表,列表给出全部相关查得项待选的同时,将所有相关待选项以空格相隔生成经验串,末尾把相应的英词串附后。当用户选取列表之一置换的同时,用选中词条和英串查询“经验选词”库,查有频度=频度+1,查无,将选中词条移到经验串之首且压栈式存入该库305的中解释字段,英串从经验串取下存入英串字段,当前句骼号存入句骼号字段。

B、中文词序,在英译中语意校正运作过程中将生成的中文待校句给出时备份于“给出句”,当测得用户使用“←移”或“移→”按钮移动句舱或舱眼词序时306,记下被移句舱的舱标号或舱眼号,当语意校正结束,“返回”命令按扭被单击时搜索经过移位调整词序的句舱或舱眼,是,以句舱为单位将移位前、后结果分别存于中词序库308的“原序”、“正序”字段,且清除当前句舱或舱眼在经验选词库305中的相关记录。

C、舱经验,在中译英语意校正的“舱转换”运作时309备存当前句舱、舱眼标号,当“返回”命令按钮被单击,将当前句所有经过舱转换的转前转后内容查舱经验库311,查有频度+1;查无压栈式存入该库。

七、多项代脑应用的软件实现

本申请实施方式,参照附图分七个主题将本发明的内容进一步说明。在这最后一个主题开始之际,回顾上面已经进一步说明的6个主题:

①阅读理解移到计算机上进行;②软件标注句舱和舱眼;③模板和构件间语意相同并相互映射。这1-3这三个主题将母语人士阅读理解的成果通过软件的手段转移给电脑,是软件代脑之“学”的实施。同样通过软件将众人“学”之所得集结于句理解模板数据库;保证学以致用得以实现。

④拆分源语句子为表意构件;⑤转换表意构件为目语句子;⑥更正和机器学习。4-6这三个主题是软件代脑之“用”的技术核心,通过这个核心实施学以致用,“学”是软件代脑之学;“用”也是软件代脑之用。这4-6循环是软件代脑之“用”的技术核心。

用的实施和体现在于⑦多项代脑应用的软件实现;由将众人“学”之所得集结于句理解模板数据库,和4-6是软件代脑之“用”的技术核心;还要加上现有技术的陪衬,产生多种实实在在的代脑应用,下文选取其中具代表性的进一步说明如下:

(一)母语读外文

这是为无力阅读外文的广大母语人士获得阅读、参考外文资料能力之代脑应用。母语读外文,让人们利用自己的母语直接阅读外文资料。通过步骤4-6的循环,一句一句地将源语转换成目语给出,供人一句一句地阅读。其中计算机在转换的过程中,一条源语词串可能有多条对应的目语解释,预选模块预选其一给出,其余全部保留于缓存区(更正表)。人阅读时,觉得某词串不妥、不恰当时,用鼠标单击它进入校正运作,系统即刻从缓存区以下拉列表的形式给出待选,只要读者单击某待选词条,即刻将其置换;并使后继译句更精准。

该类软件由集结众人“学”之所得的句理解模板数据库;4-6循环的软件代脑用之技术核心;和部分相关的现有技术组成。三部分的具体选用有侧重有所不同。

对于现有技术需要采用结合的主要是有关适合阅读的界面以及相应的功能按钮,这里不予赘述。

对于句理解模板数据库主要用于对表意构件的优化,母语读外文这里一般不涉及。因为母语读外文需要软件瘦身,特别是适宜手机等小存贮空间和速度代价有限的应用。主要是利用句理解模板数据库的分库——表意构件库。甚至仅仅取多语种表意构件库的A、B语构件两个字段生成专用的母语读外文版本。例如“汉语读英文”、“英语读中文”等等专版,供汉语人士阅读英语之用。如此细分专用版本还不够,取A、B语两个构件字段还嫌大,将它们分成用户端和服务器两部分,用户常用高频部分保存于用户端,其余部分由服务器实时支持。这用户常用高频部分保存于用户端是为了更好适应用户个性化,软件与操作者专业、学识、兴趣爱好相关达到最大化。

母语读外文类软件,对于校正运作部分不必全部包含,有所取舍。例如编词替换、修词、补量词、补冠它四项更正可以合并于编词替换。显然操作麻烦些,但功能简化简洁界面对于母语读外文更需要。

对于步骤4-6的循环核心,循环后给出目语待校句,不必再给出源语参考句。当然,也可以作成设置项,让用户自选。

当用户只是浏览,不管需要不需要更正,都单击“返回”按钮处理下一句,顺流而下;当用户觉得某处不妥或还未读懂时可用鼠标单击,软件启动更正运作,由于自学习联动可使后面的转换更精准,以适宜精读、范读、浏览不同的需求。

母语读外文除了在个人电脑上实现,还可以全部放在网站上运行,手机仅仅是发出问题,获取答案的终端。

(二)外-母翻译

这是为无力翻译外文资料的广大母语人士获得参考外文资料、作外-母翻译之代脑应用。母语读外文侧重点点在于“读”,而外-母翻译的侧重点至于“译”,与母语读外相比,更正和人机互动更受注重,追求译文高质量。

外-母翻译流程是:软件逐句切分外文资料,进行S4-S6之间的转换循环,转换出母语句子,以母语句理解模板的方式显示给出待校句,同时显示源语参考句。当用户觉得某处不妥用鼠标单击时,软件立即启动更正运作,必要时作相应必要的互动,机器自学习,产生越用软件越聪明,翻译越高效的应用效果。

对于句理解模板数据库的支持也采用两部分进行,使用过程中用户端分库保留高频表意构件,当用以保留高频本意构件库接近个人机满负荷时(以统一例题用户机完成翻译时间衡量),自动进行清理,以使用频度排序,删除低频端20%腾出空间,重新计频。其余部分通过网络由公司服务器进行后台实时支持。

外-母翻译主要用于个人电脑,也可根据用户需求,仅仅利用A、B语构件字段开发多种手机、个人数字助理等专版,满足个性化的需求。多语种版本之间的双向互译可由用户选取进行。

对于更正运作全动员,应有尽有。并择优结合有关翻译、编辑的现有技术,界面以及相应的功能,这里也不予赘述。

(三)母-外翻译

这是为无力作母-外翻译的母语人士获得母-外翻译能力的代脑应用。“母-外翻译”与“外-母翻译”原理、软件实现基本一样,两者不同在于母语人士,作“外-母翻译”目的语言是母语,是操作者自幼习得的语言文字,母语人士不仅是掌握了母语,还具有相应专业知识,即使外语水平很差,很容易发挥母语和专业知识的优势,很容易通过本软件获得高质量的译文。作“母-外翻译”正好相反,尽管本方法软件已经代脑做了大量工作,由于目标语言文字是用户没有掌握的语言文字,如果外语基础太差,错选外语词串更正可能增大,遇到母外词序不同的句舱,更正外语词序可能不正确。也就是说,对操作者外语基础要求,作“母-外翻译”比“外-母翻译”更高一些。

把母语资料翻译成外文文本,软件逐句切分母语资料,进行S4-S6之间的转换循环,转换出外文句子,以外文句理解模板的方式显示给出待校句,同时显示母语句理解理解模板备考。当用户觉得某处不妥用鼠标单击时,软件立即启动更正运作,必要时作相应必要的交互,翻译要求语意精准,给出符合原文语意的外语译文。更正操作有的与具体语言文字种类直接相关,除公有更正功能外,软件据具体语种给以适宜的个性化的更正内容。

语言文字个性化问题,虽然,“母-外翻译”与“外-母翻译”同样需要。但相对而言,母-外翻译要求更细,例如上文所述与语言文字直接相关的更正部分内容不但全部包含,而且应尽可能结合现有技术进行扩展。

(四)句骼助写作

为无力而需要用外文写作的母语人士获得用外文写作能力的代脑应用。直接用外文写作、表达思想往往有话不知怎么说,书写缺乏句骼难以动笔。因为逻列单词成不了句子;传统的机器翻译数十年几乎没有进展缺乏的正是句骼。本方法有句骼表意构件,可以进行句骼助写作之代脑应用。有了句骼,往句舱填入相应词串就可以获得地道的外文句子。往句舱填入词串容易理解也容易实现。这里需要说明的关键在于软件如何接收操作者示意、搜索出合意的句骼。软件接收操作者示意后搜索出合意的句骼。下面以“汉英助写作”为例进一步说明。

母语人士在“母语意思区”输入母语词串示意,若示意中含有句末符没有下横线判定为①以母语句示意,若示意中含有句末符也有下横线判定为②以模糊句骼示意,若示意的汉语词串中含有空格或当配句骼失败后判定为③以若干词串示意,分别继续下列其一运作:

①以母语句示意

在“母语意思区”写出完整的母语句子表示你想用外文表达的意思。可以只写一句,也可以书写多句,必须使用句末符。软件依句末符切分,以切分下来的作为例句,进行配句骼运作,如没有搜索到匹配句骼,跳转③处理;搜索到,给出搜索结果。例如:

“达尔文十六岁时到爱丁堡学医,三年后到剑桥。”当该句输入到母语意思区。单击“配句骼”按钮后显示出母语句骼“[1]+岁时到+[2]+[3]+,+[4]+后到+[5]+。”同时给出英文句骼:“at the age of+[1]+went to+[2]+to+[3]+and+[4]+later to+[5]+.”。

接着要将中文句舱内容转移到英文句骼。因中文句骼有连续句舱[2][3]无参照需要干预切分,显示“2{3{爱丁堡学医}”。当操作者在“堡学”两字间单击左键,软件将它们切分为“2{爱丁堡}3{学医}”;软件将它们的内容分别填充到英文句骼相应句舱。随后中间态显示框显示骼例混合式的外文中间套句子:“

at the age of达尔文十六went to爱丁堡to学医and三年later to剑桥.”

当操作者依次逐个单击或拖放选中某汉语词串“达尔文”、“十六”、“爱丁堡”、等,软件在下部列表中给出相应英文词条,当用户单击某列表项选中后,软件将它置换刚才被单击或选中的汉语词串只有一条词串相对应的不列表软件直接替换它。例如拖放选中“十六”、“达尔文”后,被软件置换为:

at the age of sixteen Darwin went to爱丁堡to学医and三年later to剑桥.

当然单击应以英文词序安排先后。接着继续“爱丁堡”、“学医”、“三”、“年”、“剑桥”的运作。

其中某词串既有单词也有复词都能表示被选词串语意时,例如“学医”单词列表有“learn”、“studying”、“medicine”等;复词列表有“学医”、“study medicine”,应单击“↑选复”按钮,选取复词置换“学医”。当该句操作结束。英文句为:“At the age of sixteen Darwin went to Edinburgh to study_medicine and three years later toCambridge.”

软件按钮“尾加”接受用户单击,将该句尾加到英文书写区。这里补充一下,在中间态显示框选取词串时,可以重复选词操作直至全英文句完成。当需要对英文词串进行查询的话,可以使用同样拖选的方法进行。可以选取一条单词,也可一次选中数条。

②以模糊句骼示意

所谓模糊句骼就是不必记住并写出某个完整的句骼,写出某句骼的一部分即可。

例如要表达“生命存在需要恰当数量种类的大气。”这个意思。给它写一个模糊的、可能的句骼。可以在母语意思区写“_需要恰当_。”;“_存在_需要。”;“_存在_需要恰当_的_。”等均可。软件接收单击“配句骼”命令按钮后,取出被下横线、句末符分隔的句骼词,以句骼词搜索“句骼串表”。如没有搜索到跳转③处理;搜索到,将搜索到的记录暂存临时表,再以临时表句骼词长度统计、排序,长的在前,列表给出高端(最多10个),依次取出相应句骼,列表给出,并且光标落在最上记录,同时其中、英句骼已经显示在上部相应框内。如果用户认可单击“↓尾加”命令按钮,软件将英文句骼尾加于英文写作窗口,等待用户填写句舱内容,完成该句英文写作。

如果首个记录并不符合用户要表达的意思,可以在列表另选。单击该记录后再单击“←另选”命令按钮,该记录详细内容将显示。

③以若干词串示意

本方法采用“相同内容双语文本”作为样本,直接读取双语文本置于A、B源语区。此外,也将相同内容双语文本读入,也可切分成句对以“句对库”或“记忆库”暂存;以及其它以句为单元存在的这些素材可以直接被利用。

若用户的示意是包含空格的中文汉语词串,以这些空格为分隔符将它们切分成词串;或以下横线、句末符为分隔切分词串。然后,以这些词串进行搜索;若这两者都没有时,从左到右切下三字,搜索,有取用、弃去再切;无改以二字切下,搜索,有取用、弃去再切;无改以四字切下,搜索,有取用、弃去再切;无改以一字切下,搜索,有取用、弃去再切。直至示意为零。

根据词串搜索后的结果,到双语文本或句对库、记忆库等以句为单元存在的素材中搜索含有的句子,并以含有词串长度的多少排序,取高端10个记录列表以参考句给出待选。

例如想表达“一项独立研究发现,与父母有心脏病病史相比,兄弟姐妹患心脏病可能是一个人患病风险的更大的预测因素。”这个意思,可以只写“研究发现父母有心脏病兄弟姐妹患心脏病。”;“研究发现父母有心脏病兄弟姐妹患心脏病。”;“研究发现父母有心脏病兄弟姐妹患心脏病。”等。显示给出如上述,不予赘述。

上文所列是软件代脑中具代表性的实施例。根据本发明敌技术特征,很可以开发出更多的代脑软件产品。

上文数处提及意群对齐,这里作一补充。

意群对齐——意群对齐方法是利用意群的跨语种特征,将多语种的字、词、词组或短语等在当前句对实例支持下进行语义对齐,对齐之后它们便成为意群串,有资格存贮于意群串库。主要有如下一些方法:

①组复词——当两个或两个以上原有词串的总语义不能由词串义相加获得的以“_”相连成复词,简称复串,例如:

knew_nothing_about_it一无所知

compelled_to_go非去不可

Late_at_night深夜

works_little工作懒散

其中“works little”“工作懒散”,虽然“works”有“工作”之义,但“little”没有“懒散”之意;它们的总语义不能由词串义相加获得,故以“_”相连,组为复词。

②依照当前句对例、延伸或增补词义

Nothing can be1{wholly beautiful}that is not2{useful}.

凡是未经2{应用的}就不可能1{完美}。

其中″useful″词义只有“有用的、有帮手的、有益的”;但在该句对确实表达了“应用的”语义;同时“应用的”和“有用的”词义接近,给以增补或延伸词义项“应用的”。

1{She}was2{strong},for all1{she}was so3{small}.

1{她}虽然3{瘦小},但很2{结实}。

其中“small小的”,据该句对例增补“瘦小”词义项。

③不改变原有字、单词的前提下加减串长度,便于拼接

I ask you to teach me every other day.我请你每隔一天来教我。

其中″teach″v有“讲授、教授”词义;减词串长为“教”,增加“教”词义项。

④粘带附随词串

如“good好”粘带成“好处、好事、好心”等。如“word词”粘带成“词儿”等。

⑤词形变化另作词条录入于库(英语的分词,形容词副词比较级等表达的语意,增加词条和相应词义)。

been增补“还是、怎么样”词义;punished增补“受处分”词义;

等等以此类推。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号