首页> 中国专利> 利用语音输入解决模糊的手工输入文本输入的方法和装置

利用语音输入解决模糊的手工输入文本输入的方法和装置

摘要

本发明提供了一种数字数据处理设备,从文本输入工具接收固有的模糊的用户输入。不依赖于任何其他的用户输入,设备将所接收的用户输入对照词汇表进行解释,以产生例如单词(由用户输入的单词所组成的完整单词或一部分,例如:词根、词干、音节、词缀),或用户输入的单词所组成的短语的候选。设备显示候选,并向语音用户输入应用语音识别。如果所识别的语音包含一个候选,则选择该候选。如果所识别的语音组成了候选的扩展,则选择该扩展的候选。如果所识别的语音包括其他输入,则采取其他的操作。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2013-07-10

    授权

    授权

  • 2012-01-25

    实质审查的生效 IPC(主分类):G10L15/04 申请日:20060208

    实质审查的生效

  • 2011-12-07

    公开

    公开

说明书

技术领域

本发明涉及使用数字数据处理设备的用户手工文本输入。尤其是,本发明 涉及计算机驱动的操作,使用语音输入来补充用户固有的模糊的手工文本输 入,以消除对用户文本输入的可能的不同解释之间的歧义。

背景技术

很多年以来,便携式计算机已经变得越来越小。无线产业中的巨大发展产 生了可靠的、便捷的,并几乎是常用的移动设备,例如蜂窝电话、个人数字助 理(PDA)、全球定位系统(GPS)单元等。为了制造真正可用的便携式计算 机,最重要的限制尺寸的部件是键盘。

为了不使用标准键盘而在便携式计算机上输入数据,人们已经开发了多个 解决方案。一个这种方法是使用具有更少的按键的键盘(“简化按键键盘”)。 一些简化的键盘使用了3乘4的按键列,类似按键式电话的排列。尽管在尺寸 这点上有好处,但是简化按键键盘出现一些问题。例如,按键列中的每个按键 都包含多个字符。例如,按键“2”代表“a”,“b”和“c”。因此,由于每 次键击都可以表示一个数字或多个不同的字母,因此,每个用户输入的序列本 身是模糊的。

T9文本输入技术是特别用于对例如电话按键的简化键盘提供单词级的歧 义消除。T9文本输入技术在多个U.S.专利文件中进行了描述,包括U.S.专利 No.5818437。在英语和其他基于字母的单词的情况中,用户按照如下的方式来 使用T9文本输入。

当输入单词时,用户按下与组成该单词的字母相对应的按键,而不考虑每 个按键都代表多个字母的实际情况。例如,为了输入字母“a”,用户输入按 键“2”,而不考虑按键“2”还可以代表“b”和“c”的情况。T9文本输入 技术通过判断由用户的按键输入所表示的所有可能的字母组合,并将其与已知 单词的词典比较来查看哪个(哪些)是有意义的,以此来找到所需的单词。

除了基本应用,T9文本输入还进行了多个改进。并且,T9文本输入和类 似的产品还可以用于使用例如中文的表意字符而不是字母字符的简化键盘设 备。尽管如此,T9文本输入还是不可能提供理想的速度级,减轻每个用户所 需的数据输入。

作为一种完全不同的方法,一些小型设备使用数字化的表面来接收用户手 写。这种方法使用户能够自然书写,尽管是在由便携式电脑的尺寸所允许的小 范围区域内。基于用户与数字化表面的接触,手写识别算法分析用户输入的几 何字符,以确定每个字符或单词。遗憾的是,当前的手写识别方法还是有问题。 一个是,手写通常比打字慢。同时,手写识别的准确度还不能充分可靠地实现。 另外,在手写识别算法需要用户观察预定的字符笔划式样和顺序的情况下,一 些用户觉得执行很麻烦或很难学会。

一种完全不同的使用不需要全尺寸键盘的小型设备输入数据的方法是使 用触摸板,在该触摸板上印刷了一些类型的键盘,或使用上面显示了键盘的触 摸屏。用户使用手指或手写笔在与所需的按键或字母相关的区域与面板或显示 屏交互。由于这种键盘的整个尺寸很小,因此每个按键可以很小。这使一般的 用户很难准确快速地打字。

有很多内建的和附加的产品为触摸屏和之上的键盘提供单词预测。在用户 正确地按出单词的第一个字母之后,预测系统显示一列以这些字母开头的最可 能的完整单词。但是如果有太多的选择,则用户必须继续按键直到出现所需的 单词或用户完成该单词。但是,由于用户必须在每次字母后在触摸屏的键盘和 完整单词列之间切换视线,因此文本输入被减慢而不是加快了。因此,一些用 户会发现触摸屏和之上的键盘在某种程度上是麻烦的,并且更容易出错。

由于前述的问题,不考虑该领域技术的显著发展,当用户手工在便携式计 算机上输入文本时,由于简化键盘、手写数字转换器和触摸屏/之上的键盘固 有的限制,依然会遇到困难或错误。

发明内容

数字数据处理设备从文本输入工具接收固有模糊的用户输入。不考虑任何 其他的用户输入,该设备在词汇表中将所接收的用户输入进行解释,以产生候 选,例如单词(用户输入的该单词形成整个单词或者例如词根、词干、音节、 词缀的一部分)或具有用户输入作为一个单词的短语。该设备显示该候选,并 提供对用户口头输入的语音识别。如果所识别的语音包含候选中的一个,则选 择该候选。如果所识别的语音形成了候选的扩展,则选择扩展的候选。如果所 识别的语音包含其他输入,则采取其他的做法。

附图说明

图1是表示使用语音输入来解决模糊的手工输入文本输入的示例性系统 的一些部件的方框图;

图2是表示示例性信号承载介质的结构图;

图3是表示不同的示例性信号承载介质的结构图;

图4是示例性逻辑电路的正视图;

图5是示例性数字数据处理装置的方框图;

图6是计算机执行用于使用用户语音输入来解决模糊的手工输入文本输 入的顺序的流程图;

图7-11表示接收和处理用户输入的各种示例;

图12是计算机执行用于使用语音输入来解决模糊的表意字符的手工输入 的顺序的流程图。

具体实施方式

介绍

所公开的一方面涉及提供了用户操作文本输入工具的手持移动设备。该设 备可以由各种硬件部件和相互连接来表达,图1说明了一个示例。图1的手持 移动设备包括各种处理子部件,每个子部件都可以由一个或多个硬件设备、软 件设备、一个或多个硬件或软件设备的部分或前述的结合来实现。下面将参照 示例性数字数据处理装置、逻辑电路和信号承载介质来详细描述这些子部件的 组成。

整个结构

图1表示用于使用语音输入来解决模糊的手工输入文本输入的典型系统 100。该系统100可以由PDA、蜂窝电话、AM/FM收音机、MP3播放器、GPS、 车载电脑或实质上任何其他的具有简化尺寸的键盘或其他便于输入但使用户 的文本输入包括一些本身的不清楚的输入方式的设备来实现。为了完整起见, 在101表示用户,尽管用户实际上并不构成系统100的一部分。用户101使用 用户界面102来输入整个或部分单词、短语、句子或段落。由于每个用户输入 可能会表示不同的字母、数字、符号等,因此数据输入本身是不准确的。

用户界面

用户界面102与处理器140相连接,并包括多个部件。至少,界面102 包括用户用于语音输入、用户手工输入和向用户输出的设备。为了接收用户手 工输入,界面102可以包括一个或多个文本输入工具。一个示例是手写数字转 换器102a,例如数字转换器表面。文本输入工具的另一个选择是按键输入 102b,例如电话键盘、一组用户可构造的按钮、简化按键键盘或每个按键都代 表多个字母数字字符的简化尺寸的键盘。文本输入工具的另一个示例是软键 盘,即,由与数字转换器相连电脑所产生的键盘,这样的示例包括软键盘、触 摸屏键盘、覆盖键盘、自动校正键盘等。按键输入102b的进一步的示例包括 鼠标、滚轮、操纵杆或其他用于手工文本输入的非按键的设备,因此,“按 键输入”部件不受任何有意的限制而使用。在以下的参考中描述了操纵杆在手 工输入文本中的使用,2004年2月9日提交的申请号为No.10/775,663,申请 人为Pim van Meurs,发明名称为“System and Method for Chinese Input Using a Joystick(使用操纵杆用于汉字输入的系统和方法)”的专利申请,在此结合 其全部内容作为参考。该按键输入102b可以包括一个或多个前述部件的结合。

固有地,前述文本输入工具包括一些不清楚。例如,手写输入设备不能完 全确定地识别出所输入的字符。类似地,在简化按键键盘上输入的字母数字字 符可能是模糊的,因为与每个大部分按键相关的通常是三个字母和一个数字。 在字符很小或相互太近的情况下键盘会容易不清楚,并且容易让用户出错。

为了向用户101提供输出,界面102包括语音输出102d,例如一个或多 个扬声器。用户输出的不同的或附加的选择为显示器102e,例如LCD屏幕、 CRT、等离子屏幕或其他用于显示人类可读的字母数字、表意字符和/或图形 的设备。

处理器

系统100包括处理器140,其与用户界面102和数字数据存储器150相连。 处理器140包括各种工具和其他处理实体,如下所要详细描述的。存储器150 包含各种数字数据的部件,下面也会详细描述。一些处理实体(例如下述的工 具115)与处理器140一起描述,而其他(例如程序152)与存储器150一起 描述。但是,这只是一个示例,本领域技术人员可以改变所给的任何处理实体 的实现方式,例如硬编码电路(与处理器140),或从存储器中检索并执行(与 存储器150)。

下面描述处理器140和存储器150的部件:

数字转换器105将来自用户101的语音进行数字化,该数字转换器包括例 如模拟-数字转换器。可选地,该数字转换器105可以与语音输入特征102c集 成。解码器109包括提供声学模型(未示出),以将来自105的数字化的语音 信号,即用户的发言,转换为语音数据的设备。音素识别工具134用于识别语 音输入中的音素。该音素识别工具可以使用本领域已知的任何技术来提供,例 如,与所输入的每个音素相匹配的候选的和有关的可能性的列表。识别工具 111基于词典和/或语言学数据库119中的语言模型,例如包括频率和最近的使 用、文本缓冲器113中的上下文环境等有选择的分析,来分析来自109的数据。 在一个实施例中,工具111产生一个或多个N-最佳假设列表。

系统100的另一个部件是数字转换器107。该数字转换器基于手写输入 102a来提供数字输出。笔划/字符识别工具130是执行基于结构、连写、速记、 表意字符或数字转换器107的其他手写输出的手写识别的模块。该笔划/字符 识别工具130可以使用本领域已知的任何技术来提供对对每个笔划和字符的 输入相匹配的候选和有关可能性的列表。

处理器140进一步包括各种消除歧义的工具115,包括在本示例中,单词 消除歧义工具115a、短语消除歧义工具115b、上下文消除歧义工具115c和多 模式消除歧义工具115d。

该消除歧义工具115基于字典和/或语言学数据库119(下面将描述)中的 语言模型来确定手工输入和/或语音输入的可能解释,该语言学数据库可选择 包括频率或最近的使用,或该消除歧义工具可选地基于文本缓冲器113中的上 下文环境。作为示例,工具115向文本缓冲器113中添加最佳的解释,以经由 显示器102e来向用户101显示。所有的解释都可以存储在文本缓冲器113中, 以用于之后的选择和校正,并可以经由显示器102e向用户101显示以确认。

该多模式消除歧义工具115d将模糊的输入序列和/或解释与来自识别工具 111的最佳或N最佳语音识别解释相比较,并将可修改的解释显示给用户101, 以用于通过界面102进行交互确认。在可替换的实施例中,识别工具111结合 至消除歧义工具115中,并且产生共同的歧义消除,以作为对每个模式的输入 的处理的固有的部分,以提供更多样或更有效的算法。在一个不同的实施例中, 工具115的功能可以结合至识别工具111中,在此,模糊输入和矢量或音素标 签由于结合的假设搜索而被用于语音识别系统。

在另一实施例中,识别工具111使用来自多模式消除歧义工具115d的模 糊的解释来过滤或从语言学数据库119中引用词典,识别工具111使用该解释 来产生一个或多个N最佳列表。在另一实施例中,多模式消除歧义工具115d 将N最佳列表中的模糊的解释和/或单词的字符(图形)映射至矢量或音素, 以使识别工具111解释。

识别和消除歧义工具111、115可以更新一个或多个语言学数据库119来 添加用户101已经明确拼出或合成的新单词或短语,或反映用户101输入或更 正单词和短语的使用频率和最近时间。工具111、115的这个操作可以自动产 生,或在特定用户的指定下产生。

在一个实施例中,工具115包括用于识别和/或消除歧义的过程的不同部 分的分离的模块,其在该示例中包括基于单词的消除歧义工具115a,基于短 语的识别或消除歧义工具115b,基于上下文的识别或消除歧义工具115c,多 模式消除歧义工具115d和其他。在一个示例中,用于识别和消除歧义的部件 115a-115d中的一些或全部在语音识别和简化键盘输入的不同输入模块中共 享。

在一个实施例中,基于上下文的消除歧义工具115c提供对用户动作的上 下文方面的输入的歧义消除。例如,当有多个词汇表156(下面描述)的情况 时,工具115c基于选择的用户位置根据情况选择词汇表156中的一个,例如, 用户是在工作还是在家;一天中的时间,例如工作时间与空闲时间相比;消息 接收等。

存储器

存储器150包括应用程序152、词汇表156、语言学数据库119、文本缓 冲器113和操作系统154。应用程序的示例包括单词处理器、消息客户端、外 文翻译器、语音合成软件等。

文本缓冲器113包括由设备100所执行的任何或所有程序的一个或多个输 入区域的内容。该文本缓冲器113包括已经输入的字符和任何重新编辑该文本 所需的支持信息,例如原始手工或有声输入的记录,或用于文本预测或段落格 式化。

语言学数据库119包括例如词典、语言模型和其他语言学信息的信息。每 个词汇表156都包括或能够生成多个适合于设备100的特定应用的预定的单 词、字符、短语或其他语言学的固定用法。词汇表156的一个特定示例利用了 单词表156a、短语表156b和语言/音调表156c。当合适的时候,系统100可 以包括用于不同应用的词汇表,例如不同语言、不同产业,如医药、法律、零 件号码等。“单词”用于指代任何语言对象,例如形成单词、词干、前缀或后 缀、音节、缩写、俚语、字符图释、用户ID或其他数据、URL或表意字符序 列的标识符的一个或多个字符和符号串。类似地,“短语”用于指代根据语言 或应用的惯例,而可以被空格或其他分界符分隔的单词序列。如下所更详细描 述地,单词156a还可以包括表意语言字符,并且在这种情况中,短语包含由 这种字符的逻辑组所形成的短语。可选地,词汇表单词和/或短语列表可以存 储在数据库119中或在数据库119中产生。

在一个示例中,单词列表156a包含一种语言中已知单词的所有形式的列 表,这样,在输入形式的之间的词汇表中没有差异。单词表156a可以进一步 包括在该语言中对相应单词的使用频率。在一个实施例中,该语言的单词列表 156a中不存在的单词被认为是零频率。可替换地,未知的或新添加的单词可 以被分配为很小的使用频率。通过对未知的单词使用假设的使用频率,已知的 和未知的单词可以以基本相似的方式来进行处理。最近的使用也可以是计算和 比较频率中的一个因素。单词表156a可以与基于识别或消除歧义工具115a的 单词使用来分类、消除和/或选择基于式样识别工具,例如笔划/字符识别工具 130或音素识别部分134,的结果所确定的单词候选,并基于用户输入的一部 分来预测完整单词的单词。

类似地,短语列表156b可以包括短语列表和使用频率信息,该短语包含 了两个或更多单词,其可以由基于短语的识别或消除歧义工具115b使用,并 可用于预测完整短语的单词。

音素/音调表156c包括表、链接的列表、数据库或任何其他各种列出音素 信息与表意条目交叉引用的各种条目的数据结构。该表意条目包括表意字符、 表意词根、语标字符、词素文字的符号等,其可以在例如单词列表156a中列 出。每个音素信息条目包括相关的表意条目的发音和/或一个或多个声调的发 音等。表156c是可选的,并且如果系统100仅限于英语或其他非表意应用时, 可以从词汇表156中省略。

在一个实施例中,处理器140自动更新词汇表156。在一个示例中,选择 模块132当选择时可以在进行/请求更新来跟踪最新使用或添加获取按键单词 的操作中更新词汇表,如下所详细描述的。在更普遍的示例中,在安装时,或 不断地接收文本消息或其他数据时,或在其他时间,处理器140为了添加到它 的词汇表中的单词而扫描信息文件(未示出)。用于扫描这种信息文件的方法 在本领域中已知。在本示例中,操作系统154或每个应用152调用文本扫描特 性。当在扫描中发现了新的单词时,将其添加至词汇表模块中作为低频单词, 同样,其被置于单词相关的单词列表的底部。根据在扫描中给定新单词被检测 到的次数,通过在相关的列表中将其提高,而对其分配更高的优先级,从而增 加在信息输入中单词选择列表中所出现的该单词的可能性。根据上下文,例如 消息或前后的文本中的XML标签,系统可以确定将新单词与之相关联的合适 的语言。可以向新单词应用当前或确定的语言标准发音规则,来获得其以后识 别所用的音素形式。可选地,处理器140响应于用户配置输入而使额外的词汇 表单词在可能单词的列表中最先或最后显示,例如,具有特定的颜色或高亮, 或系统可以自动根据哪个词汇表模块提供了最快的之前被接受的或正确的一 个或多个单词而改变单词的得分或顺序。

在一个实施例中,词汇表156还包括用于通常拼错的和按键输入错误的替 换单词。词汇表156可以在设备100制造、安装、初始配置、重新配置或其他 时候进行配置。并且,词汇表156可以当通过网页连接、下载、连接扩展卡、 用户输入或其他时候检测到更新信息时自我更新。

示例性数字数据处理装置

如上所述,公开的数据处理实体可以以各种形式来实现。一个示例是数字 数据处理装置,例如图5的数字数据处理装置500的硬件部件和相互连接所示。

该装置500包括与数字数据存储器504相连接的处理器502,例如微处理 器、个人电脑、工作站、控制器、微控制器、状态机或其他处理机。在本示例 中,存储器504包括快速存取存储器506,以及非易失性存储器508。快速存 取存储器506可以包括随机存取存储器(“RAM”),并且可以用于存储由处理 器502所执行的程序指令。非易失性存储器508可以包括例如电池备份RAM、 EEPROM、闪存(flash)PROM、一个或多个磁性数据存储盘,例如硬盘驱动、 磁带驱动或任何其他合适的存储设备。该装置500还包括输入/输出510,例如 线路、总线、电缆、电磁链路或用于处理器502与装置500的其他外部硬件交 换数据的其他装置。

除了上述的特定描述,本领域的普通技术人员(具有本公开的益处)将认 识到,上面所讨论的装置可以在不同结构的机器中实现,而不偏离本发明的范 围。作为特定示例,部件506、508中的一个可以取消;并且,存储器504、 506和/或508可以在处理器502的板上提供,或在装置500外部提供。

信号承载介质

与上述数字数据处理装置不同,本发明的不同方面涉及一个或多个信号承 载介质,有形地包含由这种数字处理装置可执行的机器可读指令的程序。在一 个示例中,机器可读指令为可执行的来实现各种与本公开有关的功能,例如下 面更详细地描述的操作。在另一示例中,执行指令用于在计算机上安装软件程 序,其中这种软件程序可独立执行来执行与本公开有关的其他功能,例如下面 所述的操作。

在任何情况下,信号承载介质都可以采用各种形式。在图5的环境中,这 种信号承载介质可以包括例如存储器504或其他信号承载介质,例如由处理器 502直接或非直接访问的光盘300(图3)。无论是存储在存储器506、盘300 或别的地方,指令都可以在各种机器可读的数据存储介质上存储。一些示例包 括直接存取存储器,例如传统的硬盘驱动、廉价磁盘冗余阵列(“RAID”)或 其他直接存储存储设备(“DASD”);串行存取存储器,例如磁盘或光盘,电 子非易失性存储器,例如ROM,EPROM,闪存PROM或EEPROM;电池备 份RAM、光学存储器,例如CD-ROM、WORM、DVD、数字光盘;或其他 合适的信号承载介质。在一个实施例中,机器可读指令可以包括从例如汇编语 言,C等语言所编译的软件对象代码。

逻辑电路

与上面讨论的信号承载介质和数字数据处理装置不同,本公开的一个不同 实施例使用了逻辑电路而不是计算机可执行的指令来实现本公开的处理实体。 根据在速度、费用、工具成本等方面的应用的特定要求,该逻辑可以通过构造 具有上千微小集成晶体管的专用集成电路(ASIC)来实现。图4表示电路400 的形式的一个示例。这种ASIC可以通过CMOS、TTL、VLSI或其他合适的 构造来实现。其他的替换方式包括数字信号处理芯片(DSP)、离散电路(例 如电阻器、电容器、二极管、感应器和晶体管)、现场可编程门阵列(FPGA)、 可编程逻辑阵列(PLA)、可编程逻辑设备(PLD)等。

操作

在已经描述了本公开的结构特征以后,现在将描述本公开的操作方面。如 上所述,本公开的操作方面通常涉及各种用于解决在手持移动设备的文本输入 工具上所输入的有意地用户输入的不清楚的技术。

操作顺序

图6表示了顺序600,来表示本公开的方法方面的一个示示例。在一个应 用中,该顺序用于解决固有的在手持数字数据处理设备的文本输入工具上所输 入的用户输入的不清楚。为了便于解释,但不受到任何限制,图6的示例在图 1的设备的环境中描述,如上所述。

在步骤602,用户界面102的文本输入工具,例如设备102a和/或102b, 接收代表多个可能的字符组合的用户输入。根据该设备的结构,步骤602的一 些示例包括通过电话键盘接收用户输入,其中每个按键对应于多个字母数字字 符,或通过手写数字转换器来接收输入,或通过计算机显示和同位的数字化表 面等来接收输入。

在步骤604,独立于任何其他用户输入,设备将所接收的用户数据在词汇 表156和/或语言学数据库119中进行解释,以产生多个单词候选,其还可以 称作“输入序列解释”或“选择列表选项”。作为更特别的示例,可以使用单 词列表156a。

在一个实施例中,工具130、115a、115b中的一个处理用户输入(步骤 604),以确定用户至此的输入的可能解释。每个单词候选都包括以下中的一个:

(1)用户输入的单词所组成的词干、词根、音节或词缀;

(2)用户输入的短语所组成的一个或多个单词或多个单词的一部分;

(3)代表用户输入的完整单词。

这样,术语“单词候选”中的“单词”由于方便解释的原因而使用,而不 需要将其限制为技术方面的“单词”。在一些实施例中,用户仅需要输入“词 根”单词(步骤602),例如高粘着度的语言和动词中心的短语结构,其附加 或前缀有宾语或主语和其他虚词。因此,解释604可以被操作为(1)每个候 选都使用与用户输入相对应的字母开头,(2)每个候选包括对应于用户输入的 字母,这些字母在候选的开头和结尾字母之间出现等。

在各个实施例中,例如当手工键入102b是在触摸屏设备上显示的自动校 正键盘时,该解释604包括字符序列(该明确的解释或“获得点击”序列), 该字符序列包含每个为用户输入的最佳解释的字符,例如与每个触摸笔点击的 最相关的字符,如果所需的单词不在语言学数据库119中,则用户可以选择(步 骤614)。在一些实施例中,例如当手工键入102b是简化键盘,例如标准电话 键盘时,该明确的解释是按键序列的两键或多点击解释。在一些实施例中,当 用户选择了这种明确的解释后(下面,步骤614),设备自动或当用户请求或 确认时,在选择模块132的控制下将该明确的解释添加至词汇表中。

在一个示例中,解释步骤604将例如元音重音的区别字符,放置在每个单 词的合适的字符处,而不需用户指示需要区别标记。

在步骤606,工具115、130、115a、115b中的一个或多个根据代表用户意 愿的可能性而排列候选单词。该排列操作606可以使用如下的标准:候选单词 是否在词汇表156中;在日常使用中候选单词的使用频率;用户使用候选单词 的使用频率等。可以从词汇表模块156和/或语言学数据库119中获得使用频 率和其他这种用于排列操作606的数据。步骤606是可选的,并且可以为了节 省处理精力、时间、存储器等而省略。

在步骤608,处理器140在界面102可视地显示候选,来由用户浏览。在 对候选进行了排列(追踪至步骤606)的实施例中,步骤608的表示可以观察 到该顺序。可选地,步骤608可以显示排名在前的候选,这样可以将注意力集 中在其上,例如,通过将候选插入在显示的指针位置,或使用其他的技术,例 如粗体、高亮、下划线等。

在步骤610,处理器140使用显示器102e或音频输出102d来请求用户说 出输入。同样在步骤610,处理器140通过语音输入设备102c和前端数字转 换器105来接收用户的语音输入。在一个示例中,步骤610包含语音提示,例 如合成语音“选择单词”;可视消息,例如显示“读出短语以选择”,图标消息, 例如改变指针外观或打开LED;图形消息,例如改变显示主题、颜色等;或 其他合适的提示。在一个实施例中,步骤610的用户输入的请求可以省略,在 这种情况中,暗示这种请求。

在一个实施例中,设备100请求或允许有限的一组语音发言代表少量唯一 的输入;与简化键盘上的按键数量一样少,或与文字中的唯一字母形式数量或 口语中的辅音和元音数量一样多。选择小的不同的发言用于低混淆度,从而产 生高识别准确度,并使用基于单词和/或基于短语的消除歧义工具来将其转换 为文本。在嘈杂的环境或非个人的环境中,这种特性尤其有用,且对限制了使 用语音的暂时或永久伤残的人来说非常有用。所识别的语音可以包括口的吸气 声和其他不是口头的声音。

在步骤612,语言学式样识别工具111向来自步骤610的代表用户语音输 出的数据应用语音识别。在一个示例中,语音识别612使用156a、156b中的 单词和/或短语的词汇表。在另一示例中,语音识别612利用有限的词汇表, 例如与初始手工输入(来自602)相匹配的最可能的解释,或在步骤608所显 示的候选。可替换地,与初始手工输入相匹配的可能的单词和/或短语,或仅 仅是最可能的解释,作为语音识别步骤的词汇表。这有助于消除错误和不相关 的语音输入的解释。

在一个实施例中,由例如解码器109的部件来执行步骤612,该解码器将 声音输入信号转换为数字矢量序列,其与给定他们的环境的潜在的电话相匹 配。该解码器109与词典和语言模型的语音形式相匹配,以为每个发言创建N 佳单词和/或短语的列表。多模式消除歧义工具115d将其与手工输入滤波,这 样只有在两个列表中都出现的单词才会保留。

这样,由于与每个电话按键(例如在键“2”上的“A B C”)相匹配的字 母通常在声音上并不相似,因此该系统能够有效地排除否则模糊声音的可能 性,例如由于用户按下了键“2”(包含“A B C”)而不是键“7”(包含“P Q R S”),爆破音/b/或/p/组成“p”。类似地,该系统可以当所解决的模糊字符来 自在“V B N”的附近而不是“I O P”的附近按击自动校正QWERTY键盘而 排除“p”。类似地,该系统可以当模糊的手写字符更接近“B”或“3”而不 是“P”或“R”来排除“p”。

可选地,如果用户连续输入多个部分或完整的单词,由适当语言输入例如 空格来分隔,则语言学式样识别工具111或多模式消除歧义工具115d使用该 信息作为引导来将用户的连续语音分段,并在单词之间查找分界。例如,如果 周围音素的解释非常匹配由空格分隔的两个部分输入,则系统确定将连续的发 言分成两个独立单词的最佳位置。在另一实施例中,“探测法”规则有助于或 超越手工输入解释,以更好的匹配最高得分的语音识别解释,例如为了解决用 户偶然在手工输入序列中增加或丢失了字符的情况。

步骤614由例如多模式消除歧义工具115d、选择模块132等部件来执行。 步骤614执行以下动作的一个或多个。在一个实施例中,响应于所识别的组成 与一个候选相匹配的发言的语音,设备选择候选。也就是说,如果用户说出了 所显示的候选中的一个则选择。在另一实施例中,响应于所识别的组成了候选 的扩展的语音,则设备选择该扩展的候选。作为其一个示例,当显示的候选列 表包括“国家的”时,用户讲出“国籍”,从而使设备选择“国籍”。在另一实 施例中,响应于所识别的组成扩展候选中的一个的命令的语音,多模式消除歧 义工具115d或部件115、132中的一个从词汇表156或语言学数据库119中检 索出一个或多个包括候选作为子部分的单词或短语,并将其可视地向用户显示 以从中选择。扩展可以包括将该候选作为前缀、后缀、词根、词干或其他子部 分的单词。

可选地,语音识别工具134和语言学式样识别工具111可以使用已知的语 音识别特性通过将实际所选择的子序列单词或短语解释与原始语音数据进行 比较来提高识别准确度。

操作示例

图7-11表示各种图6的进一步的示例性场景。图7表示显示器701(作为 102e的示例)的内容,以表示使用手写来输入字符和使用语音来完成输入。首 先,在步骤602,设备接收如下的用户输入:在数字转换器700上手写的字符 “tec”。设备100将字符解释(604)和排列(606),并提供排列后的候选的 可视输出702/704。由于屏幕尺寸的限制,在列表702/704上没有显示所有的 候选。

尽管“tec”在词汇表中不是一个单词,但是该设备将其作为候选单词704 之一(步骤604),也就是,“tec”作为“实际按下”的单词选择,例如,每个 单独字母的最佳解释。该设备100自动将排名最高的候选(702)以某种方式 显示,以将其与其他的区分开。在本示例中,最高排名的候选“the”位于该 列表700的首位。

在步骤610,用户讲出/tek/,为了选择在步骤602所输入的单词,而不是 系统提出的单词“the”。可替换地,用户可以讲出“第二”(由于“tec”在列 表704中为第二个)或另一个输入以从列表704中选择“tec”。设备100接收 该单词作为用户的选择(步骤614),并在指针处输入“t-e-c”,如图8所示。 作为步骤614的一部分,设备不显示候选列表704。

在不同的实施例中,参考图7,用户已经输入了“t”,“e”,“c”(步骤 602),但是仅仅是在输入完整的单词“technology”的过程中。在这个实施例 中,设备提供对排名候选的可视输出702/704,并自动在邻近指针处输入排名 最高的候选(在702),如图7。但是,与图8不同,用户之后发出/teknolōjē/, 以选择这个作为“tec”的扩展。尽管没有在列表702/704中可视地表示,但是 单词“technology”包含在候选列表中,并可以通过用户滚动列表而获得。在 此,用户没有滚动,而是发出/teknolōjē/,此时,设备接受“technology”作为 用户选择(步骤614),并在指针处输入“technology”,如图9所示。作为步 骤614的一部分,设备不再显示候选列表704。

图10描述了不同的示例,来表示使用屏幕上的键盘来输入字符和使用语 音来完成输入。例如,屏幕上的键盘可以如美国专利No.6081190所指导的来 实现。在图10的示例中,用户使用触摸笔按下字母序列“t”,“e”,“c”(步 骤602)。作为响应,设备显示(步骤608)单词选择列表1002,即“rev,tec, technology,received,recent,record”。响应于用户对列表1002中的单词的发音 (610),例如“technology”(在列表1002中可见)或“technical”(存在于列 表1002中但不可见),设备将其接受为用户意愿(步骤614),并在指针处1004 输入单词。

图11描述了不同的示例,来表示使用简化按键(其中每个按键对应于多 个字母数字字符)的键盘来输入字符,并使用语音来完成输入。在该示例中, 用户输入(步骤602)硬键832,表明字母序列“t”,“e”,“c”,作为响应, 设备显示(步骤608)单词选择列表1102。响应于用户对列表1102中的单词 的发言(610),例如“technology”(在列表1002中可见)或“teachers”(存 在于列表1002中但不可见),设备将其接受为用户意愿(步骤614),并在指 针处1004输入单词。

表意语言的示例

广泛地,本公开的多个方面适用于在具有简化键盘或手写识别装置的设备 上用于使用表意字符的语言的文本输入系统。例如,按下标准电话的按键“7” (其中,拼音字母“P Q R S”被映射至该按键“7”)触发了输入音节“qing” 或“ping”;在说出所需的音节/tsing/后,系统能够立即判断出首字母实际上是 “q”而不是“p”。类似地,在按击顺序的输入系统,在用户按下了一个或多 个代表所需的字符的首击类别的按键之后,语音识别工具能够仅将以这种按击 分类的汉字字符开头的发音进行匹配,并能够提供对两者的输入的更好的解 释。类似地,使用手写表意字符识别工具开始画出一个或多个字符能够引导或 过滤语音解释或减少所要分析的词典。

尽管模糊的按击顺序输入系统或手写识别部分可能不能最终确定需要哪 个手写笔划,但是笔划解释和声学解释的结合有效地消除了这两种输入模式的 歧义,向用户提供了所需的字符。在本公开的一个实施例中,语音识别的步骤 根据在传统的用于表意语言的笔划顺序输入或手写系统的输入顺序,从显示中 选择字符、单词或短语。在另一实施例中,语音识别的步骤用于添加音调信息, 以用于之后在语音输入系统中消除歧义。下面更详细的描述与表意语言有关的 实现细节。

图12表示了顺序1200,用来表示本公开的方法方面的另一个示例。该顺 序用于解决本身模糊的用户输入,以便于用户输入包含表意字符的单词和短 语。尽管在这些示例中使用了术语“表意的”,但是操作1200可以在许多不同 的语标的、表意的、符号的、形声的或其他这种使用字符来表示单个单词、概 念、音节、形态等的书写系统中使用。此处的表意字符概念的使用不受到限制, 并应当包括汉字象形字、汉字表意特定字、汉字指示符、汉字形声字 (phonologogram)、日语字符(Kanji)、韩国字符(Hanja)和其他这种系统。 并且,系统100可以以特定标准来实现,例如传统的汉字字符、简化汉字字符 或其他标准。为了便于说明,但不受到任何有意的限制,图12的示例在图1 的环境中进行描述,如上所述。

在步骤1202,输入设备102a/102b中的一个接收到用户输入,用于识别一 个或多个所需的表意字符或子部分。该用户输入可以指定为手写笔划、手写笔 划的类型、音节拼法、语音输入等。根据设备100的结构,可以以不同的方式 来执行该操作。一个示例涉及通过电话键盘(102b)来接收用户输入,在该电 话键盘中每个按键对应于笔划类型。例如,特定的按键可以代表所有下斜笔划。 另一个示例涉及通过手写数字转换器(102a)或102的方向输入设备,例如操 纵杆,来接收用户输入,其中每个动作都对应于一个笔划类型。在一个示例中, 步骤1202涉及界面102接收用户做出的手写笔划输入,以输入所需的一个或 多个表意字符。作为另一个选择,步骤1202可以通过自动校正键盘系统(102b) 用于触摸表面或小机械按键的排列来实现,其中用户输入大约语音拼法、部分 或一个或多个表意字符的笔划中的一些或全部。

通过以下参考文件描述了步骤1202种用于接收输入的各种选择,每个都 在此结合作为参考。2003年7月30日提交的发明名称为“System and method for Disambiguating Phonetic Input(用于消除语音输入的歧义的系统和方法)” 的美国专利申请No.10/631,543。2004年3月17日提交的发明名称为“汉语字 符和短语的语音和笔划输入方法”的美国专利申请No.10/803,255。2005年4 月25日提交的发明名称为“用于手写的单词和短语预测系统”的美国专利申 请No.60/675,059。2004年2月9日提交的发明名称为“具有自动校正的键盘 系统”的美国专利申请No.10/775,483。2004年2月9日提交的发明名称为“使 用操纵杆用于汉语输入的系统和方法”的美国专利申请No.10/775,663。

同样在步骤1202,不依赖于任何其他的用户输入,设备将所接收的用户 输入与第一词汇表进行解释,以产生多个候选,每个候选都至少包括一个表意 字符。特别是,该设备对所接收的笔划、笔划类型、拼写、音调或其他手工的 用户输入与词汇表156(例如,156a)中的字符列表进行解释,并标识出词汇 表中与用户的手工输入一致的候选结果。步骤1202还可选地能够执行式样识 别和/或笔划过滤,例如,在手写输入中,识别能够代表至今用户的输入的候 选字符。

在步骤1204,该步骤可选,消除歧义工具115根据其与代表用户从他的/ 她的输入所需的内容的可能性对所确定的候选字符(来自1202)进行排序。 该排序可以根据以下信息:(1)在各种书面或口头形式中每个字符的通常的使 用频率;(2)用户自己的使用频率或最近的使用;(3)由预测的和/或之后的 字符所产生的上下文;(4)其他因素。该频率信息可以暗含的或直接地存储在 语言学数据库119中,或可以当需要时进行计算。

在步骤1206,处理器140使显示器102e根据可用的显示空间的尺寸和其 他约束来可视地显示候选的一些或全部(从1202或1204)。可选地,设备100 可以以滚动列表的形式来表示候选。

在一个实施例中,步骤1206的显示操作在每次新的用户输入之后都会重 复,以持续地更新(且在大部分情况中缩小)所显示的候选组(1204、1206), 并允许用户或者选择一个候选字符或继续输入(1202)。在另一个实施例中, 系统允许在显示任何组成的字符之前(1206)输入(1202)整个单词或短语。

在一个实施例中,步骤1202、1204、1206都可以允许单个和多个字符的 候选。在此,如果当前输入的序列代表单词或短语中的多个字符,则步骤1202、 1204和1206识别、排序并显示多个字符候选,而不是单个字符候选。为了完 成该实施例,步骤1202可以将制定的分界符识别为系统中用户停止他的/她的 输入,例如笔划等,以用于在前的字符的信号,并开始将其作为下一个字符进 行输入。这种分界符应当清楚地输入(例如空格或其它指定的按键),或从用 户输入环境中可以推断出来(例如,通过在不同显示窗或屏幕区域中输入不同 字符)。

不需要使用语音识别功能(下面所描述的),用户可以进行操作界面102 (步骤1212),来接收在步骤1206所显示的选择中的一个。可替换地,如果 用户没有做出任何选择(1212),则自动从步骤1206进入步骤1208,来接收 语音输入。作为另一种选择,步骤1206中的界面102可以自动使用语音提示、 可视消息、图标消息、图形消息或其他提示来提示用户说话。当用户发言时, 顺序1200从1206进入1208。作为另一种替换,界面102可以请求(步骤1206) 用户按下“通话”按钮或采取其他动作来启动麦克风并开始语音识别步骤 1208。在另一实施例中,手工和语音输入几乎同时或重叠。有效地,用户讲出 他或她所正在打字的。

在步骤1208,系统通过前端数字转换器105来接收用户的语音输入,语 言学式样识别工具111将语音识别应用于代表用户的语音输入的数据上。在一 个实施例中,语言学式样识别工具111将语音形式与音节和单词的词典(存储 在语言学数据库119中)进行匹配,以产生每个发音的N最佳音节、单词和/ 或短语的列表。反过来,消除歧义工具115使用该N最佳列表将来自笔划输 入的单个或多个字符候选的语音拼法进行匹配,这样,只有其语音形式也在N 最佳列表中出现了的候选才会保留(或在步骤1210中成为最高级)。在另一个 实施例中,系统使用手工输入的语音拼写作为词典和语言模型,以识别语音输 入。

在一个实施例中,来自手工输入的形式的一些或全部输入仅代表每个音节 的第一个字母或仅为每个单词的辅音。系统使用音节和辅音标记来识别和记录 语音输入,为单词或短语填入合适的附加字母或元音。例如,为了输入日文文 本,每个键盘按键都被对应为50音图中的辅音行,语音识别帮助为每个音节 确定合适的元音或“列”。在另一个实施例中,来自手工输入形式的一些或全 部输入都是清楚的。这可以减少或消除对图1中的单词消除歧义工具115a的 需要,但仍然需要多模式消除歧义工具115d对语音输入进行匹配,以将所需 的完整单词或短语的优先级列为在所有其他的可能的完整的词之上,或标记出 中间的元音。

并且,在一些语言中,例如印度语,词汇模型可以使用有效的子单词序列 的模板来确定哪个单词部分候选是可以或可能指定在前的输入和所考虑的单 词候选。在其它语言中,基于词性的发音规则帮助进一步消除了歧义,并识别 所需的文本形式。

可以以不同的方式来执行步骤1208。在一个选项中,当所识别的语音组 成了包括从1206的候选中的一个的发音的语音时,处理器102选择该候选。 在另一选项中,当所使别的语音组成了包含任何候选的语音的发音的语音时, 处理器更新该显示(来自1206),以省略掉除这些候选以外的字符。在另一选 项中,当所识别的语音是潜在地发出任何一个候选的子集的音,则处理器更新 显示,省略除了子集以外的其他。在另一选项中,当所识别的语音是包括与一 个或多个候选对应的一个或多个语音特征的发音时,处理器102更新显示(来 自1206),以省略除这些候选之外的字符。

在步骤1208之后,步骤1210根据例如语音输入的因素将剩下的候选进行 排列。例如,语言式样识别工具111可以提供对多模式消除歧义工具115d有 可能的信息,这样,笔划或其他用户输入和语音输入的最可能的解释与每个字 符、单词或短语的频率信息相结合,以向用户提供最可能的候选以供选择。作 为附加的示例,排列(1210)可以包括不同的或附加的因素,例如:在各种书 面或口头形式中每个字符的通常的使用频率;用户自己的使用频率或最近的使 用;由之前的和/或之后的字符所产生的上下文环境;等。

在步骤1210之后,重复步骤1206,以显示在步骤1210所准备的字符/短 语候选。之后,在步骤1212,设备接收由一些输入装置102a/102c/102b所指 示的用户对单个字符或多个字符候选的选择,例如使用触摸笔点击所需的候 选。该系统可以通过上述的可视的、语音的或其他方式来提示用户做出选择或 输入附加笔划或语音。

在一个实施例中,当用户开始手工输入下一字符序列时,自动选择排列最 前的候选。在另一实施例中,如果多模式消除歧义工具115d在步骤1210中将 一个候选标记并排列在其他之上,则系统100可以在步骤1212中自动选择该 候选,而不需要等待进一步的用户输入。在一个实施例中,所选择的一个或多 个表意字符添加在当前应用的文本输入区域的插入处,且输入序列被清除。所 显示的候选列表可以之后与最可能的字符结合,以跟在刚选择的字符之后。

其他实施例

虽然前面的公开表示了多个示例性实施例,但是本领域技术人员应当清 楚,在不脱离由所附权利要求书所限定的本发明的范围的情况下,可以在此作 各种变化和修改。此外,尽管本发明的部件是以单数进行描述和权利要求的, 但是,可以预见为多数,除非明确指明了限制为单数。除此之外,本领域的普 通技术人员应当认识到,操作顺序为了解释和权利要求的目的必须按照特定的 顺序,但是本发明可以产生除这种特定顺序之外的各种变化。

除此之外,相关领域的普通技术人员应当理解,必须使用各种不同的技术 和方法来表示信息和信号。例如,在此所涉及的任何数据、指令、命令、信息、 信号、比特、符号和芯片都由电压、电流、电磁波、磁场或粒子、光场或粒子、 其他条目或上述的组合所表示。

并且,本领域的普通技术人员应当理解,任何在此所示的逻辑块、模块、 电路和处理步骤都以电子硬件、计算机软件或两者的结合来实现。为了清楚地 表明这种硬件和软件的可交换性,上述的任何示例性部件、块、模块、电路和 步骤都是以其功能的方式进行描述的。这种功能是以硬件还是软件来实现,是 根据整个系统所使用的特定应用和设计约束。本领域技术人员可以对每个应用 以各种方式来实现所描述的功能。但是这种实现方式不应被解释为使其脱离本 发明的范围。

在此所公开的实施例中所描述的各种示例性逻辑块、模块和电路都以数字 信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或 其他可编程的逻辑设备、分离门或晶体管逻辑、分离硬件部件或任何设计为执 行上述功能的组合来实现或执行的。通常用途的处理器可以是微处理器,但是 作为替换,处理器可以是任何传统的处理器、控制器、微控制器或状态机。处 理器还可以作为计算设备的结合来实现,例如DSP和微处理器、多个微处理 器、一个或多个微处理器与DSP核或任何其他的这种结构的结合。

在此所公开的实施例中描述的方法或算法的步骤可以直接在硬件中、在由 处理器所执行的软件模块中或在两者的结合中体现。软件模块可以位于RAM 存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、 硬盘、可擦除光盘、CD-ROM或任何其他本领域中已知的存储形式中。典型 的存储介质与处理器相连接,这样存储器可以从存储器中,或向存储器中读出 或写入信息。作为替换,存储介质可以与处理器集成。处理器与存储介质可以 位于ASIC中。ASIC可以位于无线通信设备中。作为替换,处理器和存储介 质可以位于无线通信设备的分离部件中。

前面提供的对所公开的实施例的描述使任何本领域技术人员能够做出或 使用本发明。对这些实施例的各种修改对本领域技术人员来说是很清楚的,且 在此所定义的通用原则可以应用于其他的实施例中,而不脱离本发明的精神或 范围。因此,本发明不被在此表示的实施例所限制,而是与在此所公开的原则 和新特征一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号