首页> 中国专利> 使用备选列表重述错误识别的词语

使用备选列表重述错误识别的词语

摘要

在选择所显示词语时,显示所选词语的备选列表。该列表中的每个备选具有关联的符号。然后,解码语音信号以标识可能词语列表,并且显示该可能词语列表,其中每个可能词语具有关联的符号。

著录项

  • 公开/公告号CN101238508A

    专利类型发明专利

  • 公开/公告日2008-08-06

    原文格式PDF

  • 申请/专利权人 微软公司;

    申请/专利号CN200680028638.X

  • 申请日2006-08-07

  • 分类号G10L15/22(20060101);G06F3/00(20060101);

  • 代理机构31100 上海专利商标事务所有限公司;

  • 代理人顾嘉运

  • 地址 美国华盛顿州

  • 入库时间 2023-12-17 20:32:26

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-05-20

    专利权的转移 IPC(主分类):G10L15/22 变更前: 变更后: 登记生效日:20150429 申请日:20060807

    专利申请权、专利权的转移

  • 2012-05-30

    授权

    授权

  • 2008-10-01

    实质审查的生效

    实质审查的生效

  • 2008-08-06

    公开

    公开

说明书

背景

语音识别是语音信号到词语的转换。在语音识别期间,将语音信号与一个或 多个模型进行比较以标识所说的词语。

一般而言,语音识别是尝试标识对语音信号提供最高概率的语音单元序列的 概率技术。许多识别系统不仅识别最可能的词语序列,而且标识可能由语音信号表 示的可能性稍小的备选词序列。

即使是最好的语音识别系统偶尔也会错误地识别词语。当前,依赖于语音识 别的应用程序提供用户可更正这些错误的方法。例如,一个简单技术是使用户使用 输入设备选择错误词语,然后键入正确词语。

另一错误更正技术使用户使用语音命令选择词语。然后,应用程序提供由语 音识别引擎返回的作为所识别的最有可能词语的可能备选词的备选词列表。在这种 系统中,每个备选词与一数字相关联,使得用户能够通过说出该数字来选择词语。

为了使这种更正方案发挥作用,用户期望的词语必须出现在备选列表中。如 果识别系统没有产生期望词语作为备选,则该更正方案不能用于进行该更正。

用户更正词语的另一种方法是选择错误词语,然后简单地重述他们期望的词 语。如果语音识别系统能够在再次读出词语时识别它,则该更正过程十分有效。然 而,许多情况下语音识别引擎会再次错误标识该词语,并用另一错误词语代替所选 词语。这需要用户再次重述,并可能使用户灰心。

以上讨论仅提供一般背景信息,并非旨在用于帮助确定要求保护主题的范围。

概述

在选择所显示词语时,显示所选词语的备选列表。列表中的每个备选具有关 联符号。然后,对语音信号进行解码以标识可能词语列表,且显示该可能词语列表, 其中每个可能词语具有关联符号。

提供本概述来以简化形式引入将在以下详细描述中进一步描述的概念精选。 本概述不旨在标识要求保护主题的关键特征或本质特征,也不旨在用于帮助确定要 求保护主题的范围。

附图简述

图1是计算环境的框图。

图2是移动计算环境的框图。

图3是使用备选列表重述的方法的流程图。

图4是在图3的流程图中使用的元件的框图。

图5是带有所识别文本的显示图像。

图6是带有更正对话框的图5的显示。

图7是带有第二更正对话框的所显示文本的图像。

图8是带有第三对话框的所识别文本的显示。

图9是带有经更正文本的显示。

图10是用于调用备选列表的替换流程图。

详细描述

图1示出在其上可以实现各实施方式的合适计算系统环境100的示例。计算 系统环境100只是合适计算环境的一个示例,并不旨在对本发明的使用范围或功能 提出任何限制。计算环境100不应被解释为对在示例性操作环境100中示出的组件 中任一个或组合有任何依赖或要求。

实施方式可在许多其它通用或专用计算系统环境或配置中操作。适用于各实 施方式的公知计算系统、环境和/或配置的示例包括,但不局限于:个人计算机、 服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、 可编程消费电子设备、网络PC、小型计算机、大型计算机、电话系统、包括以上 系统或设备中任一个的分布式计算环境等。

各实施方式可在由计算机执行的诸如程序模块的计算机可执行指令的通用上 下文中描述。通常,程序模块包括执行特定任务或实现特定抽象数据类型的例程、 程序、对象、组件、数据结构等。某些实施方式还被设计成在其中由通过通信网络 链接的远程处理设备执行任务的分布式计算环境中实施。在分布式计算环境中,程 序模块位于包括存储器存储设备的本地和远程计算机存储介质中。

参照图1,用于实现某些实施方式的示例性系统包括计算机110形式的通用计 算设备。计算机110的组件可包括,但不局限于:处理单元120、系统存储器130 以及将包括系统存储器在内的各种系统组件耦合到处理单元120的系统总线121。 系统总线121可以是若干类型总线中的任一种,包括存储器总线或存储器控制器、 外围总线和使用各种总线架构中任一种的局域总线。作为示例而非限制,这种架构 包括工业标准架构(ISA)总线、微信道架构(MCA)总线、增强的ISA(EISA) 总线、视频电子技术标准协会(VESA)局域总线以及也被称为附夹板(Mezzanine) 总线的外围组件互连(PCI)总线。

计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算 机110访问的任何可用介质,并且包括易失性和非易失性介质、可移动和不可移动 介质。作为示例而非限制,计算机可读介质包括计算机存储介质和通信介质。计算 机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指令、数据结 构、程序模块或其它数据的信息的易失性和非易失性、可移动和不可移动介质。计 算机存储介质包括,但不局限于:RAM、ROM、EEPROM、闪存或其它存储器技 术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘 存储或其它磁性存储设备、或可用于存储所需信息并可由计算机110访问的任何其 它介质。通信介质通常具体化为诸如载波或其它传输机制的调制数据信号中的计算 机可读指令、数据结构、程序模块或其它数据,并可包括任何信息传输介质。术语 “调制数据信号”表示以在信号中编码信息的方式设置或改变其一个或多个特征的 信号。作为示例而非限制,通信介质包括诸如有线网络或直接接线连接的有线介质, 以及诸如声学、RF、红外线的无线介质和其它无线介质。以上中任一个的组合也 应包含在计算机可读介质的范围内。

系统存储器130包括诸如只读存储器(ROM)131和随机存取存储器(RAM) 132的易失性和/或非易失性存储器形式的存储介质。包含在诸如启动期间帮助在计 算机110内元件之间传递信息的基本例程的基本输入/输出系统133(BIOS)通常 存储在ROM 131中。RAM 132通常包含可由处理单元120即时访问和/或正在其 上操作的数据和/或程序模块。作为示例而非限制,图1示出操作系统134、应用程 序135、其它程序模块136和程序数据137。

计算机110还可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。 仅作为示例,图1示出从不可移动、非易失性磁性介质读取或向其写入的硬盘驱动 器141、从可移动、非易失性磁盘152读取或向其写入的磁盘驱动器151、和从诸 如CD ROM或其它光学介质的可移动、非易失性光盘156读取或向其写入的光盘 驱动器155。可用于示例性操作环境的其它可移动/不可移动、易失性/非易失性计 算机存储介质包括,但不局限于:磁带盒、闪存卡、数字多功能盘、数字录像带、 固态RAM、固态ROM等。硬盘驱动器141通常由诸如接口140的不可移动存储 器接口连接到系统总线121,而磁盘驱动器151和光盘驱动器155则通常由诸如接 口150的可移动存储器接口连接到系统总线121。

以上描述和图1中示出的驱动器及其关联计算机存储介质为计算机110提供 计算机可读指令、数据结构、程序模块和其它数据的存储。例如在图1中,硬盘驱 动器141被示为存储操作系统144、应用程序145、其它程序模块146和程序数据 147。注意,这些组件可与操作系统134、应用程序135、其它程序模块136和程序 数据137相同或不同。在此对操作系统144、应用程序145、其它程序模块146和 程序数据147给出不同的附图标记说明至少它们是不同的副本。

用户可通过诸如键盘162、麦克风163和诸如鼠标、跟踪球或触摸垫的定点设 备161的输入设备向计算机110输入命令和信息。其它输入设备(未示出)可包括 操纵杆、游戏手柄、圆盘式卫星天线、扫描仪等。这些和其它输入设备通常由耦合 到系统总线的用户输入接口160连接到处理单元120,但是也可由诸如并行端口、 游戏端口或通用串行总线(USB)之类的其它接口和总线结构连接。监视器191 或其它类型的显示设备也可经由诸如视频接口190的接口连接到系统总线121。除 了监视器之外,计算机还可包括可以通过输出外围接口195连接的诸如扬声器197 和打印机196的其它外围输出设备。

计算机110可在使用到诸如远程计算机180的一个或多个远程计算机的逻辑 连接的网络化环境中操作。远程计算机180可以是个人计算机、手持式设备、服务 器、路由器、网络PC、对等设备或其它公共网络节点,并且通常包括以上相关于 计算机110描述的组件中的多个或全部。在图1中所描绘的逻辑连接包括局域网 (LAN)171和广域网(WAN)173,但是也可以包括其它网络。这种网络环境在 办公室、企业内部计算机网络、内联网和因特网中十分常见。

当在LAN网络环境中使用时,计算机110通过网络接口或适配器170连接到 LAN 171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或 用于在诸如因特网的WAN 173上建立通信的任何装置。或为内置或为外置的调制 解调器172可经由用户输入接口160或其它适当机制连接到系统总线121。在网络 化环境中,相关于计算机110描述的程序模块或其部分可存储在远程存储器存储设 备中。作为示例而非限制,图1将远程应用程序185示为驻留在远程计算机180 上。应该理解,所示网络连接是示例性的,且可以使用在计算机之间建立通信链路 的其它装置。

图2是作为示例性计算环境的移动设备200的框图。移动设备200包括微处 理器202、存储器204、输入/输出(I/O)组件206和用于与远程计算机或其它移 动设备通信的通信接口208。在一实施方式中,对上述组件进行耦合,以在合适总 线210上彼此通信。

存储器204被实现为诸如具有电池备用模块(未示出)的随机存取存储器 (RAM)的非易失性电子存储器,使得当移动设备200的总电源关断时存储在存 储器204中的信息不会丢失。存储器204的一部分较佳地被分配为用于程序执行的 可寻址存储器,而存储器204的另一部分较佳地用作存储以例如模仿盘驱动器上的 存储。

存储器204包括操作系统212、应用程序214以及对象存储216。在操作期间, 操作系统212较佳地由处理器202从存储器204执行。在一较佳实施方式中,操作 系统212是可从微软公司购得的WINDOWSCE牌操作系统。操作系统212较佳 地为移动设备设计,并且实现可由应用程序214通过一组暴露的应用编程接口和方 法来使用的数据库特征。对象存储216中的对象可至少部分地响应于对所暴露应用 编程接口和方法的调用而由应用程序214和操作系统212维护。

通信接口208表示允许移动设备200发送和接收信息的多种设备和技术。该 设备包括例如有线和无线调制解调器、卫星接收器和广播调谐器。移动设备200 还可直接连接到计算机以与之交换数据。在这种情形中,通信接口208可以是红外 收发器或串行或并行通信连接,所有这些接口都能够发送流信息。

输入/输出组件206包括诸如触敏屏幕、按钮、滚轮和麦克风的各种输入设备, 以及包括音频生成器、振动设备和显示器的各种输出设备。以上所列设备是作为示 例的,并不需要都在移动设备200上出现。此外,可向移动设备200上附连或在其 上找到其它输入/输出设备。

本发明提供用于调用和选择备选列表的新技术。图3提供用于调用和使用备 选列表以便更正语音识别错误的一实施方式的流程图。图4提供在图3的方法中使 用的元件的框图。

在图3的步骤300中,向语音识别引擎402提供图4的语音信号400,这将产 生经识别的词语和备选404。在一实施方式中,给定语音识别模型,向由语音识别 引擎402识别的每个词语配备比所识别词语可能性小但是仍有可能的一个或多个 备选。

将所识别词语和备选404提供给模式评估方法406,该方法判定所说的话语是 表示叙述(dictation)还是命令。如果模式评估方法406判定所识别的词语表示叙 述,则模式评估方法406调用文本显示方法407,该文本显示方法生成在显示器410 上显示的可显示的所识别文本408。

图5提供包括错误的所显示的已识别文本的示例。具体地,在图5的示例中, 用户所说的短句是“I was in awe of him(我敬畏他)”,但是语音识别引擎将其识别 为“I was in ore of him”。

在步骤301,用户发出更正所显示叙述中的词语或短语的命令。在一实施方式 中,该命令是诸如“更正ore(矿石)”的口头命令,该命令被语音识别引擎402 解码以产生所识别词语和备选404。所识别词语和备选可由模式评估方法406进行 评估以判定它们是否含有命令。由于所识别词语包含更正文本的命令,则模式评估 方法406调用更正方法411,在步骤302该更正方法加亮所选词语或短语,如图6 的加亮框600所示。

在某些实施方式中,在步骤304,更正方法411扩展与原始叙述中所选词语或 短语一起返回的备选列表。具体而言,在备选列表中以最可能词语开始,更正方法 411添加词语的备选表示,诸如大写词语的首字母、诸如将“one(一)”转换成“1” 来将词语的文本形式转换成符号、以及添加诸如用于“street(路)”的“st.”来为 词语添加缩写。

在步骤306,更正方法411在更正对话框412中显示扩展列表的前n个备选词 语。然后在显示器410上显示对话框412。

图6提供对话框602的示例,它提供了备选词的扩展列表中的前n个词语的 列表604。在图6的示例中,提供五个备选。在其它实施方式中,提供八个备选。 本领域技术人员应该认识到可向用户提供任何数量的备选。

在列表604中,每个备选词已与一符号(具体而言是数字)相关联。在对话 框中,指示用户说出靠近期望项目的数字。因此,如果扩展备选列表包括用户期望 的备选,则用户可简单地说出该数字来选择该词语。如果未在列表604中看到该词 语,对话框602还指示用户再次说出该词语。

在步骤308,用户说出列表中项目的数字或者再次读出该词语。语音识别引擎 402对用户的语音进行解码以产生新的一组识别词语和备选404,这些词语和备选 被提供给文本评估方法406。在步骤310,文本评估方法406判定所解码的词语是 否是指数字。如果所解码的词语是数字,则诸如词语600的所选词语可由备选列表 中与该数字相关联的词语或短语代替。然后,将光标移动回到发出更正命令时它所 处的位置。

如果在步骤310,所解码的语音信号不是指数字,则在步骤314,通过添加列 表中词语的备选表示来扩展配备步骤308提供的新解码词语或短语的备选列表。然 后,该过程返回步骤306以在更正对话框中显示新扩展列表的前n个备选词语。

这种对话框的示例在图7中被示为对话框700。在对话框700中,列表702 被示为包含词语备选的不同集合。该备选列表已更改,因为用户在重述过程中对词 语的发音与其在初始叙述过程中稍有不同。

如图7所示,再次向用户给出陈述数字或重读该词语的选择。如果用户重读 该词语,则该词语被解码并且在步骤308基于新发音标识一组新的备选。在步骤 310,文本评估方法406判定用户是否陈述了数字。如果用户再次未陈述数字,则 在步骤314对新的备选列表进行扩展,该过程返回到步骤306。

在返回到步骤306之后,示出带有新的备选列表802的新对话框,即图8的 对话框800。重复步骤306、308、310和314,直到用户选择数字或以其它方式退 出对话框为止。如果用户在步骤310选择数字,诸如图8中的数字3,则在步骤312, 与该数字相关联的文本将替代所选文本,产生图9的显示,其中已经用词语“awe (敬畏)”代替了词语“ore(矿石)”。然后,将光标移动到更正命令发出之前其所 在的点。

如上所述,图3的方法允许用户继续获得备选列表直到他们找到包含期望词 语的列表。这改进了用户能够指出他们实际期望在叙述中出现的词语的机会,因为 对每个发音总是向用户给出多个项目以供选择。

虽然图3的方法通过涉及单个词语的示例示出,但是本领域技术人员应该认 识到,可使用整个短语来代替一个词语。在这种情况下,用户可选择一个以上的词 语并且备选列表可包含备选短语列表。通过每次读出该短语,会产生新的备选短语 列表直到用户期望的短语出现。

图10提供用于调用备选列表的替换方法。在步骤1000,从用户接收叙述并将 其解码成所显示文本。在步骤1002,接收选择词语或短语的命令。在步骤1004, 接收表示要代替所选短语的新词语或短语的语音信号。在步骤1006,解码语音信 号以标识新的词语或短语。

在步骤1008,将新的词语或短语与所选词语或短语进行比较以判定它们是否 匹配。对于单个词语,新词语必须精确匹配。在一实施方式中,如果短语的首词语 和末词语相同,则不管短语的其它词语是否匹配,该短语匹配。如果在步骤1008, 新的词语或短语与所选词语或短语不匹配,则在步骤1010,用新的词语或短语代 替所选词语或短语。如果在步骤1008,新的词语或短语与所选词语或短语匹配, 则在步骤1012,通过对对上述备选列表中词语寻找备选表示来扩展在解码步骤 1006中与新的词语或短语一起返回的备选列表。注意,对于短语,可不扩展备选 列表,使得可向用户提供由语音识别引擎标识的更多短语。

在步骤1014,在诸如图6的更正框602的更正框中示出扩展备选列表的前n 个备选词语或短语。然后图10的过程通过在图3的框308继续进行而进入图3所 示的循环。

在图10的实施方式中,在检测到语音识别引擎在步骤1008犯了相同错误时 向用户提供备选列表。这帮助用户在语音识别引擎在识别语音中继续犯相同错误时 获得备选列表,而无需要求用户采取除了再次读出该词语之外的任何动作以使备选 列表出现。

虽然在用结构特征和/或方法动作专用的语言对主题进行了描述,但是应该理 解,在所附权利要求书中定义的主题没有必要受限于上述具体特征或动作。相反, 上述具体特征和动作作为实现权利要求的示例形式而公开。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号