首页> 中国专利> 用于基于语音的菜单和内容导航服务的多模输入系统

用于基于语音的菜单和内容导航服务的多模输入系统

摘要

本发明涉及用于基于语音的菜单和内容导航服务的多模输入系统。具体地,一种用于在车辆中提供从任务选择列表中标识任务选择的语音提示的系统和方法,其中,用户采用诸如滚动轮的输入装置来激活特定任务,并且其中,所述语音提示的速度取决于所述用户旋转所述滚动轮的速度而增加和减少。

著录项

  • 公开/公告号CN102163080A

    专利类型发明专利

  • 公开/公告日2011-08-24

    原文格式PDF

  • 申请/专利号CN201110049802.8

  • 发明设计人 A·C·汤姆;

    申请日2011-02-24

  • 分类号G06F3/01(20060101);G06F3/16(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人薛峰;谭祐祥

  • 地址 美国密执安州

  • 入库时间 2023-12-18 03:08:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-05-18

    授权

    授权

  • 2011-10-05

    实质审查的生效 IPC(主分类):G06F3/01 申请日:20110224

    实质审查的生效

  • 2011-08-24

    公开

    公开

说明书

技术领域

本发明总体涉及用于提供语音提示的任务选择的系统和方法,更特别地,涉及用于在车辆中为用户提供语音提示的任务选择的系统和方法,其中,所述用户操作诸如滚动轮的输入装置,并且当滚动轮旋转时,语音响应标识任务列表中的每一个可选任务,以及其中,所述语音响应的速度取决于滚动轮旋转得多快而增加和减少。

背景技术

现代车辆往往包括很多提供车辆乘员便利的各种系统,所述车辆乘员便利诸如蜂窝电话、互联网接入、数字音乐文件、全程音控导航(turn-by-turn navigation)、Wi–Fi,等等。这些系统有时可以通过单个人机界面(HMI)来访问,允许用户更容易地选择和控制所述各种系统。

研究已表明,70-80%的所有车辆出行都只有司机。因此,从HMI角度看,司机是车辆的单个的最重要的乘员。车辆HMI通常需要与其它HMI不同,因为车辆司机在正常行驶速度下不能显著分心,特别是司机的眼睛不能离开路面,手不能离开方向盘,短时间除外。通常情况下,基于车辆的系统的分心阈值是该系统对司机来说不能比车辆无线电更令人分心。这就排除使用采用了基于屏幕的用户界面的HMI装置。因此,可在车辆静止时使用的HMI,诸如基于屏幕的互联网浏览器,在车辆操作期间几乎与司机不相干。

语音识别系统已用于车辆中解决司机分心问题,其中,该系统语音提示司机而司机应答问题来标识想要执行的任务。用于司机的可用HMI是使司机能够在正常行驶速度下有效访问和获得信息的HMI。声音/语音HMI已经很普及,因为它们允许司机不被基于屏幕的界面分心的情况下访问信息和控制功能。如果可能的应答可被限制在几个可能的选择,语音识别本身运作良好,但读写型识别或很多选择是非常不可靠的,尤其是如果内容有限的话,例如在搜索框中输入短语。然而,嘈杂的舱室环境和背景,尤其是在高车速下,比基于屏幕的用户界面导航更慢,无法传达尽可能多的信息等,会阻止对语音识别系统的有效使用,因为用户可能不得不重复诸如电话号码的各种命令。

与行业中已使用的语音识别系统相关联的一个HMI是滚动轮,滚动轮允许车辆操作员滚动车辆上可用的任务菜单,所述任务例如与诸如蜂窝电话、导航系统、互联网等的各种系统相关联的呼叫、拨号、全程音控导航搜索、虚拟顾问等。在用户使用滚动轮滚动任务列表时,语音提示标识每一个任务。用户可以在特定提示下通过推动滚动轮或推动单独按钮来选择任务。

如果用户熟悉特定任务选择系统并且知道他想要选择靠近任务列表末端的任务时,则在得到他想要选择的那一个前他可以更快地旋转滚动轮以跳过很多任务。当前系统中,在滚动轮被更快地旋转时,语音提示被切断,因为在语音提示能够标识当前选择前用户已滚动到下一选择。

一旦用户选择上层选择,则该选择可能具有需要做出的其它选择,这些其它选择会很多。例如,如果选择之一是MP3播放器,则一旦做出该选择,用户会被要求从MP3播放器歌曲列表中选择歌曲,而该歌曲可能是很多歌曲中的一个。

市场上有很多不同类型的语音驱动服务。例如,拨打411给予用户收集信息然后将该信息传递给接线员的自动化系统。拨号777-电影是完全自动的,并且通过由键盘DTMF信号和语音识别控制的多层菜单导航系统向用户发送。这些服务要求到网络服务器的具备语音功能的连接,诸如VoIP或电路交换连接。这些系统中的一些使用VoiceXML(语音可扩展标记语言)、SALT和其它行业标准来描述菜单设计。不过,除语音识别外,DTMF是在这些系统中发送数据的仅有方法。

发明内容

根据本发明讲述的内容,公开了一种用于在车辆中提供从任务选择列表中标识任务选择的语音提示的系统和方法,其中,用户采用诸如滚动轮的输入装置来激活特定任务,以及其中,所述语音提示的速度取决于该用户滚动轮旋转得多快而增加和减少。

从以下结合附图的说明书和所附权利要求中,本发明的附加特征将变得显而易见。

本发明还提供了以下方案:

1. 一种基于语音的菜单导航系统,包括:

语音引擎,其可操作以为用户念出选择列表用于使所述用户从中选择;以及

输入装置,其由所述用户操作并且可操作以响应于所述用户的操作而增加或减少念出所述选择列表的速度。

2. 根据方案1所述的系统,其中,所述语音引擎是从文本数据念出所述选择列表的文本-语音引擎。

3. 根据方案2所述的系统,其中,所述文本-语音引擎选择要处理哪个文本,以及如果对于所述选择列表中的每个选择有两个或多个文本描述,基于所述用户对所述输入装置的操纵向所述用户念出。

4. 根据方案1所述的系统,其中,所述语音引擎是音频文件播放器,所述选择列表基于由所述音频文件播放器提供的音频文件,其中,对所述输入装置的操纵改变所述音频文件播放器的回放的速度。

5. 根据方案4所述的系统,其中,对于所述选择列表中的每一个选择有两个或多个音频文件,以及其中,所述语音引擎基于所述用户对所述输入装置的操纵,选择要向所述用户念出哪个音频文件。

6. 根据方案1所述的系统,其中,所述语音引擎可操作以向前或相反的顺序并且以可变速度念出所述选择列表。

7. 根据方案1所述的系统,其进一步包括部件,所述部件可操作以追踪由所述用户提供的对所述输入装置的操纵速度,并基于用户的追踪历史设置默认速率。

8. 根据方案1所述的系统,其中,所述语音引擎确定所述用户说出的命令并且念出所述用户可能想表达的命令的列表,以及其中,所述用户使用所述输入装置来选择所需命令。

9. 根据方案1所述的系统,其中,所述语音引擎基于带标记标志的文本文件的内容确定要念出的选择列表,其中,所述标记标志描述哪个内容适用哪个速度来念出所述选择列表。

10. 根据方案9所述的系统,其中,所述标记标志区分用于慢速念出的音频文件和用于快速念出的音频文件之间的差别。

11. 根据方案9所述的系统,其中,所述标记标志区分用于慢速念出的文本描述和用于快速念出的文本描述之间的差别。

12. 根据方案9所述的系统,其中,所述标记标志告诉所述语音引擎是使用文本描述还是使用音频文件来念出所述选项列表。

13. 根据方案1所述的系统,其中,所述选择列表包括广告。

14. 根据方案13所述的系统,其中,所述输入装置可操作以允许所述用户选择广告来获得更多关于所述广告的信息。

15. 一种基于语音的菜单导航系统,其包括终端部件和网络部件,其中,所述终端部件通过语音通道和数据通道连接到所述网络部件,并且所述网络部件可操作以通过所述语音通道向用户念出选择列表,所述基于语音的菜单导航系统允许所述用户通过经过所述语音通道来自所述终端部件的语音响应,或者通过从所述终端部件上的输入装置向所述网络部件发送的数据信号,做出选择。

16. 根据方案15所述的系统,其中,所述输入装置可操作以允许所述用户控制念出所述选择列表的速度。

17. 根据方案15所述的系统,其中,所述输入装置可操作以促使语音引擎向前或向后念出所述选择列表。

18. 根据方案15所述的系统,其中,所述输入装置可操作以允许所述用户改变所述选择列表的顺序。

19. 一种基于语音的菜单导航系统,包括:

文本-语音引擎,其可操作以向用户念出选择列表用于所述用户从中选择,其中,所述选择列表包括广告;以及

输入装置,其由所述用户操作并且可操作以允许所述用户响应被念出的广告来选择所述广告,其中,所述输入装置允许所述用户选择所述广告以获取更多信息。

20. 根据方案19所述的系统,其中,所述输入装置可操作以允许所述用户控制念出所述选择列表的速度。

附图说明

图1是用于在车辆上提供语音提示的任务选择的系统的示意框图。

具体实施方式

以下针对用于响应输入装置的输入速度增加和减少语音提示的速度的系统和方法对本发明实施例的讨论就其本质来说仅是示例性的,绝不旨在限制本发明或其应用或使用。例如,本发明的系统和方法具有用于车辆HMI装置的特定应用。然而,本领域技术人员将理解,该系统和方法还将有其它应用。

本发明提出了一种用于车辆司机的基于音频的多模HMI。虽然主要是在汽车环境下进行描述,本发明还可以应用于用户不能长时间看屏幕的任何环境或应用,诸如在繁忙城市的人行道上行走、骑自行车等,并且还可以用于诸如耳机的其它终端中。基于音频的多模HMI可以控制用于此处所述用途的任何适合的车辆系统,例如蜂窝电话、诸如MP3播放器的数字音乐播放器、互联网浏览器、车辆导航系统等。

本发明可被划分为两个主要部件,即包括驻留在车辆上的部件的终端,和包括驻留在服务提供商系统上的部件的网络。

图1是用于在车辆上提供语音提示的任务选择的系统10的示意框图。系统10可以包括上面提到类型的驻留在车辆上的终端12和网络14。数据通信通道28连接终端12和网络14。终端12可以包括扩音器16;扬声器18;语音识别引擎20;可以是文本-语音引擎、音频文件播放器或两者兼而有之的语音引擎42;处理器22;用于语音和数据的通信部件24;以及二次输入装置26。二次输入装置26通常是诸如触摸板、滚动轮、按钮或键盘的触觉装置,还可以包括手势或生物控制器。终端12还可以包括语音浏览器24和平视显示器(HUD)30或带或不带触摸输入的显示屏。网络14可以包括调制解调器组32、语音识别引擎34、浏览器36、应用服务器系统38、到第三方服务器的连接40、以及可以是文本-语音引擎、音频文件播放器或两者兼而有之的语音引擎46。虽然没有具体示出,网络14中的每个元件可以耦合于共同通信总线,以便这些各种元件可以相互通话。下文表1列出了可能的命令项的菜单列表,诸如命令项1:“无线电”,命令项2:“气候”,以及命令项3:“辅助”。下文表2示出用于这些命令项的软件命令的实例。

表1

表2

语音交互会话可由终端12、网络14、或用户发起。终端12可以通过向用户提示问题来发起会话。用户然后可以通过语音或输入装置26应答。网络14通过与终端12通信请求终端12提示用户来发起会话。用户可以通过激活输入装置26来发起会话,输入装置26诸如按钮、触摸板、或滚动轮。终端12可以为用户念出预置的可能命令列表(例如,诸如“无线电”、“气候”和“辅助”的菜单项)用于用户从中选择,或者它可以问用户开放式问题并且使用自然语言语音识别和/或语音识别语法来处理应答。

如果终端12想给予用户来自有限命令集的选择,则终端12可以将可能的命令作为菜单列表传达。用户可以等待听到菜单列表上的所有项,然后做出选择,或者用户可以使用二次输入装置26来快速向前或向后移动菜单项并选择所需命令项。二次输入装置26可以是滚动轮、触摸板、拨号、上/下或左/右按钮、或适合用于此处所述目的的任何其它输入装置。用户可以说出所需命令或者使用二次输入装置26作出选择。例如,用户可以在所需菜单项被念出时按下按钮。选择方法可以是按钮、触摸传感器上的轻叩、或键盘上的按键。

如果在来自表1的菜单项正被念给用户时输入装置26被激活,则一旦项目被选择,就选择来自表2的对应命令。终端12可以在菜单项间暂停来给予用户在听取所念的整个命令后选择命令的机会。替代地,菜单列表的念出可以完全由输入装置26的激活来确定。如果用户激活装置26,终端12念出菜单列表中的下一命令。如果用户不激活装置26,终端12或者什么也不做或者继续念出用户已导航到的当前命令。尽管这种念出菜单项的技术完全基于装置26,其中,激活给予用户最终控制,它对躺着的用户可能不起作用,因为躺着的用户可能没有意识到他们必须激活装置26来去往下一菜单项。即使没有装置激活,在某点处继续念出整个列表可能是最好的。一旦项目被选定后,终端12可以念出所选项并要求用户予以确认。用户可以使用二次输入装置26来拒绝该项目,例如按下取消按钮,或者确认该项目,例如选择输入按钮。通过这种方式,用户可以快速导航并使用基于语音的命令菜单系统来做出选择。

可以以多种方式滚动菜单项。一个方式可以使用例如按钮、滚动轮、或其它机构的输入装置26,来中断正念的当前菜单项前往下一项,或者返回上一项。这允许用户快速浏览项目列表。然而,这种技术切断正念的当前项,正念的当前项一般强制用户在可以确定是否点击下一项前几乎听完整个项目名称。替代地,输入装置26可用于增加终端12念出菜单项的速度,就像加快转盘上的黑胶唱片。语音可使用众所周知的技术来处理以避免音调的任何变化(否则语音播放太快的话听起来会像花栗鼠的声音)。终端12还可以念出命令的简短描述用于更快导航。命令列表可以为每个菜单项具有两个或多个描述以用于快速导航,一个描述用于慢速导航。为了向后播放,终端12可以以相反顺序更快速地念出每一个项目,而不是难以理解地向后念出。例如,如果命令列表的前进方向是“无线电、气候、辅助”,向后播放则将念出“辅助、气候、无线电”。终端12可以有能力监控用户选择的速度,确定最适合用户的速度,以及使该速度作为念出未来菜单选择时要使用的默认速度。终端12可以使用预先录制的用于念出菜单项的音频剪辑,并且取决于用户想要念出菜单项的速度,有几个现有的音频剪辑版本。替代地,终端12可以使用单个音频剪辑并更快或更慢地处理它,或者终端12可以使用TTS引擎来从文本创建音频。取决于用户操纵输入装置26的速度,TTS引擎也可以更快或更慢地输入语音。

浏览器24,有时也被称为解释器,包括控制菜单导航的软件。浏览器24可以读取诸如VoiceXML文件或任何其它标记文件,其告诉浏览器24要念给用户的菜单项的文件。浏览器24可以具有允许用户使用语音响应或输入装置26确认或拒绝选择的功能。例如,当用户听到所念的命令选择列表时,用户可以说出所需的命令,浏览器24将使用语音识别来确定用户说出的命令,并执行该命令。如果浏览器24位于终端12上,终端12可以通过数据通信链路28从网络服务器38下载文件。这些文件然后可被浏览器24解释,菜单选项可被念给用户。或者,文件已经被本地存储在终端12上,所以没必要从网络服务器38进行下载。文件包括将被念给用户的文本以及告诉浏览器24如何解释该文本的标记语言标志。一些标志将描绘命令菜单中的各种项目(例如,项目1、项目2等)。其它标志将告诉浏览器24如何呈现或念出该文本。例如,变速语音提示可以以特殊标志进行编码并且由浏览器24解释。这些标志可被用来指示是否在文本字符串上使用TTS以念出菜单项或使用音频文件。这些标志还可以描绘哪些音频文件应当用于快速激活输入装置26(例如快速滚动),以及哪些应当用于慢速激活。如果装置26正被快速激活,浏览器24将知道使用较短的音频文件。

如果浏览器36驻留在网络14上,终端12向调制解调器组32进行语音呼叫。调制解调器组32将会话切换到浏览器36,浏览器36从应用服务器38读取文件。浏览器36然后念出菜单项并经过语音链路通过调制解调器组32响应终端12。终端12可以使用带内数据通信通过语音链路传递二次输入。该带内通信可以是基于音调的,诸如类似于Airbiquity所使用的系统的DTMF调制数据,或者GSM系统中存在的语音/数据传输模式。网络14能够使用自己的识别引擎识别来自终端12的语音并同时解码来自终端12的带内数据。输入数据还可以使用带外方法在终端12和网络14之间被传递,所述带外方法诸如单独分组数据连接,网络14将该单独分组数据连接识别为属于它已经与其具有语音会话的终端12,但使用带内数据在某些情况下是优选的,因为它不要求单独的数据连接。二次输入可被用来改变命令列表经过语音连接正被念出的速度,或者向后念出菜单项。二次输入也可被用来选择菜单项,类似于上述终端12的操作。

如果浏览器24驻留在终端12上,终端12可以使用诸如HUD 30和/或控制台屏幕的可视屏幕增加HMI。终端12可以念出菜单项并同时在可视屏幕30上显示该项目。用户可以使用触摸屏通过选择屏幕菜单项做出应答。用户还可以通过二次输入装置或通过语音响应做出应答。

使用二次输入信号用于前进和后退音频菜单的技术也可应用于导航长语音通道,导航长语音通道诸如音频书籍或对基于文本的电子书进行TTS。这允许用户轻松跳过节或“重听”节。该技术还可用于导航列表用于确认用户说了什么。例如,如果用户说“电话”,语音识别器可能认为用户说了“电话”或“熟食店电话”。终端12可以告诉用户“你说的是电话还是熟食店电话...”。用户可以使用二次输入装置26导航选项并选择他想要的选项。类似地,语音识别系统可以自动建立它认为用户所说的选择的列表,用户可以通过语音或二次输入来导航这些选择。例如,如果用户说“从星巴克点咖啡”,语音识别系统就可以答复“你是想要1)从星巴克点茶,2)从星巴克点咖啡,还是3)从西雅图贝斯特(Seattle’s Best)点咖啡?”然后用户可以选择他想要的选项。

在语音流中插入广告不像与基于屏幕的搜索那样容易。通过屏幕,用户可以选择忽视侧栏上的广告。但他们不能忽视插入到音频流中的广告,除非他们具备快进的能力。一种技术是在语音流播放时将广告置于可选屏幕中。终端12用来念出音频的文件可以具有特殊广告标志,见表2)中的“imgad”标志,该标志将文件中的文本、图像和其它元素分开设置为应当仅在屏幕或HUD 30上显示的可视广告的一部分。或者,表示念出命令列表的音频流可以包含“该服务由麦当劳带给你”的简短提示。终端12可以允许用户选择音频或可视广告来获取更多信息。广告也可以作为用户若选择时就可以选择的附加菜单项(见表2中的Daily Coupon(每日优惠券))。广告在项目列表中的确切投放是可变的,并且广告的实际内容可以使用考虑了各种统计的高级广告投放引擎来选择,所述各种统计诸如命令的内容、用户的偏好、用户的位置、广告的目标简档、用户习惯、来自广告的广告收入等。

上述讨论仅记载和描述了本发明的示例性实施例。本领域技术人员将很容易从这种讨论和附图及权利要求中意识到,在不背离由以下权利要求限定的本发明的精神和范围的情况下,可以做出各种改变、修改和变化。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号