首页> 中国专利> 使用优化的音素集进行广东话语音识别的系统和方法

使用优化的音素集进行广东话语音识别的系统和方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明包括以优化的音素集实施广东话语音识别器的系统和方法，可以包括被构造成将输入语音数据与来自根据优化的音素集实施的词典的音素串进行比较的识别器。该优化的广东话音素集以语音学技术实施以分别包括辅音音素和元音音素。为了系统效率的原因，该优化的广东话音素集优选以小型化的方式实施以仅包括在语音识别过程中精确表示广东话语音所要求的最小数量的辅音音素和元音音素。

著录项

公开/公告号CN1532806A

专利类型发明专利
公开/公告日2004-09-29

原文格式PDF
申请/专利权人索尼电子有限公司;
展开▼

申请/专利号CN200410008562.7
发明设计人 M·埃蒙茨;L·奥罗伦肖;X·梅嫩德斯-皮达尔;
展开▼

申请日2004-03-24
分类号G10L15/00;
代理机构中国专利代理(香港)有限公司;
代理人王岳
地址美国新泽西州
入库时间 2023-12-17 15:30:37

法律信息

法律状态公告日

法律状态信息

法律状态
2010-11-03

授权

授权
2006-05-31

实质审查的生效

实质审查的生效
2004-09-29

公开

公开

说明书

技术领域

一般地说本发明涉及电子语音识别系统，更具体地说涉及使用优化的音素集进行广东话语音识别的系统和方法。

背景技术

实施系统用户与电子设备进行稳健且有效的人机通信是系统设计者和制造商们非常重视的考虑因素。电子设备的语音控制操作是用于多种系统用户的理想接口。例如，语音控制操作允许用户同时执行其它的任务。例如，一个人在驾驶机车的同时，通过语音控制可以操作电子管理器。对于哪些具有身体障碍或其它特殊要求的用户来说电子系统的免提操作是比较理想的。

电子设备的免提操作可以通过各种语音启动的电子系统实现。语音启动的电子系统由此有利地允许用户在其使用常规的输入设备不方便或者可能有危险的情况下与电子设备进行人机通信。电子娱乐系统也可以利用语音识别技术来允许用户通过向某一系统说话而与其交互。

然而，有效地实施这种系统对系统设计者来说可是一种巨大的挑战。例如，增加系统的功能和性能的进一步需求可能要求更大的系统处理能力和要求其它的硬件资源。由于增加了生产成本和操作的无效率，在处理或硬件要求方面的增加也相应地导致了不利的影响。

此外，增强系统执行各种高级操作的系统能力虽然可以给系统用户提供其它的优点，但也导致了对各种系统部件的控制和管理的增加。例如，有效地识别在广东话中的字和词的增强的电子系统得益于有效的实施方案，因为要求大量且复杂的数字数据。因此，对于所有的前述原因，实施系统用户与电子设备人机通信的稳健且有效的方法一直是系统设计者和制造者重要的考虑因素。

发明内容

根据本发明，公开了一种以优化的音素集实施广东话语音识别器的系统和方法。在一个实施例中，识别器可以被构造成将输入语音数据与来自根据优化的广东话音素集实施的词典的音素串进行比较。优化的广东话音素集可以以子音节语音学技术实施以分别包括辅音音素和元音音素。由于系统效率的缘故，优化的广东话音素集优选以小型化的方式实施以仅包括在语音识别过程中精确地表示广东话语音所要求的最小数量的辅音音素和元音音素。

在某些实施例中，优化的广东话音素集可以包括如下的辅音音素：b，d，g，p，t，k，m，n，ng，f，l，h，z，c，s，w和j。此外，优化的广东话音素集也可以包括如下的元音音素：aa，i，u，e，o，yu，oe，eo，a，eu，aai，aau，ai，au，ei，oi，ou，eoi，ui和iu。在多个实施例中，优化的广东话音素集也可以包括闭合音素(closure phone)“cl”和静音音素“sil”。因为使用相对较小数量的音素，所以优化的广东话音素集提供了精确地识别广东话语音的有效且小型化的音素表示。

在某些实施例中，优化的广东话音素集有利地通过利用单个一体化双元音音素(single unified diphong phone)表示双元音。例如，优化的广东话音素集可以包括如下的一体化双元音音素：eu，aai，aau，ai，au，ei，oi，ou，eoi，ui和iu。此外，在广东话中，唇圆音(liprounding)通常与“g”音或与“k”音一起产生。在某些实施例中，优化的广东话音素集通过利用已经在广东话音素集中表示的不同的唇圆音“w”有效地表示唇圆。

此外，在广东话中，“塞音(stop)”优选首先与对应于“b”，“d”，“g”，“p”，“t”和“k”的音关联。根据本发明，优化的广东话音素集根据在词组中的对应的声音环境有利地利用两种不同的技术来表示“b”，“d”，“g”，“p”，“t”和“k”。在塞音位于音节开始的音节初始的环境下，优化的广东话音素集可以利用在初始音节中的一个适当的辅音音素(“b”，“d”，“g”，“p”，“t”或“k”)来表示该辅音和一个先前的闭合音。

此外，在塞音位于在词组的中间的字的结尾的音节最后/词组中间的环境(syllable-final/midphrase context)下，优化的广东话音素集可以利用在音节最后/词组中间的适当的音素(“p”，“t”或“k”)来表示该辅音和该先前的闭合音。此外，在塞音位于在词组的结尾的字的结尾的音节最后/词组结尾的环境(syllable-final/phrase-endcontext)下，优化的广东话音素集可以有效地利用在音节最后/词组结尾中的相同的闭合音素“cl”来仅将“p”，“t”或“k”中任一个表示为闭合音，而不需要任何随后发出的辅音。因此本发明提供了一种以优化的音素集实施广东话语音识别器的有效的系统和方法。

附图概述

附图1所示为根据本发明的计算机系统的一个实施例的方块图；

附图2所示为根据本发明附图1的存储器的一个实施例的方块图；

附图3所示为根据本发明附图2的语音检测器的一个实施例的方块图；

附图4所示为根据本发明附图2的隐马尔可夫模型(HiddenMarkov Model)的一个实施例的附图；

附图5所示为根据本发明附图2的字典的一个实施例的附图；

附图6所示为根据本发明的一个实施例优化的广东话音素集的附图；

附图7所示为根据本发明的一个实施例说明处理双元音的技术的附图；

附图8所示为根据本发明的一个实施例说明处理唇圆音的技术的附图；

附图9所示为根据本发明的一个实施例说明处理塞音的技术的附图。

具体实施方式

本发明涉及语音识别系统的改进。提供下面的描述以便在本领域的普通技术人员能够实现并使用本发明，并且这些描述根据专利申请及其要求提供。对优选实施例做出各种改进对于本领域普通技术人员来说是显而易见的，因此在此的一般原理可应用于其它的实施例。因此并不希望将本发明限于所示的实施例，而是应该给予与在此所描述的原理和特征相一致的最宽泛的范围。

本发明包括以优化的音素集实施广东话语音识别器的系统和方法，可以包括被构造成将输入语音数据与来自根据优化的广东话音素集实施的字典的音素串进行比较的识别器。优化的广东话音素集可以以子音节语音学技术实施以分别包括辅音音素和元音音素。由于系统效率的缘故，优化的广东话音素集优选以小型化的方式实施以仅包括在语音识别过程中精确地表示广东话语音所需的最小数量的辅音音素和元音音素。

现在参考附图1，所示为根据本发明的计算机系统110的一个实施例的方块图。附图1的实施例包括声音传感器112、放大器116、模拟至数字转换器120、中央处理单元(CPU)128、存储器130和输入/输出接口132。在变型实施例中，除了结合附图1的实施例讨论的那些元件或功能之外或作为它们的替换，计算机系统110容易包括各种其它的元件或功能。

声音传感器112检测声音能量并将所检测到的声音能量转换为模拟语音信号，通过线114将该模拟语音信号提供给放大器116。放大器116放大所接收的模拟语音信号并经线118将经放大的模拟语音信号提供给模拟至数字转换器120。然后模拟至数字转换器120将经放大的模拟语音信号转换为对应的数字语音数据。然后模拟至数字转换器120通过线122将数字语音数据提供给系统总线124。

CPU 128然后访问在系统总线124上的数字语音数据并根据包含在存储器130中的软件指令相应地分析并处理该数字语音数据以执行语音检测。CPU 128的操作和在存储器130中的软件指令将在下文结合附图2-7进一步讨论。在处理了语音数据之后，CPU 128然后将语音检测分析的结果通过输入/输出接口132提供给其它的设备(未示)。在变型实施例中，本发明容易以除了在附图1中所示的计算机系统110之外的各种设备实施。

现在参考附图2，所示为根据本发明的附图1的存储器130的一个实施例的方块图。可替换的是，存储器130可以包括各种存储装置结构，包括随机存取存储器(RAM)和存储装置比如软盘或硬盘驱动器。在附图2的实施例中，存储器130包括但不限于语音检测器210、隐马尔可夫模型(HMM)212、词汇字典214和语言模型216。在变型实施例中，除了结合附图2的实施例讨论的那些元件或功能之外或作为它们的替换，存储器130容易包括各种其它的元件或功能。

在附图2的实施例中，语音检测器210包括由CPU 128执行以分析并识别语音数据的一系列软件模块，下文将参考附图3进一步描述这些模块。在变型实施例中，语音检测器210容易以各种其它的软件和/或软件结构实施。HMM 212和字典214可以由语音检测器210使用以实施本发明的语音识别功能。HMM 212的一种实施例将在下文结合附图4进一步讨论，字典214的一种实施例将在下文结合附图5进一步讨论。语言模型216可以包括根据前一字预测下一字的字序列或“语法”模型。

现在参考附图3，所示根据本发明的附图2的语音检测器210的一个实施例的方块图。语音检测器210包括但不限于特征提取器310、端点检测器312和识别器314。在变型实施例中，除了结合附图3的实施例讨论的那些元件或功能之外或作为它们的替换，语音检测器210容易包括各种其它的元件或功能。

在附图3的实施例中，模拟至数字转换器120(附图1)通过系统总线124给特征提取器310提供数字语音数据。特征提取器310响应地产生特征矢量，通过路径320将该特征矢量提供给识别器314。特征提取器310进一步通过路径322响应地产生语音能量给端点检测器312。端点检测器312分析该语音能量并响应地确定由语音能量所代表的话语的端点。该端点指示该话语在时间上的开始和结束。端点检测器312然后通过路径324将该端点提供给识别器314。

识别器314优选被构造成识别在字典214(附图2)中表示的预定的词汇中的字。前述的在字典214中的词汇字(vocabulary word)可以对应于任何所需的命令、指令或计算机系统110的其它通信。然后将所识别的词汇字或指令通过通路332输出给系统110。

在实际中，来自字典214的每个字都可以与表示该字的对应的音素串(单个音素的串)关联。隐马尔可夫模型(HMM)212(附图2)可以包括来自可有效地用于表示在字典214中的字的预先确定的音素集中的每个音素的经训练的随机表示。识别器314然后将来自线320的输入特征矢量与来自字典214的每个音素串的适当的HMM 212进行比较以确定哪个字产生了最高的识别分值。由此将对应于最高的识别分值的字标识为所识别的字。

现在参考附图4，所示为根据本发明的附图2的HMM 212的一个实施例的方块图。在附图4的实施例中，HMM 212优选包括模型1(412(a))至模型N(412(c))。在变型实施例中，除了结合附图4的实施例讨论的那些元件或功能之外或作为它们的替换，HMM 212容易包括各种其它的元件或功能。

在附图4的实施例中，HMM 212容易实施以包括任何所需数量的模型412，这些模型可以包括任何所要求的类型的信息。在附图5的实施例中，来自HMM 212的每个模型412可以对应于来自预先确定的音素集的不同的特定音素以用于识别器314(附图3)。优化的广东话音素集的一个实施例将在下文结合附图6-9进一步讨论。

现在参考附图5，所示为根据本发明的一个实施例的附图2的字典214的方块图。在附图5的实施例中，字典214优选包括字1(512(a))至字N(512(c))。在变型实施例中，除了结合附图5的实施例讨论的那些元素或功能之外或作为它们的替换，字典214容易包括各种其它的元素或功能。

在附图5的实施例中，字典214容易实施以包括任何所需数量的字512，这些字可以包括任何类型的信息。在附图5的实施例中，如上文参考附图3所讨论，来自字典214的每个字512也可以包括来自预先确定的音素集的单独音素的对应的音素串。前述的音素串的单独音素优选形成字典214中的对应的字的发音的顺序表示。优化的广东话音素集的一个实施例将在下文结合附图6-9进一步讨论。

现在参考附图6，所示为根据本发明的一个实施例的优化的广东话音素集的附图。在变型实施例中，除了结合附图6的实施例讨论的那些元件或功能之外或作为它们的替换，使用其它各种元件或功能本发明容易执行语音识别。

在附图6的实施例中，音素集610包括39个单独的音素，在此这些音素表示为17个辅音音素加上闭合音素“cl”和静音音素“sil”(全部都在附图6的左侧示出)和包括双元音集的20个元音音素(全部都在附图6的右侧示出)。在附图6的实施例中，实施音素集610以表示来自南中国的广东话的语音。

由于广东话通常以汉字书写而不是罗马字母书写，因此通过利用由Lingustic Society of Hong Kong(LSHK)开发的广东话罗马字体书写方案(一般称为“jyutping”)表示附图6的音素集610(除了闭合音素“cl”和静音音素“sil”之外)。关于“jyutping”和Lingustic Society of Hong Kong的进一步信息可参见环球网cpct91.cityu.edu.hk/lshk。在变型实施例中，本发明可以利用以其它各种类型的罗马字体书写方案表示的优化的广东话音素集。

在附图6的实施例中，音素集610包括如下的辅音音素：b，d，g，p，t，k，m，n，ng，f，l，h，z，c，s，w和j。此外，音素集610也可以包括如下的元音音素：aa，i，u，e，o，yu，oe，eo，a，eu，aai，aau，ai，au，ei，oi，ou，eoi，ui和iu。在附图6的实施例中，音素集610也可以包括闭合音素“cl”和静音音素“sil”。因为使用相对较小数量的音素，所以音素集610提供了精确地识别广东话语音的有效且小型化的音素表示。

在音素集610中的单独的音素的数量的减小大大节约了在电子系统110中的处理资源和存储器。此外，总的音素的数量的减小实质上降低了与训练隐马尔可夫模型(HMM)212相关的负担。然而，在各种变型的实施例中，可以实施本发明以包括除了在附图6的实施例中所示的音素之外的各种附加的或不同的音素。

常规的汉语语音识别系统通常利用以子音节法实施的音素集，在该子音节法中每个音节都表示为韵(rime)或半音节。相反，本发明的优化的广东话音素集610有利地利用子音节语音技术，在这种子音节语音技术中将音节进一步划分为由适当的辅音音素和元音音素的组合表示的子单元以给语音表示处理提供更大的粒度。此外，音素集610表示广东话的各种声音而不利用作为不同的音素的一部分的对应的音调信息。除了提供更大的灵活性之外，前述的语音技术还具有要求在音素集610中的总的音素更少的附加优点。

根据对应的音素的特征可以将附图6的音素集610组织成各种语言类别。为了说明，下文在表1中给出一种这样的组织，表1的左边的类别对应于在右边的音素集610的音素。在变型的实施例中，音素集610还可以以不同于表1中所示的方式的各种其它方式组织。

表1：

无边界的单个状态： sil，cl

辅音 b，d，g，p，t k m n ng fl h z c s w j

无送气的辅音 b d g m n ng fl h z s w j

有送气的辅音 p t k c

辅音的 b d g p t k m n ng f h z c s

无送气的辅音的 b d g m n ng f h z s

唇音 b p m f w

齿槽音 d t n l z c s

软颚音 g k ng

滑音 w j

阻塞音(obstruent) b d g p t k f h z c s

无送气的阻塞音 b d g f h z s

响音 m n ng l w j aa i u e o yu oe eo a eu

aai aau ai au ei oi ou eoi ui iu

连续音 fl h s w j

尖锐音 z c s

鼻音 m n ng

摩擦音 f h s

近似音 l w j

塞擦音 z c

塞音 b d g p t k

有送气的塞音 p t k

无送气的塞音 b d g

前音(anterior) b d p t m n fl z c s

冠音(coronal) d t n l z c

音节 aa i e o yu oe eo a aai aau aiau

ei oi ou iu m ng

音节辅音 m ng

音节元音 aa i e o yu oe eo a aai aau ai au ei oi ou ui iu

浊音 aa i u e o yu oe eo a eu aai aau ai au

ei oi ou eoi ui iu m n ng l w j

清音 b d g p t k f h z c s

元音 aa i u e o yu oe eo a eu aai aau ai au

ei oi ou eoi ui iu

单元音 aa i u e o yu oe eo a

双元音 eu aai aau ai au ei oi ou eoi ui iu

前双元音 aai ai ei oi eoi ui

后双元音 eu aau au ou iu

圆元音 u o yu oe eo

非圆元音 aa i e a

高元音 i u yu

中元音(mid-vowel) e o oe eo

低元音 aa a

前元音 i e yu oe

中央元音(central-vowel) eo a

后元音 aa u o

现在参考附图7，所示为根据本发明的一个实施例的处理双元音的技术的附图710。在变型的实施例中，除了结合附图7的实施例讨论的那些技术或功能之外或作为它们的替换，本发明使用其它的各种技术或功能容易处理双元音。

在附图7的实施例中，通过利用单个的一体化音素优化的广东话音素集610(附图6)有利地表示双元音(两个或更多的并发元音音)。例如，在附图7的实施例中，音素集610可以包括如下的一体化的双元音音素：eu，aai，aau，ai，au，ei，oi，ou，eoi，ui和iu。本发明可以有效地利用一体化的双元音以节省处理和存储器资源。此外，因为在广东话语音中的双元音中的元音音相对较快，表示双元音作为一体化的音素可以防止在语音识别过程中的各种问题。

为了说明的目的，在附图7的实例中，方块714包括实例性广东话字“sei”。在方块716中，字“sei”以具有三个不同的单位“s”、“e”和“i”的常规语言方式表示。根据本发明，在方块718中，字“sei”仅以来自音素集610的两个音素(即“s”和“ei”)有效地表示。根据本发明，任何类型的广东话双元音(或其它的双元音)可以通过利用一体化的音素表示，如附图7的实例所示。

现在参考附图8，所示为根据本发明的一个实施例的处理唇圆音的技术的附图810。在变型的实施例中，除了结合附图8的实施例中讨论的那些技术或功能之外或作为它们的替换，本发明使用其它的各种技术或功能容易处理唇圆音。

唇圆(lip rounding)可以包括在某一辅音之后产生“w”音。在广东话中，前述的唇圆通常与“g”音或“k”音一起产生。常规的音素集通常包括“g”音素或单独的“gw”音素(唇圆变化)两者。在附图8的实施例中，优化的广东话音素集610(附图6)通过利用不同的唇圆音素“w”有利地表示唇圆音。本发明有效地利用单独的唇圆音素“w”以在语音识别过程中提供更高的精度。

此外，因为音素“w”已经存在音素集610中，因此这种技术不要求其它的处理或存储器资源来实施。通过不将唇圆音表示为单独的音素，由此将唇圆音看作是足够接近“w”音素以便确保两者的合并。

为了说明的目的，在附图8的实例中，方块814包括实例性广东话字“gwo”。在方块816中，字“gwo”以具有两个单独的单元“gw”和“o”的常规的语言方式表示。根据本发明，在方块818中，字“gwo”以来自音素集610的三个音素(即“g”、“w”和“o”)精确地表示。根据本发明，任何类型的广东话唇圆(或其它类型的唇圆)都可以通过利用单独的音素表示，如在附图8的实例中所示。

现在参考附图9，所示为根据本发明的一个实施例的处理“塞音”的技术的附图910。在变型的实施例中，除了结合附图9的实施例讨论的那些技术或功能之外或作为它们的替换，本发明使用其它的各种技术或功能容易处理塞音。

在常规的语言实践中，塞音通常被模拟成包括嘴的开始闭合，建立呼吸压力，然后以特定的辅音形式释放该压力。在广东话中，塞音可以优选地首先与对应于“b”，“d”，“g”，“p”，“t”和“k”的音关联。在附图9的实施例中，优化的广东话音素集610(附图6)根据在词组中的对应的声音环境有利地利用两种不同的技术来表示“b”，“d”，“g”，“p”，“t”和“k”。

在附图9的实施例中，方块914所示为塞音位于音节开始的音节初始环境。如附图9的图910所示，音素集610可以利用在音节初始环境中的适当的辅音音素(“b”，“d”，“g”，“p”，“t”或“k”)以表示该辅音和先前的闭合音。此外，方块916所示为塞音位于在词组的中间的字的结尾的音节最后/词组中间的环境。如附图9的图910所示，音素集610可以利用在音节最后/词组中间的环境的适当的音素(“p”，“t”或“k”)来表示辅音和先前的闭合音。此外，方块918所示为塞音位于在词组的结尾的字的结尾的音节最后/词组结尾的环境。如在附图9的图910所示，音素集610可以有效地利用在音节最后/词组结尾的环境中的相同的闭合音素“cl”来仅表示“p”，“t”或“k”中任一个作为闭合音，而不需要任何随后发出的辅音。

参考优选的实施例已经解释了本发明。根据本发明的公开其它的实施例对本领域的普通技术人员来说是显然的。例如，使用除了在上述的优选实施例中描述的结构和技术之外的结构和技术容易实施本发明。此外，本发明也可以与除了上文作为优选实施例描述的系统之外的系统一起有效地使用。因此，优选实施例的这些和其它变型希望都被仅由附加的权利要求所限定的本发明所涵盖。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 使用优化的音素集进行广东话语音识别的系统和方法 [P] . 中国专利： CN1532806B . 2010.11.03
2. 使用优化的音素集进行广东话语音识别的系统和方法 [P] . 中国专利： CN1532806A . 2004-09-29
3. System and method for cantonese speech recognition using an optimized phone set [P] . 美国专利： US7353172B2 . 2008-04-01

机译：使用优化的电话机进行广东话语音识别的系统和方法
4. System and method for cantonese speech recognition using an optimized phone set [P] . 美国专利： US2004193418A1 . 2004-09-30

机译：使用优化的电话机进行广东话语音识别的系统和方法
5. Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system [P] . 美国专利： US5751905A . 1998-05-12

机译：使用定调音素系统进行语音识别的统计声学处理方法和装置