首页> 中国专利> 基于事先知识的说话者检验及说话者识别系统和方法

基于事先知识的说话者检验及说话者识别系统和方法

摘要

客户说话者空间中的客户说话者位置被用于产生用于与测试的说话者数据或测试说话者语音模型比较的语音模型。该说话者空间能够利用训练说话者构成,训练说话者是从客户说话者人群、或从客户说话者、或从训练和客户说话者的混合整体地分离出来的。基于客户环境信息该说话者空间可重新估计以提高落在该说话者空间内的客户数据的似然性。在进入到说话者空间的该客户的登记期间,当满足预定条件时能够获得附加的客户语音。在该客户登记步骤该说话者分布同样能被使用。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-08-06

    专利权的转移 IPC(主分类):G10L17/00 变更前: 变更后: 登记生效日:20140714 申请日:20010705

    专利申请权、专利权的转移

  • 2006-04-26

    授权

    授权

  • 2003-08-27

    实质审查的生效

    实质审查的生效

  • 2002-08-28

    公开

    公开

说明书

                    技术领域

本发明一般地涉及语音技术,并且尤其涉及一种用于执行说话者检验和说话者识别的系统和方法。

                    背景技术

数百万人通过电话实施秘密的金融事务处理,例如访问他们的银行帐户或使用他们的信用卡,鉴定问题位于几乎每个事务处理的核心部分。在现行实践下的鉴定是不可靠的。该用户交换某些形式的假定秘密信息,例如社会保险编号,母亲的少女时期的姓名或者类似的。显然,这种信息能被盗用,导致错误的鉴定。

本发明的一个方面通过提供一种用于执行说话者检验的系统和方法处理上述的问题。说话者检验包括判断一个给出的声音是否属于一个确定的说话者(在这里称为“客户”)或属于一个冒充者(除了客户的任何人)。

与说话者检验问题紧密相关的是说话者识别问题。说话者识别包括使一个给出的声音与一系列已知声音中的一个相符。象说话者检验一样,说话者识别有许多有吸引力的应用。例如,一个说话者识别系统可以被用于通过一系列说话者中的说话者把声音邮件分类,这些说话者的声音抽样是可利用的。这种性能允许一个计算机执行的电话系统在一个计算机屏幕上显示在该声音邮件系统上留有消息的呼叫者的标识。    

虽然用于说话者检验和说话者识别的应用实际上是无穷的,执行这两个任务的解决方案迄今为止被证明是难以捉摸的。识别人的语音和从其他的说话者中特别地鉴别该说话者是一个复杂的问题。由于人的语音产生的方式,很少有人以相同的方式讲即使一个简单的单词两次。

人的语音是空气在压力下从肺冲击声带,并通过声门调整以产生声波,接着在由舌头、上颚、牙齿和嘴唇清晰发音之前在口腔和鼻腔内共鸣的产物。许多因素影响这些声音产生机制互相运行的方式。例如,普通的感冒大大地改变鼻腔的共鸣以及声带的声调质量。

特定的复杂性和易变性伴随着人产生语音的过程,说话者检验和说话者识别不能容易地通过比较一个新的语音与预先存储的语音抽样来实现。为了拒绝冒充者,采用一个高相似性的阈值,当他或她患感冒时可能拒绝真正的说话者。另一方面,采用一个低相似性的阈值能够使该系统倾向错误的检验。

                         发明内容

本发明利用一个以模型为基础的分析法实现说话者检验和说话者识别。模型被构成并依据已知的客户说话者的语音(或者在说话者检验的情况下同样依据一个或多个冒充者的语音)被训练。这些说话者模型典型地采用多种参数(例如隐藏马可夫模型或GMM参数)。不直接使用这些参数,而把这些参数连在一起以形成超矢量。每个发言者有一个超矢量,这些超矢量表示全体发言者的全部训练数据。

在这些超矢量执行一个线性变换导致维数减少,由此产生一个低维数空间我们称之为本征空间。本征空间的这系列矢量我们称之为“本征声音”矢量或“本征矢量”。如果希望,通过放弃一些本征矢量项该本征空间能进一步减少维度。

其次,包括训练数据的每个说话者被表示在本征空间,不是作为本征空间中的一个点就是作为本征空间中的概率分布。因为认为每个说话者没有相对变化,前者具有低精确度。后者反映每个说话者的语音从语调到语调的变化。

在本征空间上表示用于每个说话者的训练数据后,该系统能被用于执行说话者检验和说话者识别。

新的语音数据被获得并被用于构成一个超矢量,减小其维度并表示在本征空间中。估计本征空间中新的语音数据和现有数据的接近度,说话者检验和说话者识别被执行。如果在本征空间中从该说话者来的新的语音所对应的点或分布是在一个和用于客户说话者的训练数据的阈值接近度之内,该从说话者来的新的语音被检验。如果该新的语音在放置在本征空间中的时候落于靠近一个冒充者的语音,该系统可能作为真正的冒充者拒绝该新的语音。

说话者识别用相似的方式执行。新的语音数据被放置在本征空间中并识别受过训练的说话者,其用于分布的本征矢量点是最接近的。

估计本征空间中新的语音数据和训练数据之间的接近度有许多优点。首先,该本征空间用简单的、低维度方式、每个完整的说话者而不仅仅选择每个说话者的几个特征来表示。在本征空间中执行的接近度比较能被相当快速地完成,因为对于在本征空间中的的维度通常的远远少于原始说话者模型空间中的或特征矢量空间中的维度。同样,该系统不需要包括每个被用于构成原始训练数据的样本或说法的新的语音数据。通过在这里描述的技术,因为一些超矢量的分量是缺少的,在一个超矢量上执行维度减少是可能的。结果本征空间中用于分布的点仍然将特别好的代表说话者。

为了更完整的理解本发明,参照下面说明和附图描述其目的和优点。

                         附图说明

图1阐明一个典型的隐藏型马可夫模型(HMM),有助于理解本发明;

图2是一个流程图示出了本征空间构成实施说话者识别的系统的方式,这里已知的客户说话者由本征空间中的点表示;

图3是一个流程图阐明了本征空间构成实施说话者识别的系统的方式,这里客户说话者和潜在的冒充者由本征空间中的分布表示;

图4是一个流程图阐明了在训练期间利用本征空间开发执行说话者识别或说话者检验的过程;

图5是一个执行最大概似法技术的举例说明;

图6是一个数据结构图阐明了如何从基于最大概似法运算放入本征空间的一个说话者观测数据;

图7阐明了一个典型的高斯混合模型(GMM),有助于理解本发明;

图8是一个流程图示出了从被用于产生随机语音模型的本征空间的点的方式;

图9是一个流程图阐明了利用从说话者空间产生的语音模型执行识别或说话者检验的过程;

图10是一个流程图示出了一种近似法以基于口语字之间的平均间隔登记说话者到请求附加语音;和

图11是一个流程图示出了另一种近似法以基于说话者空间内的总密度登记说话者到请求附加语音。

                         具体实施方式

被本发明采用的该本征声音技术将工作于多种不同的语音模型。我们将结合一个隐藏马可夫模型识别器阐明该优选实施例,因为在现今的语音识别技术中它的普遍性。然而,应当理解能利用其他类型的基础模型识别器实行本发明,例如,语音近似性识别器。

为了更好的理解本发明的说话者识别和说话者检验,一个语音识别系统的基本的了解是有帮助的。由于现如今的语音识别系统最多的采用隐藏马可夫模型(HMM)表示语音,将在这里描述该HMM技术以使读者熟悉该技术。

该隐藏马可夫模型是一个包括状态图表的模型化法。任何语音单元(例如一个短语、单词、子字或类似的)能被模型化,所有的知识资源包括在模型中。该HMM表示一个未知的过程,该过程在不连续的时间间隔产生一序列可观测的输出,该输出由一些有限的字母构成(相应于预先确定的一组语音单元)。这些模型被称为“隐藏的”,因为该状态序列所产生的可观测的输出是不可知的。

如在图1中阐明的,一个HMM10由一组状态(S1、S2...S5)、矢量和一组概率数据举例说明,矢量定义在确定的状态对之间的转换,如图1中箭头。特别地,该隐藏马可夫模型包括一系列与转换矢量结合的转换概率12和一系列与在每个状态与可观测输出结合的输出概率14。该模型被定时在有规律地隔开的、不连续的时间间隔上从一个状态到另一个状态。在定时时间,该模型可以从它的当前状态改变到存在一个转换矢量的任何状态,如举例说明的,一个转换能从一个给定状态返回到其本身。

该转换概率表示当模型被定时时将可能发生的从一个状态到另一个状态的转换。因此,如图1中阐明的,每个转换对应于一个概率值(在0和1之间)。离开任何状态的概率的总和等于1。为了举例说明目的,在转换概率表12中给出了典型的转换概率值。应当理解在一个运行的实施例中这些值将由训练数据产生,其受到离开任何状态的概率的总和等于1的约束。

每当一个转换发生,该模型能被作为发出或输出的一个构成它的字母考虑。在图1中阐明的实施例中,一个以语音为基础的话音单元被假定。在输出概率表14中被鉴别的符号对应于标准英语中的一些语音。每次转换时这些字母中的哪个发出取决于训练期间学习的输出概率值或函数。该发出的输出从而表示一个可观测的序列(基于该训练的数据)和字母的每个都有可能被发出。

在模型化语音时,通常将输出作为一系列连续的矢量,而不是一系列单独字母符号序列。这需要该输出概率由连续的概率函数表示,而不是单个的数值。因此HMM被经常基于包括一个或多个高斯分布的概率函数实施。当多个高斯函数被使用时,如在16说明的,它们被通常的相加地混合在一起以定义一个复杂的概率分布。

无论以一个简单的高斯函数或一个高斯函数的混合表示,该概率分布能由多个参数描述。象转换概率值(表12)一样,这些输出概率参数可能包括浮点数量。参数表18基于从受过训练的说话者的观测数据鉴别通常的用于表示概率密度函数(pdf)的参数。如图1中在高斯函数16的等式所说明的,对于一个被模拟的可观测的矢量0该概率密度函数是对于每个混合的组成部分乘以该高斯密度n的混合系数的迭代和,这里该高斯密度有一个平均矢量uj和从该倒频谱(cepstral)或滤波器组系数语音参数计算的协方差矩阵Uj

一个隐藏马可夫模型的详细执行可以从一个应用到另一个应用大大地改变。在图1中的HMM例子仅仅想要阐明隐藏马可夫模型的构成方式,而不想在本发明的范围上作为限制。在这点上,在隐藏马可夫模型概念上有许多变化。从下面的描述中可以作更全面地了解,本发明的本征声音适应技术能够容易地用于每个隐藏马可夫模型,以及以其他基于参数的语音模拟系统。

图2和图3分别地举例说明了利用本发明的技术可以执行的说话者识别和说话者检验。作为在执行说话者识别或说话者检验的第一步骤,一个本征空间被构成。该特殊的本征空间依据应用构成。在图2中举例说明,在说话者识别的情况下,一系列已知的客户说话者20被用于提供训练数据22,在此基础上建立本征空间。可以选择的,对于图3中所示的说话者检验,该训练数据22被从对于所希望检验的客户说话者或说话者们21a和从一个或多个可能的冒充者21b提供。除训练数据源的区别之外,对于说话者识别和说话者检验应用二者在产生本征空间的程序上本质上是相同的。因此,图2和图3采用相似的标记。

参考图2和图3,通过为表示在训练数据22中的每个说话者开发和训练模型构成本征空间。这个步骤在24被说明并为每一个说话者产生一系列模型26。尽管在这里举例说明了隐藏马可夫模型,本发明并不被限制于隐藏马可夫模型。相反地,可以使用任何具有适合于并置的参数的任何语音模型。最好地,该被训练的模型26具有充分的训练数据以便对于每个说话者由模型定义所有的声音单元都被至少一个实际的语音的例子训练。虽然在图2和图3中没有明确的说明,该模型训练步骤24能够包括适当的辅助说话者适应性处理以改进该模型。这种辅助处理的例子包括最大后验估算(MAP)或其他以变换为基础的方法,例如最大似然线性回归(MLLR)。建立该说话者模型26的目的是准确地表示该训练数据主体,因为这个主体被用于定义本征空间的边界和范围,每个受过训练的说话者被放置在该空间,并根据该空间测试每个新语音语调。

在构成该模型26后,在步骤28适合于每个说话者的该模型被用于构成一个超矢量。如标记30所示,该超矢量可以通过连结每个说话者的模型的参数构成。当使用隐藏马可夫模型时,每个说话者的超矢量可以包括一个有序的参数列表(典型的浮点数量),该参数列表与至少一部分那个说话者的隐藏马可夫模型的参数相一致。与每个声音单元相一致的参数被包括在适合一个给定说话者的超矢量中。该参数可以用任何方便的顺序组织。该顺序不是关键性的,但是,一旦一个顺序被采用,对于所有的受过训练的说话者必须遵守。

用于构成该超矢量的模型参数的选择基于计算机系统的有效处理能力进行。当使用隐藏马可夫模型参数时,我们通过从高斯方法构成超矢量达到好的效果。如果较高的处理能力是可利用的,该超矢量同样可以包括其它参数,例如,转换概率(图1,表12)或协方差矩阵参数(图1,参数18)。如果该隐藏马可夫模型产生离散的输出(与概率密度相反),则这些输出值可以被用于组成该超矢量。

在构成该超矢量之后,一个维度降低操作在步骤32被执行。维度降低能通过任何降低该原始的高维度超矢量为基础矢量的线性变换实现。一个非穷举的例子的列表包括:首要成份分析(PCA)、独立成份分析(ICA)、线性鉴别分析(LDA)、系数分析(FA)、和单一值分解(SVD)。

更特别地,可用于实施本发明的维度降低技术定义如下。假定一系列T训练超矢量从适合于语音识别的依赖于说话者的模型获得。让这些超矢量的每一个有维度V;因此,我们能把每个超矢量表示为X=[x1,x2,...,xV]^T(一个V*1矢量)。假定一个能被施加到一个超矢量(例如,施加到维度V的任何矢量)的线性变换M以产生一个维度为E(E小于或等于训练超矢量的数量为T)的新的矢量;每个变换后的矢量可被表示为W=[w1,w2,...,wE]^T。M的参数的值用某些方式从T个训练超矢量的序列被计算。

因此,我们有线性变换W=M*X。M有维度E*V,并且W有维度E*1,这里E<=T;对于一个T个训练的超矢量的特定的序列,M是常数。几种维度降低技术可以被用于从一系列T个训练超矢量计算一个线性变换M以便W有维度E<=T。

这些例子包括首要成份分析、独立成份分析、线性鉴别分析、系数分析、和单一值分解。为了在特殊的情况下发现这样的一个常数线性变换M,本发明可以用任何这样的方法(不仅仅这些列出的)实施,其中该输入矢量是起源自依赖于说话者的模拟的训练超矢量,并且其中M被用于实施上述技术。

在步骤32产生的基础矢量定义一个由本征矢量覆盖的本征空间。维度降低为每一个受训练的说话者产生一个本征矢量。从而如果有T个受训练的说话者则该维度降低步骤32产生T个本征矢量。这些本征矢量定义所谓的本征矢量空间或本征空间。

如标记34所示组成该本征矢量空间的本征矢量中的每个本征矢量表示一个不同的维度,不同的说话者的在该维度上可能是有差别的。在原始的训练系列中的每个本征矢量能由这些本征矢量的一个线性结合表示。本征矢量通过它们在模型化该数据中的重要性排序:该第一本征矢量比第二本征矢量更重要,第二本征矢量比第三本征矢量更重要,等等。我们的就这种技术的实验至今如止显示出第一本征矢量看来对应于男性-女性维度。

虽然在步骤32产生一个最大为T个的本征矢量,实际上,放弃这些本征矢量中的几个,仅保留最重要的N个本征矢量是可能的。因此在步骤36我们随意地抽取T个本征矢量的N个以在步骤38组成一个减少的参数本征空间。由于它们通常含有对于在说话者中的鉴别不太重要的信息,该更高次序的本征矢量能被放弃。当构成受到内存或处理器资源限制的特殊系统时,降低该本征声音空间至少于受训练的说话者的总数能提供一个内在的数据压缩,这是有帮助的。

在从训练数据产生本征矢量之后,训练数据中的每个说话者被表示在本征空间中。在说话者识别的情况下,在步骤40a每个已知的客户说话者在本征空间中被表示,并且在标记42a处予以图解说明。在说话者检验的情况下,客户说话者和可能的冒充说话者被表示在本征空间中,如在步骤40b指示的和在标记42b处说明的。该说话者能作为本征空间的点(如在图2中42a的图解说明的)或本征空间中的概率分布(如在图3中42b的图解说明的)被表示在本征空间中。

                  利用该说话者识别或说话者检验的系统

在步骤44试图进行说话者识别或检验的用户提供新的语音数据并且在步骤46这些数据被用于训练一个依赖于说话者模型。接着在步骤50该模型48被使用以构成一个超矢量52。注意该新的语音数据没有必要包括每个声音单元的一个例子。例如,该新的语音发音可能太短不能包含所有声音单元的例子。该系统将处理这种情况,在下面将作更全面地解释。

在步骤54通过该超矢量52维度降低被执行,如在步骤56指示的和在标记58说明的导致一个新的数据点被表示在本征空间中。在标记58的说明中在本征空间中的先前获得的点(基于受训练的说话者)以点表示,而新的语音数据点用星号表示。

放置该新数据点在本征空间中后,现在估计它与受训练的说话者对应的其它的现有数据点或数据分布的接近度。图4举例说明了一种说话者识别和说话者检验的典型的实施例。

对于说话者识别,在步骤62该新的语音数据被指定给本征空间中最靠近的受训练的说话者,如在标记64处图解说明的。该系统将把该新的语音数据识别为在本征空间中其数据点或数据分布与该新语音数据最接近的先前受训说话者的语音。

对于说话者检验,该系统在步骤66检验该新的数据点以确定是否它在一个到本征空间中该客户说话者的预定阈值接近度之内。在步骤68,如果在本征空间中它位于到一个冒充者比到一个客户说话者更近,该系统可以作为一个安全措施,拒绝该新的说话者数据。这是在标记69处图解说明的,其中到客户说话者的接近度和到该最接近的冒充者的接近度被指示。

                     最大似然本征空间分解(MLED)技术

一种在本征空间内放置新的说话者的简单的技术是使用一种简单的投影操作。一种投影操作搜索本征空间内的一个点,该点尽可能地靠近在对应于该新的说话者的输入语音的本征空间外部的点。应指出的是,这些点实际是可从其重构一系列HMM的超矢量。

该投影操作是一种相当拙劣的技术,其不能保证本征空间内的该点对于该新的说话者是最佳的。此外,该投影操作需要对于该新的说话者的超矢量含有一个完全系列的数据以表示对于那个说话者的HMM的整个系列。这个需要引起一个重要的实际的局限性。当使用投影以约束一个新的说话者到该本征空间时,那个说话者必须提供足够的输入语音以便所有的语音单元在该数据中被表示。例如,如果隐藏马可夫模型被设计为表示英语中的所有语音,则在简单的投影技术能被使用之前该训练的说话者必须提供所有语音的例子。在许多应用中,这个约束是明显不实用的。

本发明的最大似然技术克服了简单的投影的两个上面涉及的缺点。本发明的最大似然技术搜索本征空间内的一个点,该点表示对应于一系列隐藏马可夫模型的超矢量,该系列隐藏马可夫模型具有产生该由新的说话者提供的语音的最大概率。

简单的投影操作以具有相同的重要性处理超矢量的所有分量,而最大似然技术是基于起自实际适应数据的概率并倾向于给更可能的数据以更重的权重。不像简单的投影操作,即使新的说话者不提供训练数据的一个完整的序列(例如,对于一些声音单元的数据是缺少的)最大似然技术仍将工作。实际上,最大似然技术考虑了构造超矢量的具体情况,即用于构造超矢量的隐藏马可夫模型中的一部分与其他部分相比有产生由新说话者提供的语音的更大的可能性。

实际上,该最大似然技术将在本征空间内选择与新的说话者的语音最一致的超矢量,不管多少输入语音实际上可利用。为了举例说明,假定该新的说话者是一位亚拉巴马州本地的年轻女性。通过接收几个从这个说话者发出的音节,该最大似然技术将在本征空间内选择一个点,该点表示与这个说话者的亚拉巴马州本地女性口音一致的所有语音(甚至那些在输入的话音中没有表示的语音)。

图5示出了该最大似然技术的工作方式。来自新的说话者的输入语音被用于构成超矢量70。如上面解释的,该超矢量包括一个语音参数的连接列表,对应于倒频谱系数或类似的。在该举例说明的实施例中,这些参数是浮点数量,表示从对应于该新的说话者的该系列隐藏马可夫模型抽取出来的高斯平均值。其它HMM参数同样可以被使用。如在72的举例说明中这些HMM平均值被作为点示出。当完全地填满数据时,超矢量70将含有适合于每一个HMM平均值的浮点数量,对应于每一个由该HMM模型表示的声音单元。为了举例说明目的,在这里假定适合于语音“ah”的参数是存在的而适合于语音“iy”的参数是缺少的。

该本征空间38由一系列本征矢量74、76和78表示。对应于来自该新的说话者的可观测数据的超矢量70可以在本征空间中由每个本征矢量乘以一个相应的本征值表示,本征值命名为W1,W2...Wn。这些本征值最初是未知的。该最大似然技术搜索适合于这些未知的本征值的值。如将做的全面解释,通过寻找在本征空间内最好地表示该新的说话者的最佳解决方案选择这些值。

在该本征值与该本征空间38对应的本征矢量相乘并对产生的结果求和之后,产生一个适合的模型80。该输入语音的超矢量(超矢量70)可能有一些失去的参数值(例如,该“iy”参数),而该超矢量80表示全面填充值的适合的模型。这只是本发明的一个好处。此外,超矢量80中的值表示该最佳的解决方案,也就是说表示本征空间中新的说话者的最大似然性。

各本征值W1,W2...Wn可以视为构成一个最大似然性矢量,在这里称为最大似然性矢量。图5在82说明图解的矢量。如说明所示,最大似然失量82包括这组本征值W1,W2...Wn

在图6中示出了利用最大似然性技术执行适应性的过程。来自一个新的说话者的语音包括可观测数据,如在100指示的被用于构成一组HMM。接着如在104指示的这组HMM构成一个超矢量。如所说明的,该超矢量106包括一个从该HMM模型抽取的HMM参数的连接列表。

利用该超矢量106,在108构成一个既率函数Q。该目前的优选实施例采用一个概率函数,该函数表示适合于HMM模型102的预先定义的组的产生该观测到的数据的概率。如果概率函数Q不但包括一个概率项P而且包括那个项的对数1ogP,该概率函数Q的随后的操作被比较容易地进行。

接着在步骤110该概率函数通过分别对与每个本征值W1,W2...Wn的求概率函数的导数被最大化。例如,如果该本征空间是维度为100的本征空间,这个系统计算该概率函数Q的100个导数,设定每个为零,并解出相应的W。虽然这表面上像是一个巨大的计算,它花费的计算远远少于执行成千上万个常规的MAP或MLLR技术通常需要的计算。

如此获得的Ws组表示识别本征空间中对应于最大似然性的点所需要的本征值。因此该组Ws在本征空间中构成一个最大似然性矢量。在这点上,每个本征矢量(图5中的本征矢量74、76和78)定义一组正交的矢量或坐标,本征值与其相乘以定义本征空间内的一个约束点。这个在112指示的最大似然性矢量被用于构成对应于本征空间内最佳点(图4中的点66)的超矢量114。接着超矢量114能被用在步骤116以构成新说话者的适合的模型118。

在本发明的最大似然性框架中,我们希望最大化一个关于模型λ的观测0=o1...oT的似然性。这可以通过迭代最大化辅助函数Q(下面的)完成,其中λ是迭代中的当前模型和是估算的模型。我们有: >>Q>>(>λ>,ver>>λ>^>>)>>=>>Σ>>θ>∈>statse>>>P>>(>O>,>θ>|>λ>)>>log>[>P>>(>O>,>θ>|ver>>λ>^>>)>>]>>>

作为一个最初的近似值,我们可以执行对于平均值的最大化。在概率P由一组HMMs给出的情况下,我们得到: >>Q>>(>λ>,ver>>λ>^>>)>>=>const>->>1>2>>P>>(>O>|>λ>)>>over>>Σ>states>>S>λ>over>>inλ>>>over>>Σ>mixt>>M>s>over>>gauss>>inS>>over>>Σ>time>Tover>>t>>{>>>γ>m>>>(>s>)>>>>(>t>)>>[>n>log>>(>2>π>)>>+>log>|>>>C>m>>>(>s>)>>>|>+>h>>(>>o>t>>,>m>,>s>)>>]>}>>>这里: >>h>>(>>o>t>>,>m>,>s>)>>=>>>>(>>o>t>>->>ver>>μ>^>>m>>>(>s>)>>>)>>T>>>>C>m>>>>(>s>)>>->1>>>>>(>>o>t>>->>ver>>μ>^>>m>>>(>s>)>>>)>>>>并且让:ot     是在时间t的特征矢量Cm(s)-1 是状态s的混合高斯m的反相协方差   是状态s,混合分量m的近似的适合的平均值γm(s)(t) 是P(利用混合高斯m|λ,ot)

假定适合于该新的说话者的HMM高斯平均值被定位在本征空间中。假设这个空间由该平均超矢量μj随着j=1...E覆盖。 >>ver>>μ>‾>>j>>=> >>sup>ver>>μ>‾>>1>>(>1>)>sup>>>(>j>)>>>>>sup>ver>>μ>‾>>2>>(>1>)>sup>>>(>j>)>>>>>>·>>>>>·>>>>sup>ver>>μ>‾>>m>>(>s>)>sup>>>(>j>)>>>>>sup>ver>>μ>‾>>>Ms>λ>>>(>>s>λ>>)>sup>>>(>j>)>>> >>>>其中μm(s)(j)表示该本征矢量(本征模型)j的适合于在状态s下的该混合高斯m的平均矢量。

那么我们需要: >ver>>μ>^>>=over>>Σ>>j>=>1>>Eover>>>w>j>>ver>>μ>‾>>j>>>>

该μj是正交的和该wj是我们的说话者模型的本征值。我们假定这里任何新的说话者能被模型化为一个检测的说话者的数据库的线性结合。则 >sup>ver>>μ>^>>m>>(>s>)>sup>>=over>>Σ>>j>=>1>>Eover>>>w>j>sup>ver>>μ>‾>>m>>(>s>)>sup>>>(>j>)>>>>在λ的状态用s,在M的混合高斯中用m。

既然我们需要最大化Q,我们只需要设定 >>>>∂>Q>>>>∂>w>>e>>>=>0>,>e>=>1>.>.>.>E>,>>>(注意因为该本征矢量是正交的,)因此我们有 >>>>∂>Q>>>>∂>w>>e>>>=>0>=>over>>Σ>states>>S>λ>over>>inλ>>>over>>Σ>mixt>>M>s>over>>gauss>>inS>>over>>Σ>time>Tover>>t>>{>>∂>>∂>>w>e>>>>>>γ>m>>>(>s>)>>>>(>t>)>>h>>(>>o>t>>,>s>)>>}>,>e>=>1>.>.>.>E>.>>>计算上面的导数,我们有: >>0>=>>Σ>s>>>>Σ>m>>>Σ>t>>sup>>γ>m>>(>s>)>sup>>>(>t>)>>{>-sup>ver>>μ>‾>>m>>>(>s>)>>T>sup>>>(>e>)>sup>>C>m>>>(>s>)>>->1>sup>>>o>t>>+over>>Σ>>j>=>1>>Eover>>>w>j>sup>ver>>μ>‾>>m>>>(>s>)>>T>sup>>>(>j>)>sup>>C>m>>>(>s>)>>->1>sup>sup>ver>>μ>‾>>m>>(>s>)>sup>>>(>e>)>>}>>>由此我们导出这组线性方程式 >>>Σ>s>>>Σ>m>>>Σ>t>>>>γ>m>>>(>s>)>>>>(>t>)>>>ver>>μ>‾>>m>>>>(>s>)>>T>>>>(>e>)>>>>C>m>>>>(>s>)>>->1>>>>o>t>>=>>Σ>s>>>Σ>m>>>Σ>t>>>>γ>m>>>(>s>)>>>>(>t>)>over>>Σ>>j>=>1>>Eover>>>w>j>>>ver>>μ>‾>>m>>>>(>s>)>>T>>>>(>j>)>>>>C>m>>>>(>s>)>>->1>>>>ver>>μ>‾>>m>>>(>s>)>>>>(>e>)>>,>e>=>1>.>.>E>.>>>

                    估算本征空间中的接近度

当在本征空间中以点表示说话者时,一种简单的几何距离计算能被用于识别最靠近该新的说话者的训练数据说话者。当在本征空间中以分布表示说话者时,通过将该新的说话者数据作为一个观察0,并通过检测每个分布候选者(表示该受训练的说话者),以确定该候选者产生该观测数据的概率来估算接近度。具有最高概率的候选者被估算为具有最靠近的接近度。在一些高安全性的应用中,如果该最高可能性的候选者有一个低于预定阈值的概率值,可拒绝检验。一个成本函数可以被用于排除缺少高度必然性的候选者。

如上所述,估算该新的说话者到该受训练的说话者的接近度可以在本征空间内被完整地执行。可以选择的,为了较大的准确度一种贝叶斯估计技术能被使用。

利用贝叶斯估计以提高该接近度估算,本征空间内的受训练的说话者的高斯密度被乘以在正交补空间中估算的边界密度,正交补空间表示通过维度降低删除的说话者数据。在这点上,认为通过该说话者模拟超矢量执行维度降低导致一个重要的从一个高维度空间到低维度空间的数据压缩。虽然维度降低保存最重要的基础矢量,一些较高次序的信息被删除。该贝叶斯估算技术估计一个对应于这个删除的信息的边界高斯密度。

为了举例说明,假定该原始的本征空间通过一个维度降低处理由超矢量的线性变换构成,借此从较大数目N的所有分量中抽取M个分量。该较少的抽取的M个分量表示一个对应于最大的本征值的该基本变换的低维度子空间。因此,该本征空间由i=1...M的分量定义,而删除的次要的分量对应于i=M+1...N。这两组分量定义两个互不相交的和互补的子空间,该首要的子空间表示重要的本征空间并且其正交分量表示通过维度降低被删除的数据。

我们能通过下面的方程式计算在这两个分别的正交空间中的高斯密度的积,作为似然性估计。 >ver>>P>^>>>(>x>|>Ω>)>>=>>P>E>>>(>x>|>Ω>)>>*>>Pver>>E>>.>.>>>>>(>x>|>Ω>)>>>>

在上面的等式中,第一项是本征空间E中的单个高斯密度和第二项是与该本征空间正交的空间中的单个高斯分布。这些项能从这组训练数据中只利用到本征空间的投影和残数被完整地估算。

                           其他实施例

在前面的例子中,语音被作为隐藏马可夫模型(HMM)表示。被采用的隐藏马可夫模型如今在许多语音识别中普遍使用,并且由此它们能被很好地用于说话者检验和说话者识别目的。然而,本发明的技术并不限于隐藏马可夫模型的使用。例如,一种对于说话者检验和/或说话者识别的有用的和有效的系统可以利用高斯混合模型(GMM)实施。高斯混合模型是一种单一状态模型,其可以通过不依赖于文本的或依赖于文本的训练数据被训练。比较而言,典型的隐藏马可夫模型有多于一个的状态并根据用于训练数据的文本作了标记的语音数据被训练。高斯混合模型可以由此被看作是隐藏马可夫模型的一种特殊情况,在这里仅有一个单一的状态被使用并且在这里训练数据不需要被作标记。

高期混合模型(GMM)可以被用于说话者识别和检验目的并通过赋值个别的高斯分量以表示宽的声音等级。该等级可以表示与说话者有关的对于模拟说话者识别有用的声域结构。该高斯混合密度提供一个平滑的近似值到下面的从一个给出的说话者说的话获得的观察的长项抽样分布。参见Reynolds,D.A.,“利用高斯混合说话者模型的说话者识别和说话者检验(Speaker Identification AndSpeaker Verification Using Gaussian Mixture Speaker Modules)”,SpeechCommunication,Vol.17,pp.91-108,1995。

一个高斯混合密度是M个分量密度的加权的和并由该等式给出。 >>f>>(ver>>x>‾>>)>>=over>>Σ>>i>=>1>>Mover>>>p>i>>>b>i>>>(ver>>x>‾>>)>>>>这里x是一个D维矢量,i=1,...,M是分量密度和pi,i=1,...,M是混合加权。每个分量密度是一个D变量高斯函数, >>>b>i>>>(ver>>x>‾>>)>>=>>1>>>>(>2>π>)>>>D>/>2>>>>>|>>Σ>i>>|>>>1>/>2>>>>>>e>>{>->>1>2>>>>(ver>>x>‾>>-sup>>μ>1>bsup>>)>>>Tsup>>Σ>i>>->1>sup>>>>>(ver>>x>‾>>-sup>>μ>1>bsup>>)>>}>>>>>用该平均矢量μ1和协方差矩阵∑1.该混合的加权进一步满足的约束。该全部的GM密度通过该平均矢量用参数、协方差矩阵和来自所有分量密度的混合加权表示。λ={pi,μi,∑i},i=1,...,M

此外,应当理解虽然在这里举例说明了HMM和GMM,同样可以使用其它类型的语音模型。用于这个目的的最好的模型是那些由数字表示的(例如,象浮点数量)以便一个说话者空间能被以数学方法定义的模型。为了举例说明目的,在图7中说明一个GMM模型120。

在前面的例子中,说话者空间由一个本征声音的线性组合表示。然而,本发明的技术并不限于一个这种类型的说话者空间。一般地说,说话者空间是一组衍生自一组受训练的说话者的数学上的约束并表示一个新的说话者必须满足的现有知识。除了基于说话者空间的本征声音之外,其它方法包括(但并不限于)“参考说话者加权”(见Hazen,T.J.,和Glass,J.R.,“用于瞬间说话者适应性的新技术的比较”(“A Comparison of Novel Techniques for InstantaneousSpeaker Adaptation”),pp.2047-50,1997)和说话者分组(见Kosaka,T.,和Sagayama,S.,“用于快速适应性的树结构说话者分组”(“Tree-StructuredSpeaker Clustering for Fast Speaker Adaptation”),ICASSP pp.1-245至1-248,1994)。

图8举例说明了同样可以选择的构成该说话者空间,在说话者空间中表示登记的语音,并确定是否该检验的说话者是客户说话者之一的其他实施例。在开始时,关于该说话者空间构建的一个重要的考虑涉及受训练的说话者122的选择。虽然客户说话者124能被用于收集该训练的数据22,通过利用一个第二组个人作为该训练的说话者122能获得某些优点。例如,这种方法允许该受训练的说话者122任意地多,并将通常允许更多不同的训练数据。例如,付费的个人或志愿者能被预先的从远远大于客户说话者群的一个人群中选择。该选择的受训练的说话者的人群与由客户说话者124(除了他们说话的能力)定义的人群没有特殊的关系。每个受训练的说话者将提供训练语音的相当大的抽样。基于训练得相当好的语音模型,这将允许一个更多不同的说话者空间的构成,并将允许来自该客户说话者124的数据量的大幅度降低。因此,在客户登记步骤,只需要几秒自每个客户的语音,而不是几分钟。这是该说话者空间方法的主要优点。

步骤132说明了训练说话者空间的过程。如上论述的,结果是一组在126举例说明的GMM语音模型(最好不依赖于文本)或如上面论述的与依赖于文本的语音模型。因此,虽然在这里举例说明了高斯混合模型,本发明不限于高斯混合模型(或隐藏马可夫模型,对于这个问题)。相反地,可以使用任何具有适合于连接的参数的语音模型。

该语音模型可以进一步被微调或匹配,以考虑在训练期间使用的环境和随后用于说话者检验和/或说话者识别期间使用的环境之间的区别。通常地,训练数据在受控制的状态下(已知背景噪音质量、标准化的话筒和信号处理设备、受控制的话筒布局,等等)被收集。使用中,例如,该系统可以被配置在办公室环境中,这里的环境状态与那些训练的环境完全不同。为了适应这种改变,一种环境适应过程可以被使用以改进训练说话者模型,使之适应于一个给出的环境中的特殊用途。为了这个目的MLLR适配可以被使用。其它已知的适配技术可以被同样使用。

在当前的优选实施例中,每个说话者的模型被使用以建立一个超矢量。该超矢量可以通过并置每个说话者的模型的参数形成。当使用高斯混合模型时,对于每个说话者用于表示该高斯混合的浮点数量可以被连接。

在构成超矢量之后,一种降低一个适合于一个特定说话者的语音模型中的自由度的数量的技术被应用。这种技术用于受训练的说话者数据以产生一个降低的维度的说话者空间。虽然任何这样的技术能被使用,线性判别式分析(LDA)在这里被示出并被必然的优先选用。因此,除该超矢量之外,步骤132使用完全的在说话者之内的散射矩阵数据130。这是值得注意的因为这种类型的数据通常不是一个说话者的与说话者有关的模型的一部分。

在例如PCA或LDA的技术产生一组最初的基础矢量134后,一个重新估算说话者空间的可选择的步骤136能被执行。在这里,一种例如MLES的技术可以在空间上旋转基础矢量134以便该空间中根据的受训练的说话者模型的训练数据的似然性被最大化。结果将是一组改进的基础矢量138。MLES技术的细节在下面给出。

在产生说话者空间之后,该系统可以被使用以登记一个或多个客户说话者以便与这些客户说话者有关的说话者识别和/或说话者检验可以被执行。在步骤140登记被执行,在那里每个客户说话者被基于一个登记语音的短的话语表示在说话者空间中。如上面论述的,这通过在来自客户说话者的登记语音(可能象几个单词一样少)上训练一个登记语音模型完成,并且接着通过MLED或投影放置该客户说话者到该说话者空间。如果像预期的,例如MLLR的说话者或环境适配技术可以被采用以改进一个或多个客户说话者的语音模型,或者去重新估算该说话者空间以便它更好地模拟该新的环境(例如,记录有客户说话者的环境)。

在这点上,该说话者空间的能力可以被更全面地估计。当该客户说话者提供一个非常短的语音抽样时,这没有足够的数据去构成一个适合于那个说话者的完整的模型。尽管如此,如由MLED程序(或通过投影)指示的,通过在它的正确的位置放置部分的模型到说话者空间中,该说话者空间将详细地填充,允许随后产生一个适合于那个说话者的完整的模型。

在该说话者空间被产生和所有的客户说话者被登记之后,该系统准备使用。为了在一个测试说话者上执行说话者检验或说话者识别,一个语音抽样被从那个说话者获得并利用登记的说话者估算说话者空间。在前述的例子中,通过放置该测试说话者的语音到说话者空间执行说话者识别和说话者检验,以通过适当的距离测量确定该测试说话者靠近的客户说话者。下面将描述—种替换的技术。

代替放置测试说话者到说话者空间,该替换的技术扩展说话者空间内的该客户说话者矢量返回到完整的语音模型。上面提到,即使该最初的客户登记语音非常短(完全可能导致不完全的语音模型)说话者空间中的点将产生完整的语音模型。这是因为该原始的说话者空间含有大量关于人类语音特性的现有知识。换句话说,仅仅有几个来自一个客户说话者的被讲的单词就足以放置那个客户说话者到该说话者空间中。在那里一个完全地和完整地语音模型被推断。

在该替换的技术中,说话者空间内的每个客户说话者点被用于产生其相应的完整的语音模型。接着,面对着来自该测试说话者的语音该客户说话者模型的每一个被估算。为了说话者识别和/或说话者检验目的,具有产生该测试语音的最高概率的客户模型被使用。

在图8中步骤144示出了说话者空间矢量中的该客户说话者的位置的扩展返回到语音模型中。特别地,该对应的完整的语音模型146从说话者空间142中它们的位置被产生。这些模型被用于随后的说话者检验和/或说话者识别。这些模型的每一个面对着由一个测试说话者(系统的用户)提供的测试语音被测试。为了随后的说话者检验和说话者识别目的,具有产生该测试语音的最高的概率的模型被使用。图9图解地说明了说话者模型被用于估算该测试语音的过程。在步骤148由测试的说话者提供的语音数据150被提交到作为一个似然性分析一部分的概然客户说话者模型146。每个测试的说话者被指定到那个得到产生他的或她的语音的最高的似然性的客户;可选择地,该测试的说话者可以被归为一个冒充者。因此,最后的估算不是发生在说话者空间而是在模型空间中。

同样值得注意的是该说话者空间可在客户登记期间随着新的语音的获得被调整。如果客户环境不同于原始的训练环境(象常见的一样),环境适应能被执行。例如,由于训练得到的说话者空间产生代表或表示说话者之间的可变性的模型,这些模型能被用于估计一个环境错配函数并应用这个函数到该说话者空间(例如,作为一个线性变换)。这将防止测试环境的不相关特征干扰说话者检验和说话者识别。

                    困难的客户说话者的登记

即使本发明通常需要非常少的登记语音,向少数易出故障的(例如,不稳定的)客户要求更多的客户数据可能有益于总性能。这样做是因为,实际上通常一小组特殊客户说话者引起大多数的错误识别。在现在的方法中,在他们登记和那些客户需要更多语音的时侯这些客户被识别。换句话说,当该登记语音满足预定的条件时,依据从该客户说话者附加的语音该登记语音模型能被容易地训练。例如,图10示出了该预定的环境能被定义为包括该说话者空间中的一个第一言论的位置,该位置离该说话者空间中第二言论的位置是一个预定距离。如果该平均的说话者之间的距离远远大于两个位置的平均值,该客户由此要求更多的登记数据。如图11中所示,该预定的环境同样能被定义为包括该第一位置,其位于说话者空间的具有一个预定密度的一个区域内(例如,一个“密集的”区域)。在这种情况下,一种例如MLED的方法允许关于说话者空间中说话者分布的现有信息被考虑。这个分布能够从该训练数据或从该登记数据被估计。

                         MLES说话者空间重新估计

象上面介绍的,说话者空间技术限制该说话者模型到一个维度非常低的线性矢量空间,被称之为说话者空间。该说话者空间概括一个关于最初的系统训练期间获得的说话者模型的现有知识。如上论述的,虽然该说话者空间在其最初产生形状期间将充当一个用于说话者识别和说话者检验的有利的工具,通过一种被称作最大似然性本征空间(MLES)的技术对该说话者空间作附加的改进是可能的。该MLES方法在该训练数据上执行重新估计。它导致在该说话者空间内的该矢量被旋转,以便该训练数据的似然性根据在该空间中的受训练的说话者模型被最大化。该MLES技术通过在估计程序中作为隐藏数据的积分值开始,得到: >ver>>M>^>>=>arg>>max>M>over>>Σ>>q>=>1>>Tover>>∫>log>L>>(>O>,>w>|>M>)>>>P>O>>>(>W>,>q>)>>dW>>>在那里Po(W,q)包含关于说话者q的现有信息(例如,显示一个给出的方言或性别的可能性)。它被广泛地用于说话者不稳定的组。例如,我们可以设定为一个给出的K种子说话者能够通过PCA、线性判别式分析(LDA)、说话者分组声音获得,或能够作为一组与说话者有关的模型给出。当没有关于wK的特殊的知识是已知的时,我们使用MLED以由一个最大算子代替该积分算子。

                该重新估计公式是相对地容易导出 >sup>ver>>μ>‾>>q>>(>m>)>sup>>=>>>>Σ>q>>>L>q>sup>>w>q>>(>e>)>sup>>>Σ>t>>>γ>m>>>(>t>)>>{>>o>t>>-sup>ver>>μ>‾>>q>>(>m>)>sup>>>(>e>)>>}>>>>Σ>q>>>L>q>>>>(sup>>w>q>>(>e>)>sup>>)>>2>>>Σ>t>>>γ>m>>>(>t>)>>>>>>

其中q,m,e表示一个说话者,一个分布,和一个说话者空间基础矢量。Lq是该说话者的言论O(e)的后面的概率,Lq,γm(t)是观测的后面的概率,Wq(e)是说话者q的第e个坐标的当前的估计。最后,μq-(m)是该估计的平均数的补,例如 >sup>>μ>q>>->>(>m>)>>sup>>>(>e>)>>=over>>Σ>>k>=>1>,>k>≠>e>>Eover>sup>>w>q>>(>k>)>sup>sup>ver>>μ>‾>>k>>(>m>)>sup>>,>e>=>1>,>.>.>.>,>E>.>>>

从前述的可以理解本发明提供了用于说话者检验和/或说话者识别的强有力的技术。虽然在这里阐明了本发明的几个例子,本领域普通技术人员应当理解许多的其它变化可能在附加的权利要求的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号