公开/公告号CN112673422A
专利类型发明专利
公开/公告日2021-04-16
原文格式PDF
申请/专利权人 日本电信电话株式会社;
申请/专利号CN201980058863.5
申请日2019-08-28
分类号G10L15/22(20060101);G10L15/16(20060101);G10L25/78(20130101);
代理机构11105 北京市柳沈律师事务所;
代理人徐晨宇
地址 日本东京都
入库时间 2023-06-19 10:36:57
技术领域
本发明涉及估计在关键字的发音后是否连续地说出目标音的技术。
背景技术
例如在智能扬声器或车载系统等能够基于声音进行控制的机器中,有时搭载了被称为关键字唤醒的功能,该功能在成为触发的关键字被发音时开始声音辨识。在这样的功能中,需要以声音信号作为输入并检测关键字的发音的技术。
图1是非专利文献1中公开的现有技术的结构。在现有技术中,如果关键字检测单元91从被输入的声音信号检测出关键字的发音,则目标音输出单元99使开关接通,将该声音信号作为成为声音辨识等的对象的目标音输出。此外,应答音输出单元92在检测出关键字时输出应答音,使利用者知晓检测出关键字的发音。此时,为了对各处理的定时进行控制,也可以还具备延迟单元93,使关键字检测单元91的输出(参考图1A)或者输入声音(参考图1B)延迟。
现有技术文献
非专利文献
非专利文献1:Sensory,Inc.,“TrulyHandsfreeTM”,[在线(online)],[平成30年8月17日检索],互联网
发明内容
发明要解决的课题
但是,在现有技术中,除了在说出关键字后等待应答音之后说出目标音的利用方法之外,还可能有连续地说出关键字和目标音的利用方法。设想等待应答音之后说出目标音的利用方法,在应答音之后设定了目标音区间的起始位置的情况下,会产生如果利用者连续地说出关键字和目标音则目标音的话头被截断这样的问题。此外,设想连续地说出关键字和目标音的利用方法,在关键字发言的紧后设定了目标音区间的起始位置的情况下,存在应答音与目标音的发言在时间上重叠而成为难以进行声音辨识的声音这样的问题。
本发明的目的是,鉴于上述那样的技术课题,自动地判别在说出关键字后等待应答音之后说出目标音的利用方法与连续地说出关键字和目标音的利用方法,并对应于各利用方法恰当地使操作变化。
用于解决课题的手段
为了解决上述的课题,本发明的第一方式的连续发言估计装置包含:关键字检测单元,生成表示从输入声音检测出特定的关键字的发音的结果的关键字检测结果;声音检测单元,生成表示从输入声音检测出声音区间的结果的声音区间检测结果;以及连续发言检测单元,在关键字检测结果表示检测出关键字且声音区间检测结果表示检测出声音区间的情况下,生成表示是连续发言的连续发言检测结果。
发明效果
根据本发明,能够自动地判别在说出关键字后等待应答音之后说出目标音的利用方法与连续地说出关键字和目标音的利用方法,因此能够对应于各利用方法恰当地使操作变化。
附图说明
图1是例示以往的关键字检测装置的功能结构的图。
图2是用于说明发明的原理的图。
图3是例示第一实施方式的连续发言估计装置的功能结构的图。
图4是例示第一实施方式的连续发言估计方法的处理过程的图。
图5是例示第二实施方式的连续发言估计装置的功能结构的图。
图6是例示第三实施方式的连续发言估计装置的功能结构的图。
图7是例示第四实施方式的连续发言估计装置的功能结构的图。
图8是例示第五实施方式的连续发言估计装置的功能结构的图。
图9是例示第六实施方式的连续发言估计装置的功能结构的图。
具体实施方式
在现有技术中,难以应对于在说出关键字后等待应答音之后说出目标音的利用方法与连续地说出关键字和目标音的利用方法这双方。如果设想在说出关键字后等待应答音之后说出目标音的利用方法而在检测出关键字时发出应答音,则在利用者设想连续地说出关键字和目标音的利用方法而进行了发言的情况下,应答音与目标音重叠,这成为主要的问题点。
本发明的课题在于,自动地判别在说出关键字后等待应答音之后说出目标音的利用方法与连续地说出关键字和目标音的利用方法,并基于该判别结果使目标音区间的起始位置或是否发出应答音变化,进行对各利用方法而言恰当的操作。具体而言,在判别为在说出关键字后等待应答音之后说出目标音的利用方法的情况下,首先发出应答音,从应答音发出结束后设为目标音区间(参考图2A)。此外,在判别为连续地说出关键字和目标音的利用方法的情况下,不发出应答音,而从关键字发言结束紧后设为目标音区间(参考图2B)。
以下,针对本发明的实施方式详细地进行说明。另外,在附图中对具有相同的功能的结构单元附加相同的序号,并省略重复说明。
[第一实施方式]
第一实施方式的连续发言估计装置1以利用者的声音(以下称为“输入声音”)作为输入,输出对输入声音中是否包含关键字的发音进行判定而得到的关键字检测结果、以及对关键字的发言之后是否包含连续的发言进行判定而得到的连续发言检测结果。连续发言估计装置1如图3所示,具备关键字检测单元11、声音检测单元12以及连续发言检测单元13。该连续发言估计装置1通过进行图4所示的各步骤的处理来实现第一实施方式的连续发言估计方法S1。
连续发言估计装置1例如是在具有中央运算处理装置(中央处理单元(CPU:Central Processing Unit))、主存储装置(随机存取存储器(RAM:Random AccessMemory))等的公知或者专用的计算机中读入特殊的程序而构成的特殊的装置。连续发言估计装置1例如基于中央运算处理装置的控制来执行各处理。向连续发言估计装置1输入的数据或在各处理中得到的数据例如被储存在主存储装置中,主存储装置中储存的数据根据需要被向中央运算处理装置读出并利用于其他处理。连续发言估计装置1的各处理单元也可以是至少一部分由集成电路等硬件构成。
以下,参考图4,针对第一实施方式的连续发言估计装置所执行的连续发言估计方法进行说明。
在步骤S11中,关键字检测单元11从输入声音检测预先决定的特定的关键字的发音。关键字的检测例如通过使用事先学习的神经网络,判定以短时间的周期求出的功率谱的模式(pattern)是否与事先收录的关键字的模式类似来进行。关键字检测单元11将表示检测出关键字或者未检测出关键字的关键字检测结果向连续发言检测单元13输出。
在步骤S12中,声音检测单元12从输入声音检测声音区间。声音区间的检测例如如下进行。首先,根据输入声音的长时间平均来求出稳态噪声级(stationary noise level)N(t)。接着,对稳态噪声级N(t)乘以特定的常数α来设定阈值。并且,将短时间平均级P(t)大于阈值的区间检测为声音区间。此外,也可以通过将谱(spectrum)或倒谱(cepstrum)的形状与声音的特征是否一致也加入判定要素那样的方法,来检测声音区间。声音检测单元12将表示检测出声音区间或者未检测出声音区间的声音区间检测结果向连续发言检测单元13输出。
在短时间平均级P(t)的计算中,计算施加了平均的关键字发言时间T的矩形窗而得到的均方根功率(root mean square power)、或乘以指数窗而得到的均方根功率。如果将离散时刻t的功率设为P(t),将输入信号设为x(t),则成为:
[数1]
P(t)=αP(t-1)+(1-α)x(t)
其中,α是遗忘系数,预先设定0<α<1的值。α被设定以使时间常数成为平均的关键字发言时间T(样本)。即,α=1-1/T。或者也可以如下式那样,计算施加了关键字发言时间T的矩形窗而得到的绝对值平均功率、或乘以指数窗而得到的绝对值平均功率。
[数2]
P(t)=αP(t-1)+(1-α)|x(t)|
在步骤S13中,连续发言检测单元13在关键字检测单元11所输出的关键字检测结果表示检测出关键字且声音检测单元12所输出的声音区间检测结果表示检测出声音区间的情况下,判定为是连续发言。关键字检测单元11所进行的关键字检测会发生数百毫秒程度的延迟,因此在关键字检测的处理结束的时刻,关键字的发言已结束。从而,根据在检测出关键字的时刻有无声音区间,能够判定有无连续发言的话头。连续发言检测单元13将表示检测出连续发言或者未检测出连续发言的连续发言检测结果,与关键字检测单元11所输出的关键字检测结果一起作为连续发言估计装置1的输出。
通过这样构成,根据第一实施方式,能够判定在关键字的发言之后有无连续的发言,因此基于连续发言估计装置1所输出的连续发言检测结果,能够使目标音区间的起始位置或是否发出应答音变化。
[第二实施方式]
第二实施方式的连续发言估计装置2与第一实施方式同样,以利用者的声音作为输入,输出关键字检测结果和连续发言检测结果。连续发言估计装置2如图5所示,除了第一实施方式的关键字检测单元11、声音检测单元12以及连续发言检测单元13之外,还具备延迟单元21。
延迟单元21向关键字检测单元11所输出的关键字检测结果赋予延迟。该延迟用于在关键字检测的延迟对于判定有无连续发言的话头而言过短的情况下,向关键字检测单元11的输出赋予与不足相应的延迟。在对于判定有无连续发言的话头而言恰当的延迟是X时,在关键字检测的延迟是Y的情况下,设定X-Y的延迟。
通过这样构成,根据第二实施方式,能够在恰当的定时对有无连续发言进行判定。
[第三实施方式]
第三实施方式构成为:基于第一实施方式或者第二实施方式的连续发言检测结果,使是否发出应答音变化。考虑在检测出关键字时,为了使利用者知晓检测出关键字,而发出应答音。在与关键字连续地发出目标音的情况下,由于在发出应答音之前目标音被说出,因此无需应答音。此外,如果在该情况下发出应答音,则应答音与目标音重叠,因此对声音辨识等造成不佳状况。因此,在第三实施方式中,在检测出关键字时如果检测出连续发言则不发出应答音,在检测出关键字时如果未检测出连续发言则发出应答音。
第三实施方式的连续发言估计装置3以利用者的声音作为输入,在从输入声音检测出关键字时未检测出连续发言的情况下,发出应答音。连续发言估计装置3如图6所示,具备附带连续发言检测的关键字检测单元10、开关单元20以及应答音输出单元30。
附带连续发言检测的关键字检测单元10具体而言与第一实施方式的连续发言估计装置1或者第二实施方式的连续发言估计装置2同样地构成。即,附带连续发言检测的关键字检测单元10至少具备关键字检测单元11、声音检测单元12以及连续发言检测单元13,以利用者的声音作为输入,输出关键字检测结果和连续发言检测结果。
开关单元20控制是否将附带连续发言检测的关键字检测单元10所输出的关键字检测结果向应答音输出单元30传达。在附带连续发言检测的关键字检测单元10所输出的连续发言检测结果为真的情况下(即,在检测出连续发言的情况下),不将关键字检测结果向应答音输出单元30传达,而在连续发言估计结果为伪的情况下(即,未检测出连续发言的情况下),将关键字检测结果向应答音输出单元30传达。
应答音输出单元30在从开关单元20被传达了表示检测出关键字的关键字检测结果的情况下,输出特定的应答音。
通过这样构成,根据第三实施方式,在接续于关键字进行了连续发言的情况下,不发出不需要的应答音,能够防止声音辨识等的精度劣化。
[第四实施方式]
第四实施方式构成为:基于第一实施方式或者第二实施方式的连续发言检测结果,使目标音区间的起始位置变化。在连续地说出关键字和目标音的利用方法中,设想由于关键字检测的延迟,在检测关键字之前,目标音的发言已开始。因此,在检测出关键字时,需要回溯时间来切出目标音。在说出关键字后等待应答音之后说出目标音的利用方法中,为了切出比应答音靠后的部分作为目标音,需要从自检测出关键字的时刻经过了与应答音的长度相应的时间后的时刻起切出目标音。如果不这样,则应答音与目标音重叠,对声音辨识等产生不佳状况。
第四实施方式的连续发言估计装置4以利用者的声音作为输入,在从输入声音检测出关键字时检测出连续发言的情况下,从关键字发言紧后输出目标音,在从输入声音检测出关键字时未检测出连续发言的情况下,从应答音发出结束后输出目标音。连续发言估计装置4如图7所示,除了第三实施方式的附带连续发言检测的关键字检测单元10之外,还具备延迟单元41、43、开关单元42、44以及目标音输出单元45。
延迟单元41向附带连续发言检测的关键字检测单元10所输出的关键字检测结果赋予与应答音的长度相应的延迟。
开关单元42在延迟单元41所输出的延迟后的关键字检测结果表示检测出关键字的情况下,使开关接通,将输入声音向目标音输出单元45输出。即,进行操作以使开关从应答音发出结束后接通。
延迟单元43向输入声音赋予相当于附带连续发言检测的关键字检测单元10所进行的关键字检测的延迟的延迟。
开关单元44在附带连续发言检测的关键字检测单元10所输出的关键字检测结果(即,未被延迟的关键字检测结果)表示检测出关键字的情况下,使开关接通,将延迟单元43所输出的延迟后的输入声音向目标音输出单元45输出。即,进行操作以使开关从关键字发言紧后接通。
目标音输出单元45选择开关单元42和开关单元44的输出之中的其中一方,作为目标音输出。具体而言,目标音输出单元45在附带连续发言检测的关键字检测单元10所输出的连续发言检测结果为真的情况下(即,在检测出连续发言的情况下),选择开关单元44的输出(即,从关键字发言紧后的输入声音),在连续发言检测结果为伪的情况下(即,在未检测出连续发言的情况下),选择开关单元42的输出(即,从应答音发出后的输入声音),作为目标音输出。通过这样,在检测出关键字时检测出连续发言的情况下,从关键字发言紧后输出目标音,在检测出关键字时未检测出连续发言的情况下,从应答音发出结束后输出目标音。
通过这样构成,根据第四实施方式,在接续于关键字进行了连续发言的情况下,将从关键字发言紧后的输入声音作为目标音输出,能够防止在声音辨识等中话头被截断。此外,在说出关键字后输出了应答音之后说出目标音的情况下,将从目标音发出结束后的输入声音作为目标音输出,能够防止由于应答音的重叠导致声音辨识的劣化。
[第五实施方式]
第五实施方式是将第三实施方式与第四实施方式组合而成的结构。第五实施方式的连续发言估计装置5以利用者的声音作为输入,在从输入声音检测出关键字时检测出连续发言的情况下,从关键字发言紧后输出目标音,在从输入声音检测出关键字时未检测出连续发言的情况下,发出应答音,从应答音发出结束后输出目标音。
连续发言估计装置5如图8所示,具备第三实施方式的附带连续发言检测的关键字检测单元10、开关单元20以及应答音输出单元30、以及第四实施方式的延迟单元41、43、开关单元42、44以及目标音输出单元45。各处理单元的操作与第三实施方式以及第四实施方式是同样的。
[第六实施方式]
第六实施方式的连续发言估计装置6以多声道的声音作为输入,输出各声道的关键字检测结果和连续发言检测结果。连续发言估计装置6如图9所示,具备与输入声音的声道数M(≥2)相应的第一实施方式的关键字检测单元11以及连续发言检测单元14的组,还具备M声道输入输出的多输入声音检测单元62。
多输入声音检测单元62以多声道的声音作为输入,针对1以上且M以下的各整数i,将从声道i的声音信号检测出声音区间的声音区间检测结果向连续发言检测单元14-i输出。多输入声音检测单元62通过在声道间对声音级信息进行交互,能够更准确地检测声音区间。多声道输入的声音区间检测的方法能够使用下述参考文献1中记载的方法等。
〔参考文献1〕日本特开2017-187688号公报
通过这样构成,根据第六实施方式,在输入了多声道的声音信号时,能够高精度地检测声音区间,结果提高了连续发言估计的精度。
以上,针对本发明的实施方式进行了说明,但具体的结构不限于这些实施方式,即使在不脱离本发明的宗旨的范围内适宜进行设计的变更等,也显然包含在本发明中。在实施方式中说明的各种处理不仅按照记载的顺序以时间序列执行,也可以根据执行处理的装置的处理能力或者根据需要而并行地或者单独地执行。
[程序、记录介质]
在由计算机实现上述实施方式中说明的各装置中的各种处理功能的情况下,各装置应具有的功能的处理内容通过程序被描述。并且,通过由计算机执行该程序,上述各装置中的各种处理功能在计算机上实现。
描述了该处理内容的程序能够事先被记录于能够由计算机读取的记录介质。作为能够由计算机读取的记录介质,例如也可以是磁记录装置、光盘、光磁记录介质、半导体存储器等任何介质。
此外,该程序的流通例如通过将记录了该程序的DVD、CD-ROM等可移动型记录介质销售、转让、借出等来进行。进而,也可以构成为:将该程序事先储存于服务器计算机的存储装置,经由网络,从服务器计算机向其他计算机转发该程序,从而使该程序流通。
执行这样的程序的计算机例如,首先将可移动型记录介质中记录的程序或从服务器计算机转发的程序暂时储存至自身的存储装置。并且,在执行处理时,该计算机读取自身的存储装置中储存的程序,并执行依照读取的程序的处理。此外,作为该程序的别的执行方式,也可以由计算机从可移动型记录介质直接读取程序,并执行依照该程序的处理,进而也可以在每次从服务器计算机向该计算机转发程序时,逐次执行依照所获取的程序的处理。此外,也可以构成为:不进行程序从服务器计算机向该计算机的转发,而利用仅通过其执行指示和结果取得来实现处理功能的所谓ASP(应用服务提供商(Application ServiceProvider))型的服务,来执行上述的处理。另外,在本方式中的程序中,设为包含供电子计算机用于处理且等价于程序的信息(虽然不是对于计算机的直接的指令,但是具有对计算机的处理进行规定的性质的数据等)。
此外,在该方式中,设为通过使计算机上执行特定的程序来构成本装置,但也可以将这些处理内容的至少一部分以硬件方式实现。
标号说明:
1、2、3、4、5、6 连续发言估计装置
9 关键字检测装置
11、91 关键字检测单元
12 声音检测单元
13 连续发言检测单元
30、92 应答音输出单元
21、41、43、93 延迟单元
20、42、44 开关单元
45、99 目标音输出单元
62 多输入声音检测单元
机译: 连续话语估计装置,连续话语估计方法和程序
机译: 连续语音估计装置,连续语音估计方法和程序
机译: 连续表情估计装置,连续表情估计方法和程序