首页> 中国专利> 基于唤醒词语速确定语音语义的方法、装置、设备和介质

基于唤醒词语速确定语音语义的方法、装置、设备和介质

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本申请涉及一种基于唤醒词语速确定语音语义的方法、装置、电子设备和存储介质，该方法包括：确定设备处于待唤醒状态，获取唤醒词，根据唤醒词判断是否唤醒设备；当判断结果为设备被所述唤醒词唤醒时，确定唤醒词的总时长；根据唤醒词的总时长确定当前语音端点检测的后端点时长；获取语音，设置云端后端点检测时长等于当前语音端点检测的后端点时长；将语音对应的音频发送至云端，云端根据云端后端点检测时长确定语音对应的语义。本申请根据用户在念唤醒词以及具体语音指令内容时，语速几乎一致的习惯，根据唤醒词的语速动态调整云端断句节点，从而实现动态确定语音端点的效果，根据语音端点确定在哪里断句，进一步确定语义，提升了准确率。

著录项

公开/公告号CN114582347A

专利类型发明专利
公开/公告日2022-06-03

原文格式PDF
申请/专利权人云知声智能科技股份有限公司;
展开▼

申请/专利号CN202210225951.3
发明设计人杨翠;宋琪;李霄寒;
展开▼

申请日2022-03-07
分类号G10L15/22;G10L15/30;G10L15/18;H04L67/12;
代理机构
代理人
地址 100096 北京市海淀区西三旗建材城内1幢一层101号
入库时间 2023-06-19 15:32:14

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-03

公开

发明专利申请公布

说明书

技术领域

本申请涉及语音语义技术领域，特别是涉及一种基于唤醒词语速确定语音语义的方法、装置、设备和介质。

背景技术

专利WO2020024885A1虽然解决的问题与本专利申请类似，但是他们主要是通过上一句语音指令进行语速分析和断句节点的动态设置。该方案的最大缺陷在于实际应用场景中，无法保证上一句语音指令与当前语音指令为同一用户发出，且同一个人说的两句话也可能不是同一个语速，因此上一句的语速并不能直接作为当前语音交互时的判断依据。

语音交互场景下，由于每个用户语速习惯不一样，甚至同一用户在不同情绪下的语速情况都不一样。因此，传统的通过设置停顿时间阈值的方式如判断长语音中间的停顿长度是否大于预设阈值，如果停顿长度大于预设阈值，则可以对语音进行断句的处理，采用上述方法对语音进行断句的效果并不佳，由于人在说话的时候语速是不固定的，因此，以停顿长度是否大于预设阈值作为断句的依据，可能会导致出现频繁断句或者长时间不断句的问题，由此，降低了断句的准确度。

发明内容

基于上述问题，本申请提供一种基于唤醒词语速确定语音语义的方法、装置、设备和介质。

第一方面，本申请实施例提供一种基于唤醒词语速确定语音语义的方法，包括：

确定设备处于待唤醒状态，获取唤醒词，根据唤醒词判断是否唤醒设备；

当判断结果为设备被所述唤醒词唤醒时，确定唤醒词的总时长；

根据唤醒词的总时长确定当前语音端点检测的后端点时长；

获取语音，设置云端后端点检测时长等于当前语音端点检测的后端点时长；

将语音对应的音频发送至所述云端，云端根据所述云端后端点检测时长确定语音对应的语义。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，确定设备处于待唤醒状态之前，还包括：

启动设备对应的应用程序，初始化语音相关引擎。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，云端根据云端后端点检测时长确定语音对应的语义后，还包括：

从云端获取语音的语义。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，根据唤醒词确定是否唤醒设备，包括：

判断唤醒词与预设唤醒词是否一致，当判断结果为唤醒词与预设唤醒词一致时，确定唤醒设备；

当判断结果为唤醒词与预设唤醒词不一致时，不唤醒设备。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，确定唤醒词的总时长，包括：

根据语音唤醒引擎确定唤醒词的开始时间和唤醒词的结束时间；

根据唤醒词的开始时间和唤醒词的结束时间确定唤醒词的总时长。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，根据唤醒词的总时长确定当前语音端点检测的后端点时长，包括：

获取唤醒词的唤醒记录，根据唤醒记录确定唤醒词的平均时长和平均时长对应的语音端点检测的后端点时长；

根据唤醒词的平均时长、平均时长对应的语音端点检测的后端点时长和唤醒词的总时长确定当前语音端点检测的后端点时长。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，云端根据所述云端后端点检测时长确定语音的语义，包括：

根据云端后端点检测时长确定所述语音的端点后；

根据自动语音识别技术和自然语言理解技术确定语音的语义。

第二方面，本申请实施例还提供一种基于唤醒词语速确定语音语义的装置，包括：

第一确定模块：用于确定设备处于待唤醒状态，获取唤醒词，根据所述唤醒词判断是否唤醒设备；

第二确定模块：用于当判断结果为设备被唤醒词唤醒时，确定唤醒词的总时长；

第三确定模块：用于根据唤醒词的总时长确定当前语音端点检测的后端点时长；

获取模块和设置模块：用于获取语音，设置云端后端点检测时长等于当前语音端点检测的后端点时长；

发送模块和第四确定模块：用于将语音对应的音频发送至云端，云端根据所述云端后端点检测时长确定语音对应的语义。

第三方面，本申请实施例还提供一种电子设备，包括：处理器和存储器；

处理器通过调用所述存储器存储的程序或指令，用于执行上述任一项一种基于唤醒词语速确定语音语义的方法。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行上述任一项一种基于唤醒词语速确定语音语义的方法。

本申请实施例的优点在于：本申请涉及一种基于唤醒词语速确定语音语义的方法、装置、电子设备和存储介质，该方法包括：确定设备处于待唤醒状态，获取唤醒词，根据唤醒词判断是否唤醒设备；当判断结果为设备被所述唤醒词唤醒时，确定唤醒词的总时长；根据唤醒词的总时长确定当前语音端点检测的后端点时长；获取语音，设置云端后端点检测时长等于当前语音端点检测的后端点时长；将语音对应的音频发送至云端，云端根据所述云端后端点检测时长确定语音对应的语义。本申请根据用户在念唤醒词以及具体语音指令内容时，语速几乎一致的习惯，根据唤醒词的语速动态调整云端断句节点，从而实现动态确定语音端点的效果，根据语音端点确定在哪里断句，进一步确定语义，提升了断句的准确率。

附图说明

为了更清楚地说明本申请实施例或传统技术中的技术方案，下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于唤醒词语速确定语音语义的方法示意图一；

图2为本申请实施例提供的一种基于唤醒词语速确定语音语义的方法示意图二；

图3为本申请实施例提供的一种基于唤醒词语速确定语音语义的方法示意图三；

图4为本申请实施例提供的一种基于唤醒词语速确定语音语义的装置示意图；

图5是本申请实施例提供的一种电子设备的示意性框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图对本申请的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵时做类似改进，因此本申请不受下面公开的具体实施的限制。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

图1为本申请实施例提供的一种基于唤醒词语速确定语音语义的方法示意图一。

第一方面，本申请实施例提供一种基于唤醒词语速确定语音语义的方法，结合图1，包括：

S101：确定设备处于待唤醒状态，获取唤醒词，根据唤醒词判断是否唤醒设备。

具体的，本申请实施例中，设备可以是任何智能终端设备，如天猫精灵，待唤醒状态可以是智能终端设备已开启，接收到对应的唤醒词时，就能够唤醒智能终端设备，唤醒词可以是用户根据自己的喜好设置的，也可以是厂家设置的，如“小度小度”，根据唤醒词判断是否唤醒设备，如接收到用户说的语音唤醒词是“小度小度”，根据唤醒词“小度小度”判断是否智能终端设备。

S102：当判断结果为设备被唤醒词唤醒时，确定唤醒词的总时长。

具体的，本申请实施例中，当判断结果为智能终端设备被唤醒词“小度小度”唤醒时，确定唤醒词的总时长，示例性的，唤醒词从开始一个字“小”到结束一个字“度”的总时长，下文结合具体步骤介绍确定唤醒词的总时长。

S103：根据唤醒词的总时长确定当前语音端点检测的后端点时长。

具体的，本申请实施例中，示例性的，根据唤醒词从开始一个字“小”到结束一个字“度”的总时长确定“度”的后端点时长，下文结合具体步骤介绍确定当前语音端点检测的后端点时长。

S104：获取语音，设置云端后端点检测时长等于当前语音端点检测的后端点时长。

具体的，本申请实施例中，在唤醒词唤醒智能终端设备后，智能终端设备获取用户说的语音，如“北京市天气预报”、“打开窗帘”“播放王菲的歌曲传奇”等等，在获取到用户说的语音后，设置云端后端点检测时长等于当前语音端点检测的后端点时长。

应理解，用户在念唤醒词以及具体语音指令内容时，语速习惯几乎一致。因此利用唤醒词的语速动态调整云端断句节点，有效解决了不同用户说话语速不一致的问题。

S105：将语音对应的音频发送至所述云端，云端根据所述云端后端点检测时长确定语音对应的语义。

具体的，本申请实施例中，将语音如“北京市天气预报”、“打开窗帘”“播放王菲的歌曲传奇”对应的音频发送至云端，云端首先确定断句的节点，然后根据断句后的语音，确定语音对应的语义。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，确定设备处于待唤醒状态之前，还包括：

启动设备对应的应用程序，初始化语音相关引擎。

具体的，本申请实施例中，智能终端设备在开启之前，还通过启动智能终端设备对应的应用程序，初始化语音相关引擎，从而为通过唤醒词唤醒设备做准备。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，云端根据云端后端点检测时长确定语音对应的语义后，还包括：

从云端获取语音的语义。

具体的，本申请实施例中，云端确定了断句的节点，然后根据断句后的语音，确定语音对应的语义后，智能终端设备能够从云端直接获取语音对应的语义。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，根据唤醒词确定是否唤醒设备，包括：

判断唤醒词与预设唤醒词是否一致，当判断结果为唤醒词与预设唤醒词一致时，确定唤醒设备。

当判断结果为唤醒词与预设唤醒词不一致时，不唤醒设备。

具体的，本申请实施例中，如根据唤醒词“小度小度”判断是否智能终端设备，若预设唤醒词也是“小度小度”，则唤醒智能终端设备，如预设唤醒词是“小迪你好”，则不唤醒智能终端设备。

图2为本申请实施例提供的一种基于唤醒词语速确定语音语义的方法示意图二。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，确定唤醒词的总时长，结合图2，包括S201和S202两个步骤：

S201：根据语音唤醒引擎确定唤醒词的开始时间和唤醒词的结束时间。

S202：根据唤醒词的开始时间和唤醒词的结束时间确定唤醒词的总时长。

具体的，本申请实施例中，如唤醒词“小度小度”唤醒智能终端设备后，语音唤醒引擎确定“小度小度”的开始时间和“小度小度”结束时间，进一步根据“小度小度”的开始时间和“小度小度”结束时间确定唤醒词“小度小度”的总时长。

图3为本申请实施例提供的一种基于唤醒词语速确定语音语义的方法示意图三。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，根据唤醒词的总时长确定当前语音端点检测的后端点时长，包括：

获取唤醒词的唤醒记录，根据唤醒记录确定唤醒词的平均时长和平均时长对应的语音端点检测的后端点时长。

根据唤醒词的平均时长、平均时长对应的语音端点检测的后端点时长和唤醒词的总时长确定当前语音端点检测的后端点时长。

具体的，本申请实施例中，唤醒记录可以是对应智能终端设备多次被唤醒词唤醒的历史记录，根据多次被唤醒词唤醒的历史记录确定唤醒词的平均时长和平均时长对应的语音端点检测的后端点时长，如唤醒词“小度小度”的平均时长等于1S，平均时长对应的语音端点检测的后端点时长为0.3S，当前唤醒词“小度小度”的总时长为0.8S，根据唤醒词的平均时长、平均时长对应的语音端点检测的后端点时长和唤醒词的总时长计算得到当前语音端点检测的后端点时长。

进一步地，上述一种基于唤醒词语速确定语音语义的方法中，云端根据所述云端后端点检测时长确定语音的语义，结合图3，包括S301和S302两个步骤：

S301：根据云端后端点检测时长确定所述语音的端点后。

S302：根据自动语音识别技术和自然语言理解技术确定语音的语义。

具体的，本申请实施例中，根据唤醒词语速动态调整云端断句节点有效解决了不同用户说话语速不一致的问题，实现动态断句，根据自动语音识别技术ASR和自然语言理解技术NLU确定语音的语义，智能终端设备能够从云端直接获取语音对应的语义后，做出对应的处理，如执行“打开窗帘”“播放王菲的歌曲传奇”等动作。

图4为本申请实施例提供的一种基于唤醒词语速确定语音语义的装置示意图。

第二方面，结合图4，本申请实施例还提供一种基于唤醒词语速确定语音语义的装置，包括：

第一确定模块401：用于确定设备处于待唤醒状态，获取唤醒词，根据所述唤醒词判断是否唤醒设备。

具体的，本申请实施例中，设备可以是任何智能终端设备，如天猫精灵，第一确定模块401确定设备处于待唤醒状态待唤醒状态可以是确定智能终端设备已开启，接收到对应的唤醒词时，就能够唤醒智能终端设备，唤醒词可以是用户根据自己的喜好设置的，也可以是厂家设置的，如“小度小度”，根据唤醒词判断是否唤醒设备，如接收到用户说的语音唤醒词是“小度小度”，根据唤醒词“小度小度”判断是否智能终端设备。

第二确定模块402：用于当判断结果为设备被唤醒词唤醒时，确定唤醒词的总时长。

具体的，本申请实施例中，当判断结果为智能终端设备被唤醒词“小度小度”唤醒时，第二确定模块402确定唤醒词的总时长，示例性的，唤醒词从开始一个字“小”到结束一个字“度”的总时长，下文结合具体步骤介绍确定唤醒词的总时长。

第三确定模块403：用于根据唤醒词的总时长确定当前语音端点检测的后端点时长。

具体的，本申请实施例中，示例性的，第三确定模块403根据唤醒词从开始一个字“小”到结束一个字“度”的总时长确定“度”的后端点时长，下文结合具体步骤介绍确定当前语音端点检测的后端点时长。

获取模块404和设置模块405：用于获取语音，设置云端后端点检测时长等于当前语音端点检测的后端点时长。

具体的，本申请实施例中，在唤醒词唤醒智能终端设备后，智能终端设备的获取模块404获取用户说的语音，如“北京市天气预报”、“打开窗帘”“播放王菲的歌曲传奇”等等，在获取到用户说的语音后，设置模块405设置云端后端点检测时长等于当前语音端点检测的后端点时长。

发送模块406和第四确定模块407：用于将语音对应的音频发送至云端，云端根据所述云端后端点检测时长确定语音对应的语义。

具体的，本申请实施例中，发送模块406将语音如“北京市天气预报”、“打开窗帘”“播放王菲的歌曲传奇”对应的音频发送至云端，云端的第四确定模块407首先确定断句的节点，然后根据断句后的语音，确定语音对应的语义。

第三方面，本申请实施例还提供一种电子设备，包括：处理器和存储器；

处理器通过调用所述存储器存储的程序或指令，用于执行上述任一项一种基于唤醒词语速确定语音语义的方法。

图5是本公开实施例提供的一种电子设备的示意性框图。

如图5所示，电子设备包括：至少一个处理器501、至少一个存储器502和至少一个通信接口503。电子设备中的各个组件通过总线系统504耦合在一起。通信接口503，用于与外部设备之间的信息传输。可理解，总线系统504用于实现这些组件之间的连接通信。总线系统504除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图5中将各种总线都标为总线系统504。

可以理解，本实施例中的存储器502可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器502存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本申请实施例提供的一种基于唤醒词语速确定语音语义的方法中任一方法的程序可以包含在应用程序中。

在本申请实施例中，处理器501通过调用存储器502存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器501用于执行本申请实施例提供的一种基于唤醒词语速确定语音语义的方法各实施例的步骤。

确定设备处于待唤醒状态，获取唤醒词，根据唤醒词判断是否唤醒设备；

当判断结果为设备被所述唤醒词唤醒时，确定唤醒词的总时长；

根据唤醒词的总时长确定当前语音端点检测的后端点时长；

获取语音，设置云端后端点检测时长等于当前语音端点检测的后端点时长；

将语音对应的音频发送至所述云端，云端根据所述云端后端点检测时长确定语音对应的语义。

本申请实施例提供的一种基于唤醒词语速确定语音语义的方法中任一方法可以应用于处理器501中，或者由处理器501实现。处理器501可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例提供的一种基于唤醒词语速确定语音语义的方法中任一方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器502，处理器501读取存储器502中的信息，结合其硬件完成一种基于唤醒词语速确定语音语义的方法的步骤。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法 [P] . 中国专利： CN109741755B . 2021.04.16
2. 语音唤醒词阈值管理装置及管理语音唤醒词阈值的方法 [P] . 中国专利： CN109741755A . 2019-05-10
3. 一种基于变分自编码器的训练样本数据扩充方法、存储介质及计算机设备 [P] . 世界知识产权组织专利： WO2020/143321A1 . 2020.07.16
4. 群聊语音信息的处理方法、装置、存储介质及服务器 [P] . 世界知识产权组织专利： WO2020/143256A1 . 2020.07.16
5. 确定直连链路资源的方法、装置、用户设备及基站 [P] . 世界知识产权组织专利： WO2020/142995A1 . 2020.07.16