法律状态公告日
法律状态信息
法律状态
2022-08-05
公开
发明专利申请公布
技术领域
本发明涉及航空安全领域,具体为一种面向陆空通话短语音特点的说话人识别方法。
背景技术
航空安全是民用航空运输业的重中之重。陆空通话是民航空中交通管制员和飞行员之间进行交流的主要载体,它以国际民航组织(ICAO)《无线电通话手册》和《中国民用航空无线电通话手册》为依据而制定的,对于飞行安全意义重大。
目前,对陆空通话的分析大多依赖于人工,需要专业人士承担这项任务。随着陆空通话量的增加,人工负担越来越重,已难以胜任。因此针对陆空通话展开研究,探索自动化与智能化分析陆空通话的方法,研究面向陆空通话短语音特点的说话人识别方法,说话人识别的目的是利用切分后的陆空通话语音片段识别出对应的说话人,为后续分析空管员指令的合理性与正确性提供可靠的数据依据。
目前说话人识别的难点为:短语音和噪声。短语音因其时长不足导致其中包含说话人信息较少,因此难以获得可有效表征说话人身份的特征;噪声的干扰会掩盖语音中原有的说话人信息,同样使得能够有效区分说话人的特征难以获得。陆空通话语音的说话人识别因其场景的特殊性而同时面临短语音和噪声困难。
发明内容
(一)发明的目的
本发明主要用于识别陆空通话短语音的说话人。通过构建端到端的模型,以陆空通话语音片段作为输入,然后对语音信号进行特征提取,对特征进行提取,接着挖掘特征,最后输出说话人,从而完成说话人识别的任务。
(二)技术方案
为了实现上述目的,本发明的方法所采用的技术方案是:首先,构建端到端的模型,以识别说话人身份为最终目标直接利用语音的数字信号作为模型的输入;接着设计双重注意力机制对稀疏的语音特征进行增强;最后,采用残差神经网络作为骨干网络,采用多尺度卷积的残差块进一步提升短语音说话人识别模型的能力。
构建端到端的模型。将语音的特征提取直接融入说话人识别模型,利用多个可学习的Sinc滤波器组直接对原始音频进行特征提取。将特征提取融入整体模型的设计保证所有的说话人信息都可以被模型接收。滤波器的可学习性则保证模型在特征提取阶段可以对语音特征进行筛选,忽略对说话人识别没有价值的语音特征。
设计双重注意力机制对稀疏的语音特征进行增强。首先,利用多头的注意力机制将特征映射到不同的特征空间中实现语音特征增强。然后,采用特征融合注意力机制对不同特征空间的特征进行融合以解决多头注意力机制自身的缺陷。使用双重注意力机制既对稀疏的语音特征进行增强,又可以发现不同特征对最终识别结果的重要程度。
采用残差神经网络作为骨干网络避免了说话人信息在传递过程中的丢失,使模型拥有良好的非线性拟合能力并解决深度网络的退化问题;设计多尺度卷积残差块,从不同的角度对潜在特征进行挖掘从而增强模型的识别能力。
(三)有益效果
本发明的有益效果为:首先,输入陆空通话语音片段;接着,使用可学习的Sinc滤波器组对语音进行特征提取;然后,使用双重注意力机制对特征提取层获得的浅层特征进行特征增强,接着挖掘语音特征,最后输出说话人标签。为后续分析空管员指令的合理性与正确性提供可靠的数据依据。
附图说明:
图1是面向陆空通话短语音特点的说话人识别方法技术流程。
具体实施方式:
利用可学习的Sinc滤波器组构成特征提取层,使用陆空通话原始语音信号作为输入保证模型可接收到语音蕴含的全部信息,在陆空通话语音信息量较少的不利条件下,保证语音的所有特征能够被模型充分利用。提取方法如下:
其中,x[n]表示输入的陆空通话语音片段,h[n]为长度为L的滤波器,y[n]是经滤波后的输出。
使用双重注意力机制,即使用特征融合注意力机制计算不同注意力头部的权重,然后将不同头部对应特征进行加权连接。
多头注意力机制对经由特征提取层获得陆空通话浅层特征进行多次不同映射,并在多个特征表示子空间进行注意力学习。特征提取层获得特征表示为h,假设共有m个注意力头部,经过第j个注意力头计算得到隐藏特征序列h
其中,w
使用与注意力相同的方式对每个注意力头进行计算,其计算方式如下:
其中,c
使用特征融合注意力机制对多头的注意力机制优化。特征融合注意力机制计算方法如下:
其中,w′
在特征挖掘层以残差神经网络作为骨干网络,从语音的浅层特征中挖掘可表征说话人身份的深层特征。采用深层的残差神经网络,保证了网络的深度,从而使模型获得对数据优秀的拟合能力。残差连接的使用有效解决语音中说话人信息丢失的问题。
设计了多尺度的残差块,分别利用尺寸为3×3和5×5的感受野进行卷积操作,从不同视角对特征进行挖掘。在该残差块的设计中,还将原有大尺寸卷积核进行分解,减少所需参数的数量提升模型计算能力的同时进一步加深模型深度,提升模型的非线性拟合能力。
为了适应陆空通话的特点,进一步提升陆空通话说话人识别模型的性能,对ArcSoftmax损失函数进行改进,提出一种具有动态角度间隔的损失函数,函数表示如下:
其中,λ表示超参数,
机译: 一种用于自动语音识别的说话人嵌入提取方法和系统,以及用于说话人识别的基于池的方法及其记录介质
机译: 一种使用说话人识别的语音信号中情绪检测方法
机译: 一种语音电话与语音通话的方法及装置