Моделирование реальных условий выделения речевого сообщения из голосовой смеси

Н. А. Миронов

摘要

Постановка проблемы. Работа посвящена актуальной проблеме выделения одного речевого сообщения из голосовой смеси, более известной как "the Cocktail Party Problem". Современные решения в данной области связаны с применением массива микрофонов для выделения речи определенного человека. Особую ценность представляют исследования по выделению речи в условиях, максимально приближенных к реальным. Цель. Исследовать устойчивость работы алгоритма обработки речевого сигнала микрофонной решеткой в реальных условиях. Алгоритм заключается во введении временных задержек, зависящих от пространственных координат полезного источника, в каждый канал обработки сигналов и дальнейшем определении оптимального весового вектора микрофонной решетки. Результаты. В реальных условиях звук многократно отражается, поэтому при проведении расчетов был учтен эффект реверберации. Энергия речевого сообщения полезного сигнала может значительно отличаться от энергии сигнала помехи, поэтому была проанализирована работа алгоритма по выделению "тихого" голоса. При разговоре человек может перемещаться в пространстве, поэтому был проведен эксперимент по выделению голоса движущегося диктора. В ходе исследования доказано, что предложенный алгоритм устойчив к эффекту реверберации звука. Определен минимально возможный уровень полезного сигнала по отношению к уровню сигналов источников помех (-20,5 Дб), при котором сохраняется удовлетворительный уровень разборчивости речи. При использовании информации о траектории движения диктора от независимых каналов определения местоположения удалось выделить голос движущегося источника из помех с уровнем словесной разборчивости в 93,23%. Практическая значимость. Результаты данной работы могут быть полезны специалистам, занимающимся разработкой акустических систем наблюдения и обеспечением безопасности в местах массового скопления граждан.

机译：制定问题。这项工作致力于从语音混合物中分配一个语音信息的实际问题，更好地称为“鸡尾酒会问题”。该地区的现代解决方案与使用麦克风阵列相关联，以突出某人的演讲。特别值是关于尽可能靠近真实的语音分配的研究。目标。在实际条件下研究语音信号处理算法的操作的稳定性。该算法是根据有用来源的空间坐标引入时间延迟，在每个信号处理信道中以及进一步确定麦克风晶格的最佳重量向量。结果。在真实条件下，声音反复反映，因此在计算混响的效果时考虑了。有用信号的语音消息的能量可能与干扰信号的能量有显着差异，因此分析了用于分配“安静”语音的算法的操作。当对待一个人可以在空间中移动时，因此在移动扬声器的声音分配上进行实验。在该研究过程中，证明了所提出的算法对声音混响的影响是抵抗力。有用信号的最小可能电平相对于信号源（-20.5dB）信号的电平来定义，其中保留了令人满意的语音可懂度。当使用关于扬声器的轨迹的信息从独立的位置通道的运动时，获得从干扰与口头可懂度的干扰的移动源的声音在93.23％获得。实际意义。这项工作的结果可能对从事公民大规模积累的声学监视系统和安全性开发的专家有用。

Моделирование реальных условий выделения речевого сообщения из голосовой смеси

摘要

著录项

相似文献

相关主题

期刊订阅