基于锚空间的音频场景识别方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着现代信息技术，特别是数字信号处理技术、网络多媒体技术的迅猛发展，越来越多的声音信号被数字化处理，并以各种音频格式存在。基于此，人们迫切地需要能够在音频数据流中对音频内容进行识别和理解的有效技术手段，从而高效地利用这些音频资源，并为各种智能系统提供基于声音的决策依据信息。
　　音频场景是指语义上相关，时间上相邻的若干声学事件所组成的一个音频片段，此片段总是蕴含着高层抽象概念和特定的语义表达。音频场景识别是对音频语义内容高层次的识别和理解，该技术可广泛应用于信息内容安全、智能监控、无人驾驶车辆、智能会议室等领域。传统的音频场景识别方法，如高斯混合模型方法等，一般在短时上进行建模和识别，在长时上根据短时得分进行综合判决。这种方法忽略了声学内容在长时上的分布特性，且不适用于目标声学内容与非目标内容混杂的情况。本文提出了三种在长时上进行建模的锚空间音频场景识别方法，并设计了一个识别任务对这三种方法的性能进行了验证，在一段娱乐节目中根据音频寻找“令人激动”的场景片段，该场景一般对应较激烈的欢笑声和鼓掌声等。
　　锚可以看作一个类别的原型表示，是根据信号产生的矢量到类别的一种映射关系。本文提出了三种面向音频场景的锚空间构造方法，并设计了相应的场景识别方法：1）基于状态变化统计量的锚空间音频场景识别方法。此方法将音频特征在时序上的变化量转化为若干变化状态，基于这些变化状态的统计信息张成锚空间，每个目标音频文件在此锚空间中映射成一个锚矢量，将此锚矢量当作目标场景的一个模板，从而构成目标场景库；2）基于高斯混合模型的锚空间音频场景识别方法。训练数据的目标音频文件训练得到目标高斯混合模型，集外音频文件训练得到集外高斯混合模型，基于各高斯分量的均值矢量张成锚空间，通过计算余弦距离将音频帧映射到锚空间中的一个点，求全部目标场景文件各帧在锚空间中的样本均值作为锚模板，目标场景由此锚模板表示；3）基于稀疏分解的锚空间音频场景识别方法。训练数据的目标音频文件训练得到目标字典，集外音频文件训练得到集外字典，基于其字典原子张成锚空间，稀疏分解得到的稀疏系数为此锚空间的坐标。
　　实验数据为从网络上下载的娱乐节目，实验结果表明，三种基于锚空间的方法对节目中令人激动的场景都有很好的识别效果。特别是基于状态变化统计量的锚空间音频场景识别方法，其召回率达到85.67％时，其对应的错误接收率仅为9.57%。最后通过系统总结，提出了尚需完善和改进的方面。

著录项

作者
杨静;
展开▼
作者单位

哈尔滨工业大学;

展开▼
授予单位哈尔滨工业大学;
学科计算机科学与技术
授予学位硕士
导师姓名韩纪庆;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音识别与设备;
关键词
锚空间; 音频场景识别; 高斯混合模型; 稀疏分解 2;

相似文献

中文文献
外文文献
专利

1. 基于音频分类的森林盗伐事件场景识别 [J] . 杨立东 ,靳浩杨 ,王硕 . 计算机仿真 . 2020,第008期
2. 基于小波谱图和深度卷积网络的音频场景识别新框架 [J] . 陈航艇 . 网络新媒体技术 . 2019,第002期
3. 基于小波谱图和深度卷积网络的音频场景识别新框架 [J] . 陈航艇1 . 网络新媒体技术 . 2019,第002期
4. 基于语义信息的场景识别方法研究 [J] . 杨清溪 ,张丽红 . 测试技术学报 . 2021,第006期
5. 基于多尺度感受野网络和注意力机制的场景识别方法研究 [J] . 张能欢 ,王永滨 . 中国传媒大学学报（自然科学版） . 2020,第005期
6. 基于锚空间的音频场景识别 [C] . 石自强 ,杨静 ,郑铁然 . 第十一届全国人机语音通讯学术会议 . 2011
7. 基于深度学习的音频场景识别方法研究 [A] . 李琪 . 2018

基于锚空间的音频场景识别方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅