音频检索
音频检索的相关文献在2000年到2022年内共计149篇,主要集中在自动化技术、计算机技术、无线电电子学、电信技术、信息与知识传播
等领域,其中期刊论文83篇、会议论文12篇、专利文献53824篇;相关期刊63种,包括华章、情报杂志、现代情报等;
相关会议10种,包括第九届全国有线电视技术研讨会、2007年全国网络与信息安全技术研讨会、第十二届国际广播电视技术讨论会(ISBT 2007)等;音频检索的相关文献由289位作者贡献,包括韩纪庆、郑贵滨、姚姗姗等。
音频检索—发文量
专利文献>
论文:53824篇
占比:99.82%
总计:53919篇
音频检索
-研究学者
- 韩纪庆
- 郑贵滨
- 姚姗姗
- 牛保宁
- 颜永红
- 刘加
- 唐峰
- 张卫强
- 张学帅
- 李应
- 李晓丽
- 李海峰
- 杜振龙
- 汤一博
- 潘云鹤
- 熊盛武
- 王辰龙
- 荣毅
- 路雄博
- 郑铁然
- 陈亚雄
- 丁丽
- 于丽娜
- 任广辉
- 何轶
- 冯慧
- 刘云玲
- 刘刚
- 刘文
- 刘晶
- 刘智满
- 刘玉贵
- 刘赵杰
- 刘轶
- 吕萍
- 吴丰博
- 吴静龙
- 吴飞
- 唐健琪
- 唐维康
- 姚仕元
- 姜涛
- 孔令城
- 宋越
- 庄越挺
- 张世磊
- 张健
- 张慧
- 张永
- 张琪浩
-
-
刘彦
-
-
摘要:
多媒体数字音频具有海量性和复杂性的特点,因此为了提高多媒体数字音频检索的准确性和效率,提出基于压缩域特征的检索方法。通过均方根计算方式提取多媒体数字音频静态和动态特征,具体化音频特征信息。建立模糊集合,根据隶属度数值分析并融合其压缩域特征,获取最佳样本分类。采用三角模糊集算法建立偏斜度矩阵,分类压缩域特征完成多媒体数字音频检索。通过实验结果得出,以压缩域特征为基础完成多媒体数字音频检索。通过实验结果得出,基于压缩域特征的检索方法,提高了识别音频数据的准确率,同时检索时间较短。
-
-
姚姗姗;
牛保宁
-
-
摘要:
理想的音频检索方法可以准确、高效地从大规模音频数据库中识别所有音频.但是,目前还没有一种方法可以对所有噪声干扰鲁棒.基于Philips指纹的采样计数音频检索方法是目前最高效的方法之一,如果能解决其无法抵抗线性变换(时间缩放、频率变换)的缺点,则整个采样计数音频检索方法将进一步趋于理想.针对其中的频率变换问题,提出抗频率变换的采样计数音频检索方法,包括变频带间隔的查询指纹生成方法、多频率尺度的查询匹配方法,以及分步骤指纹提取和变过滤阈值两种加速策略.该方法可以抵抗70%到130%的频率变换,效果与目前最好的QUAD方法相当,并且可以扩展到任意使用Philips类的指纹的检索方法以增强其抵抗频率变换干扰的能力.
-
-
赵文兵;
贾懋珅;
王琪
-
-
摘要:
针对现有音频检索中样本音频特征库数据量较大且检索速率慢问题,本文提出一种基于压缩感知和音频指纹降维的固定音频检索方法.在音频检索的训练阶段,首先,对样本音频信号进行稀疏化处理,并通过压缩感知算法对稀疏化后的音频数据进行压缩;其次,提取压缩信号的音频指纹;再次,引入音频指纹离散基尼系数通过计算音频指纹各维度的离散基尼系数对指纹实施降维,最终得到检索特征库.在音频检索阶段用和训练阶段相同的算法提取待检音频的特征与音频特征库数据匹配得出检索结论.实验结果表明,所提音频检索方法在确保较好的检索准确率的基础上,大幅度减小了样本音频数据库的存储量,提高了音频的检索速率.
-
-
孙宁;
赵维平;
陈美;
李超
-
-
摘要:
在Philips音频指纹检索算法中,构造一个查询表作为索引,由于内存消耗过大限制其广泛应用.为此,基于Philips音频指纹检索原型,提出一种改进算法.结合斐波那契数列和右移运算,构造新的哈希函数,通过斐波那契优化哈希值分布,并执行右移运算调整哈希表的长度.实验结果表明,改进算法能减少内存消耗,提高系统的实用性.%In the Philips audio fingerprint retrieval algorithm,the construction of a query table as an index,which limits the application due to excessive memory consumption.For this reason,an improved algorithm is proposed based on Philips audio fingerprint retrieval.Combining the Fibonacci number and the right shift operation,a new hash function is constructed.The distribution of hash value is optimized by Fibonacci.The length of the hash table is adjusted by performing the right shift operation.Experimental results show that the improved algorithm can reduce the memory consumption and improve the practicability of the system.
-
-
胡俊;
李胥;
陈毅
-
-
摘要:
传统的Shazam音频指纹检索算法构造了一个倒排查询作为索引,但是索引的空间有限导致检索效率低,从而影响检索时间.基于Shazam算法,结合当今工程应用中储存空间越来越廉价的现状,提出了一种新的空间换时间的方法.在改进算法中,通过改变索引空间大小,提高了检索时间和提升了准确率.通过仿真实验分析,验证了该方法的有效性.
-
-
唐小宝
-
-
摘要:
随着互联网和多媒体技术的迅猛发展,文本形式已无法满足人们的需求,多媒体数据的需求度正在不断增长.音频作为多媒体数据的重要组成成分,也发挥着越来越重要的作用.在大数据时代下,如何从海量音频数据中检索到所需的音频信息,是多媒体信息检索研究的重点问题之一.本文从音频信息检索的概念出发,介绍了音频信息检索的研究现状和主要技术手段,并简要分析了音频信息检索的不足之处,最后对音频信息检索的未来发展方向进行了预测.
-
-
张学帅12;
邹学强23;
胡琪1;
张鹏远12
-
-
摘要:
针对音频模板检索方法在噪音和频谱缺失等环境下鲁棒性不够强的问题,在原有Philips检索方法的基础上,提出了一种以帧能量差作为权重的检索方法,即充分利用原方法忽略的能量信息,通过对不同音频帧的DNA设置不同的匹配权重,有效提升了音频模板匹配方法的鲁棒性。实验结果表明,在受噪音影响和频谱缺失的数据集上,对于不同长度的音频模板,音频检索的查准率和查全率均有不同程度的提升,其中在2s的短模板上,查准率可比基线提高16%。
-
-
张学帅;
邹学强;
胡琪;
张鹏远
-
-
摘要:
Aiming at the problem that the audio template retrieval method is not robust enough in the environment of noise and spectrum loss, a retrieval method based on the frame energy difference is proposed based on the traditional Philips retrieval method, in which the ignored energy information in the traditional method is used to effectively improve the robustness of the audio template matching method, by setting different matching weights on the DNA of different audio frames.The experimental results show that the accuracy of the audio search and the recall rate are improved under different lengths of audio templates on noise and spectrum missing data sets.For example, in the 2-second application environment, the precision rate is improved by 16%.%针对音频模板检索方法在噪音和频谱缺失等环境下鲁棒性不够强的问题,在原有Philips检索方法的基础上,提出了一种以帧能量差作为权重的检索方法,即充分利用原方法忽略的能量信息,通过对不同音频帧的DNA设置不同的匹配权重,有效提升了音频模板匹配方法的鲁棒性.实验结果表明,在受噪音影响和频谱缺失的数据集上,对于不同长度的音频模板,音频检索的查准率和查全率均有不同程度的提升,其中在2s的短模板上,查准率可比基线提高16%.
-
-
叶循澹
-
-
摘要:
本文通过对有声内容智能质检平台项目中音频检索涉及的哈希算法进行研究,在FNV哈希算法基础上,混合了位移、异或等算法的优点,提出了一种FNV混合哈希算法。并且通过对比分析表明,应用FNV混合哈希算法对有声内容智能质检项目中的音频进行特征提取和索引建立,能够有效提高音频重复内容的检出效率。
-
-
乔立能;
夏秀渝;
叶于林
-
-
摘要:
提出了一种基于过零率和音频指纹的两步固定音频检索算法.在基于过零率直方图的初步检索中,采用直方图的迭代计算和动态的观测窗滑动步长来减少计算量并加快搜索速度,快速筛选出相似度较高的候选音频片段;接着基于降维Philips音频指纹对候选音频进行精检索,进一步提高检索精度.实验结果表明,该音频检索算法在保证较好的检索准确性基础上,大幅度提高了检索速度,且具有较好的鲁棒性.%This paper proposes a two-step fixed audio retrieval algorithm based on zero crossing rate and audio fingerprinting. The iterative calculation of the histogram and the sliding step of the observation time window are used in preliminary retrieval based on the zero crossing rate histogram to reduce the amount of calculation and speed up the search, fast filtering out candidate audio segments with high similarity; Then based on the dimension reduction Philips audio fingerprint, accurate retrieval of the candidate audio is carried out, further improving the retrieval accuracy. The experimental results show that the audio retrieval algorithm can improve the retrieval speed greatly and has good robustness, ensuring good retrieval accuracy.
-
-
唐峰
- 《第十二届国际广播电视技术讨论会(ISBT 2007)》
| 2007年
-
摘要:
随着广播电台数字化程度的提高和网络化应用的普及,需要存储的音频数据量与日俱增,各电台纷纷建立自己的音频资料存储系统.为了对海量的音频数据进行有效管理,探索和建设有效的音频检索系统,已成为广播电台应用的迫切需求,也是当前多媒体检索技术研究的热点。 目前,在音频及多媒体应用领域,音频检索技术本文介绍以下三种方式,1.基于DC的音频检索,2.基于IR技术的音频检索,3.基于内容的音频检索。
-
-
-
潘复平;
赵庆卫;
颜永红
- 《第八届全国人机语音通讯学术会议(NCMMSC8)》
| 2005年
-
摘要:
本文介绍了一个主要基于语音识别的音频检索系统的架构和基本实现.目前,越来越多的信息以视频、音频等多媒体方式出现,传统的检索方法不能直接适用于这些信息格式,急待新的检索方法出现.文章介绍的系统主要利用语音识别技术,把语音数据转化为文本,然后通过传统的文本检索方式实现对语音数据的全文检索.文中侧重阐述了对音频数据的处理过程,系统实现中遇到的一些问题和解决方法.
-
-
吕萍;
王炜;
颜永红
- 《中国声学学会2005年青年学术会议CYCA'05》
| 2005年
-
摘要:
随着多媒体和互联网技术的发展,人们在日常生活中接触到越来越多的音频文件.对庞大的音频信号源进行精确而快速的分类、搜索以及建立检索系统成为研究和应用开发的焦点.鉴于在文本检索领域取得的成就,可以先将音频信号翻译成文字信息(即语音识别),然后在文字基础上用文本检索技术建立最终的音频检索系统.这就是所谓的最高层次的基于内容的音频检索方法.然而就目前语音识别技术而言,实际应用时还存在一些问题.首先大词表语音识别系统需要大量的资源,并且运行速度较慢,通常是几倍或几十倍实时.其次语音识别系统在现实环境中的识别错误率也较高(大于20%).另外,人们感兴趣的音频信号并非都是语音信号,它们有可能是音乐或某种自然音效.对于非语音的音频信号,语音识别系统便无能为力了.
-
-
张卫强;
刘加
- 《2007年全国网络与信息安全技术研讨会》
| 2007年
-
摘要:
网络环境下音频检索技术是目前研究的热点问题之一。本文针对网络海量数据的应用特点,对传统的直方图算法进行了改进,采用基于主轴树的快速矢量量化技术进行预处理,采用两阶段法进行搜索处理,实验结果表明这两种方法可以显著提高检索的速度和精度。
-
-
刘奇峰;
戴志强
- 《第九届全国有线电视技术研讨会》
| 2007年
-
摘要:
如何有效地对海量数据尤其是诸如音频、视频之类的多媒体数据进行分析、存储和检索是一个亟待解决的问题,而将音频检索出的结果用于相应视频的索引标注则更是一个崭新的研究课题.本文正是从此出发,对基于内容的多媒体检索的有关概念、特点进行了介绍,通过在压缩域上对MPEG音频信号进行分割、提取特征等操作,实现了对语音信号及其相应的视频进行实时分析和检索的目的.
-
-
徐英进;
王愈;
蔡锐;
蔡莲红
- 《第二届和谐人机环境联合(第15届全国多媒体技术、第2届全国人机交互、第2届全国普适计算)学术会议》
| 2006年
-
摘要:
声音也可以有指纹(fingerprinting),它是音频对象的一种简短的概要,有时也称为robust summaries, robust signatures,perceptual hashes或robust hashes.这种技术可以广泛应用于音频检索、版权管理以及数据库管理等诸多方面。我们基于"乐纹"(Music Fingerprinting),构建了一种海量音乐检索系统。本文在已有相关技术的基础上,提出了一种优化的乐纹提取方法,旨在提高所提取乐纹的有效性、抗噪性以及简洁性等方面.实验证明,这种优化的方法可以有效地减小乐纹的长度,保留主要信息,并为后续的搜索过程提供了便利.本文还提出了一种快速的查询方法,通过乐纹库的Hash结构和三重链表查询结构有效地减少了查询过程中的计算量.通过一定规模的实验测试,我们发现该系统在抗噪性和查询速度方面还有待改进.
-
-
陈韵勇;
谢湘;
刘家康
- 《第八届全国人机语音通讯学术会议(NCMMSC8)》
| 2005年
-
摘要:
本文通过建立mp3歌曲数据库,分析并选择了音频信号特征,研究了最近特征线(NFL)方法,最终把NFL用到所建立的数据库中,对语音、纯音乐和语音-音乐的混合三类音频信号进行分类.实验的结果表明,特征用14维MFCC时,NFL能够有效地对语音信号、纯音乐信号、语音-音乐的混合信号进行分类,正确率达到95.01%.
-
-
陈韵勇;
谢湘;
刘家康
- 《第八届全国人机语音通讯学术会议(NCMMSC8)》
| 2005年
-
摘要:
本文通过建立mp3歌曲数据库,分析并选择了音频信号特征,研究了最近特征线(NFL)方法,最终把NFL用到所建立的数据库中,对语音、纯音乐和语音-音乐的混合三类音频信号进行分类.实验的结果表明,特征用14维MFCC时,NFL能够有效地对语音信号、纯音乐信号、语音-音乐的混合信号进行分类,正确率达到95.01%.
-
-
陈韵勇;
谢湘;
刘家康
- 《第八届全国人机语音通讯学术会议(NCMMSC8)》
| 2005年
-
摘要:
本文通过建立mp3歌曲数据库,分析并选择了音频信号特征,研究了最近特征线(NFL)方法,最终把NFL用到所建立的数据库中,对语音、纯音乐和语音-音乐的混合三类音频信号进行分类.实验的结果表明,特征用14维MFCC时,NFL能够有效地对语音信号、纯音乐信号、语音-音乐的混合信号进行分类,正确率达到95.01%.