首页> 中国专利> 判断声音信号中是否混有低频声音信号的方法及相关装置

判断声音信号中是否混有低频声音信号的方法及相关装置

摘要

本发明提供一种判断一声音信号中是否混有人声信号的方法及相关装置。在一多声道的系统中,该方法针对不同声道的声音信号,计算声音信号在单位时间内幅值过零发生的次数;若第一声道的某一声音信号过零发生的次数比第二声道另一声音信号过零发生的次数低于某一阈值,则可判断该第一声道的声音信号中已经混有人声信号。

著录项

  • 公开/公告号CN1584974A

    专利类型发明专利

  • 公开/公告日2005-02-23

    原文格式PDF

  • 申请/专利权人 扬智科技股份有限公司;

    申请/专利号CN03154582.3

  • 发明设计人 吴俊德;

    申请日2003-08-19

  • 分类号G10H7/00;G10H1/12;

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人王志森;黄小临

  • 地址 台湾省台北县

  • 入库时间 2023-12-17 15:55:48

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2008-03-19

    授权

    授权

  • 2005-05-04

    专利申请权、专利权的转移专利申请权的转移 变更前: 变更后: 登记生效日:20050401 申请日:20030819

    专利申请权、专利权的转移专利申请权的转移

  • 2005-04-27

    实质审查的生效

    实质审查的生效

  • 2005-02-23

    公开

    公开

说明书

技术领域

本发明提供一种判断声音信号中是否混有低频声音(人声)信号的方法及相关装置,特别指一种以计算声音信号中过零发生频率的低成本、低计算量的人声信号判别方法及相关装置。

背景技术

随着信息、电子技术的进步与普及,在现代社会中,娱乐的形式也越趋多样化。举例来说,有卡拉OK之称的伴唱系统,就能够播放歌曲的背景配乐,让使用者不需乐团的伴奏,就能随背景配乐歌唱,享受专业级的娱乐环境。因应伴唱系统的需要,现代的娱乐业者在推出有专业歌者配唱的歌曲时,也会一并推出该首歌曲不含歌者配唱人声(vocal)的背景配乐,让使用者在聆听专业歌者配唱的歌曲之后,也能利用伴唱系统播放背景配乐,自己享受歌唱的乐趣。

由于信息储存、传播技术的长足进步,现在的电子技术已经能将含有配唱人声的歌曲及不含配唱人声的背景音乐以不同声道的模式同步储存在同一媒体,由使用者择一播放。请参考图1。图1为一常规播放装置10的功能方块示意图。播放装置10可以是一光盘播放器(player)或是配合一计算机(未示出)工作的一个光盘驱动器(drive),以读出一光盘24C上储存的歌曲影音数据,并加以播放。播放装置10中以播放电路12完成其功能,播放电路12中则设有一接收电路14、一处理模块16、一转换电路18、一接口电路20及一扬声器22。接收电路14中设有一马达24A及一读取头24B,以便从做为信息储存媒体的光盘24C之中,读取、分析出其所携载的信号25。处理模块16则用来主控播放装置10的功能,其中设有一处理单元26A及一选择电路26B。处理单元26A用来将接收电路14产生的信号25作进一步的信号处理(如解调变、解码等等)。如前所述,现行的数据处理技术已经能将含有配唱人声的歌曲和不含配唱人声的歌曲以不同声道的模式储存在同一媒体(如光盘24C)上,而处理单元26A也就能由信号25中,解析出不同声道的声音信号27A、27B。另外,接口电路20可以是一控制面板,用来接受使用者的控制操作,并将使用者的控制操作转换为电子信号,传输至处理模块16,以使处理模块16能依照使用者的控制操作来控制播放装置10的工作。如选择电路26B,即能接受使用者通过接口电路20的控制,选择以声音信号27A、27B其中之一做为信号29A,传输至转换电路18中。转换电路18可以是一数字转模拟转换电路,以将选择电路26B传来的数字信号29A转换为模拟的信号29B,以利用模拟信号29B驱动扬声器22,由扬声器22将对应于信号29A的声波播放出来,让使用者能听到。

换句话说,在常规的播放装置10中,处理单元26A可将同时储存在光盘24C上的不同声道声音信号27A、27B分析出来,由使用者经由对接口电路20的控制操作,选择是要将声音信号27A或27B播放出来。一般来说,在现行的影音信息规格(如DVD规格,Digital Versatile Disc)下,通常即规范有左、右声道,能储存不同的声音信号。利用左右声道的模式,就能同时在光盘24C中,分别储存含有配唱人声的歌曲及不含配唱人声的背景配乐;而使用者就能通过对播放装置10的切换控制操作,选择播放有人声的歌曲或是不含配唱人声的背景配乐。

虽然上述的配置能让使用者播放不同频带的声音信号享受不同的乐趣,但在现行的影音信息规格中,并未规范人声歌曲和背景配乐的声音信号要分别储存在左右声道中的哪一个声道,故在市场上的各种音乐媒体资源,有些是将无人声的背景配乐储存在左声道,有些则是将无人声的背景配乐储存在右声道,莫衷一是。连带地,使用者也要以尝试查错的方法,切换控制操作播放装置10,才能顺利播出所想要的声音。举例来说,使用者想要播放不含人声的背景配乐以享受伴唱的乐趣,但又不能确定背景配乐是在哪一个声道,故使用者仅能选择先播其中一声道的声音,若播放出来的是含有人声配唱的歌曲,还要控制操作播放装置10切换播出另一声道的声音,才终于能顺利地播放不含人声的背景配乐。这样一来,对使用者自然是相当不便,控制操作的过程也十分繁琐。

发明内容

因此,本发明的主要目的,在于提出一种能自动检测出人声信号所在声道的方法及相关装置,以克服常规技术的缺点。

在常规技术中,由于音乐媒体资源有可能将无人声的背景配乐存在左或右声道中,没有一定的标准,而常规技术的播放装置又不能自动检测出人声信号所在声道,使得使用者仅能以尝试查错的方式,自行猜测、试验到底左右声道中分别储存的是什么样的音乐,对使用者来说并不方便。

在本发明中,则是利用人声的频率比背景配乐频率低的原理,计算、比较两声道的声音信号中过零(声音信号的电平跨越零电平)发生的频率,若一声道的过零发生频率远比另一声道过零发生频率低,即可判断该声道中已混有人声信号。检测出人声信号所在的声道后,本发明中的播放装置即可依使用者是否要播放背景音乐的需求,自动选择要播放左声道或右声道。这样一来,使用者就再也不必自行以尝试查错的方式,盲目地控制操作播放装置。

本发明公开的人声声道检测方法所需的计算量极少,故可简单、快速、低廉地以软件、硬件或固件的方式来实施;而本发明公开的方法除了检测人声所在声道之外,也可推广运用于低频信号所在声道的自动检测,以极低的计算量,来实现快速有效的低频信号检测。

附图说明

图1为一常规播放装置的功能方块示意图。

图2为各种声音信号典型波形的示意图。

图3示意表示的是本发明判断人声声道的演算法。

图4为本发明中用来实现图3演算法的播放装置的功能方块示意图。

图5列表表示的是本发明实际实施时在不同声道的过零累计次数。

附图符号说明

10、30播放装置    12、32播放电路

14、34接收电路    16、36处理模块

18、38转换电路    20、40接口电路

22、42扬声器      24A、43A马达

24B、43B读取头    24C、43C光盘

25、29A-29B、45、49A-49B信号

26A、46A处理单元26B、46B选择电路

27A-27B、47A-47B声音信号

50判断电路        52A-52B检测模块

54比较模块        56A-56B过零计数结果

58比较结果    100演算法

200表格   CL1、CL2直列

RW1-RW14横行

C1比较单元    C2计算单元

D延迟单元Vn、Mn、Sn波形

t1-t5时间点   T1-T2时间段

L0基准电平    L1-L3电平

具体实施方式

为进一步说明本发明技术的原理,请先参考图2;图2为各种声音信号对应波形的示意图;各波形的横轴代表时间,纵轴代表各波形的幅值大小。如本领域技术人员所知,数字的声音信号中,是以序列排列的各组数据来代表一声波在不同取样时间点的幅值大小。集合声音信号中的各组数据,即可重建回该声音信号对应声波的幅值大小。举例来说,在图2中,由一声音信号在时间点t1、t2、t3等等各取样时间点对应的各组数据中所分别记载的幅值L1、L2及L3等等,就可形成波形Sn。而在图2中,波形Vn即代表仅有人声的声音信号的典型波形,波形Mn代表仅有背景配乐的声音信号的典型波形,而波形Sn则是混有人声及背景配乐的典型波形,也就是将波形Vn、Mn混音后(例如说是相加性的混合)的结果;在各波形Mn、Vn及Sn中分别标示出的基准电平L0,就代表幅值为零的零电平。

基本上,歌曲中的人声部份通常较为低频,就像图2中的波形Vn所示,其波形变化较为平缓。相对地,背景配乐中由乐器演奏出来的音乐,通常具有较高的频率,而各种乐器开始、结束演奏的时机也不一致,故背景音乐的波形Mn通常具有较为剧烈的变化,其幅值会在正负之间频繁地振荡,就如图2中所示。而当人声较低频的波形Vn和背景配乐较高频的波形Mn互相混合而形成歌曲后,其混合出的波形Sn则会呈现高频信号被载入至低频信号的特征,如图2中所示。观察仅有背景配乐的波形Mn和混有人声的歌曲波形Sn可发现,在波形Sn中,信号虽然还是包含有剧烈变化的高频部份,但由于波形Sn中加入了较低频的人声部份,故其波形幅值就不会频繁地在正负之间振荡。换句话说,混有人声的波形Sn,其幅值在单位时间内穿越零电平(也就是过零,zero-crossing)的次数就会远比仅有背景音乐的波形Mn来得少。举例来说,就如图2中所示,在时间段T1中,高频剧烈振荡的波形Mn有九次过零(如在时间点t4a、t4b与t5a、t5b之间,等等),混入低频人声的波形Sn就仅有三次过零(如在时间点t6a、t6b之间,等等)。同理,在后续的时间段T2等等,也可看出混有低频人声的波形Sn,其幅值在单位时间内过零的次数会比仅有背景音乐的波形Mn少的多。根据上述这种声音信号的特性,本发明即可利用单位时间内过零次数的多少(也就是过零发生的频率),来比较、判断出哪一个声道的声音信号混有人声,哪一个声道的声音信号仅有背景配乐。

综合以上所述可知,只要分别计算两声道的声音信号在一定时间内过零的次数,若其中一声音信号A的过零次数远小于另一声音信号B的过零次数,即可判断前一声音信号A中混有低频的人声信号。请参考图3。图3中的演算法100,即是将本发明上述的技术构思以程序语言描述的演算法来呈现。在演算法100中,变数LnZCR、RnZCR分别用来记录左、右声道中声音信号过零次数的计数结果,变数Ln、Rn就分别代表左、右声道中的声音信号。如前所述,在声音信号中,是将不同取样时间点的幅值记录在声音信号中的各组数据,故可将变数Ln、Rn视为阵列变数,以不同的指标来分别代表声音信号中的各组数据。如图3中所示,演算法100的A1部份是用来累算声音信号Ln中过零的次数;针对不同的指标I,比较相邻两组数据Ln(I)及Ln(I+1)(也就是声音信号中相邻两个取样时间点的幅值)相乘后的正负,若为负就代表变数Ln对应的声音信号在此两组数据对应的取样时间点之间发生了过零;而变数LnZCR也就可累进1,代表变数Ln对应声音信号中过零的次数又增加了一次。而在实际实施A1部份时,可以用一变数Sampl eLength来设定指标I累进的上限;换句话说,变数SampleLength就对应于一预设时间段,演算法100的A1部份就是要计算变数Ln对应的声音信号在此预设时间段内过零累计的次数,并将过零次数计算的结果储存在变数LnZCR。同理,演算法的A2部份就是要计算变数Rn对应的声音信号(也就是另一声道的声音信号)在同样的预设时间段(同样由变数SampleLength来控制)内过零的次数,并将次数累计的结果储存在变数RnZCR。

在本发明的演算法100的A3部份,即是用来比较两声音信号的过零次数,以判断究竟是哪一个声道中的声音信号混有低频的人声。如图3的演算法100所示,若变数Ln对应声音信号的过零次数LnZCR远比另一声音信号的过零次数RnZCR大(两者相差的程度大于一预设的阈值(threshold)),就可判断变数Rn对应的声音信号中混有较低频的人声。相对地,若变数Ln对应的声音信号在预设时间段内的过零次数LnZCR远比另一声音信号在同一预设时间段内的过零次数RnZCR来得小(相差的程度大于阈值(threshold)),就可判断变数Ln对应的声音信号中才混有人声。若两声道的过零次数LnZCR、RnZCR间的相互关系不符合上述两者(如两过零次数间的差异小于阈值(threshold)),就可能是两声道的声音信号均混有人声,或两者均未混有人声。若是这种情形,此时本发明还可另外采取别的步骤。举例来说,若两声道的声音信号皆混有人声,则可进行一降低步骤,将声音信号通由一特定的滤波程序或其他的信号处理,将声音信号中的低频人声降低、滤除;譬如说是以一带拒(band-stop)滤波器,将声音信号中人声频带的信号滤除。

换句话说,利用本发明公开在图3中的演算法100来比较不同声道的声音信号在单位时间(预设时间段)中过零发生的次数,就能判断出哪一个声道的声音信号混有人声。请注意本发明的演算法100所需的计算量极低,仅需单纯地比较声音信号相邻两组数据的正负值以判断过零是否发生,并累加过零发生的次数。故本发明的演算法100能简单、快速、低成本、高效率地以软件、硬件电路或固件等等各种形式来实施,完全不需要滤波、频谱计算等高计算量的繁琐数据处理及信号处理。事实上,在一般的数字声音信号中,代表幅值的每组数据中皆会有一位(bit)用来代表幅值的正负(即正负位,sign bit),故在判断过零是否发生在相邻两组数据间时,仅需对这两组数据的正负位进行异或(XOR,exclusive OR)运算;若这两组数据的正负位相异,就代表过零发生。利用正负位的互斥或运算来判断过零,本发明的演算法100也就更为快速地工作,所需的运算量也就更低了。

请参考图4。图4为本发明实施于一播放装置30的功能方块示意图。播放装置30中以播放电路32完成其功能,播放电路32中则设有一接收电路34、一处理模块36、一接口电路40、一转换电路38及一扬声器42。播放装置30可以是一光盘播放器(player)或一光盘驱动器(drive),其可设有一马达43A及一激光读取头43B,以由一光盘43C读出信号45(如影音信号)。处理模块36可设有一处理单元46A、一判断电路50及一选择电路46B;接口电路40则可以是一控制面板,用来接受使用者的控制,而处理模块36即可根据接口电路40接收的使用者控制,控制操作播放装置30的工作。其中,处理模块36中的处理单元46A可将信号45做进一步的信号处理(如解码、解调变),由信号45中解析出左右不同声道的声音信号47A、47B,并在选择电路46B的控制下,在声音信号47A、47B两者间选择其中之一成为信号49A。而转换电路38即可将数字形式的信号49A转换为模拟的信号49B,传输至扬声器42,以将信号49B转换为声波播放出来。

在本发明的播放装置30中,选择电路46B除了跟常规的播放装置10一样,能根据使用者通过接口电路40的控制,由使用者手动选择其中一声道的声音信号来播放外,还能以判断电路50来实现本发明在图3中的演算法,自动地在左右声道的声音信号47A、47B中,分辨出混有人声的声音信号,并控制选择电路40选出适当的声音信号成为信号49A。换句话说,本发明播放装置30的使用者操作接口,除了能由使用者手动切换播出左右声道的声音信号,还可增设如”卡拉OK模式”(或可称”无人声模式”)的操作模式;一旦使用者进入此模式,本发明的判断电路50就会开始工作,自动在声音信号47A、47B中选出未混有人声的声音信号作为信号49,并通过转换电路38、扬声器42将其播放出来。这样一来,使用者就不必经由繁琐的尝试查错才能在左右声道中找到未混有人声的背景配乐。当然,等效地,本发明的播放装置30也能有另一”歌曲模式”,一旦使用者控制操作播放装置30进行此模式,判断电路50就会在声音信号47A、47B中选出混有人声的歌曲声音信号并予以播放。

为了实现本发明在图3中的演算法100,判断电路50中可实现出两检测模块52A、52B及一比较模块54。检测模块52A、52B分别用来计算左右声道的声音信号47A、47B中的过零次数,并分别产生过零计数结果56A、56B;也就是说,检测模块52A、52B分别用来实现图3中演算法100的A1部分及A2部分。比较模块54则能实现演算法100的A3部份,根据声音信号47A、47B在预设时间段中过零次数的多少关系,自动判断哪一个声音信号是未混有人声的背景配乐,并产生一对应的比较结果58。根据比较结果58,选择电路46B就能在声音信号47A、47B中选出一适当的信号,作为信号49A而传输至转换电路38。检测模块52A、52B的实施方式基本上都是相同的,以检测模块52A为例,检测模块52A中可实现一延迟器D,以一比较单元C1比较声音信号47A中前后两组数据是否为一正一负;如前所述,比较单元C1可以是一互斥或的逻辑运算单元,以比较声音信号47A中前后相邻的两组数据的正负位是否相同。若该两组数据的确是一正一负,代表过零发生了,而比较单元C1就能触发一计算单元C2将过零的次数累进1;反之,若该两组数据同号(同为正或负),比较单元C1就不会触发计算单元C2累进1。经过一定的预设时间段后(如图3中变数SampleLength所定义的),比较单元C1就可将过零次数累计的过零计数结果56A传输至比较模块54。在本发明中,判断电路50的整体功能能以简单的逻辑电路来实现,或是以固件形式来实现。换句话说,图3中的演算法100可以编译成一程序码,储存在处理模块36相关的非易失性存储器中(如快闪存储器,但未在图4中示出)。处理模块36执行该程序码的功能,就能实现判断电路50的功能,自动判断声音信号47A、47B中那一个混有人声。

为说明本发明实际实施的结果,请参考图5(并一并参考图3)。图5中的表格200即为本发明的演算法100(见图3)实际实施于一典型音乐媒体左右两声道的声音信号后,真实累计出来的过零次数。表格200中的直列CL1、CL2分别记录的是左右两声道的过零次数,直列CL3则代表演算法100在A3部份判断的结果;而各横列(如图5中标出的横行RW1、RW2至RW14)则代表不同的时间段中,两声道分别累计的过零次数。在得出图5的表格200时,两声道的声音信号具有取样频率44100赫兹(HZ),也就是各声音信号在一秒钟中有44100组数据;过零次数累算的预设时间段为1秒(也就是说,演算法100中的变数SampleLength设为44100;因为一秒内有44100组数据);而要得出比较结果时,演算法100中的阈值(threshold)则设为200。每隔一个预设时间段的时间长度,就重新进行演算法100一次。举例来说,如图5中横行RW1代表的就是在第N至第(N+1)秒中,左右两声道分别有4527及1308次过零;在进行演算法100的A3部份后,即可判断出左声道的声音信号未混有人声(因其左声道的过零次数比右声道过零次数大,且两者的差异值大于阈值(threshold))。在接下来的第(N+1)至第(N+2)秒中,演算法100又被重新进行一次,再度由0开始累计两声道过零的次数;而其计数的结果就如横行RW2所示,左右两声道中分别有2569及1673次过零,同样地也能判断出人声混在右声道。横行RW3则是演算法100在第(N+2)至第(N+3)秒中累计的过零次数及比较结果。最后,横行RW14中,即是在第(N+13)至第(N+14)秒中,两声道的过零次数及比较结果。而实际聆听左右声道的声音后,也可发现,人声的确是混在右声道,而左声道的是无人声的背景配乐。总结来说,由图5可知,根据本发明公开在图3中的演算法100,的确能正确判断出哪一个声道的声音信号混有人声。

如前所述,在本发明的播放装置30(请见图4)中,可增设如”卡拉OK模式”或是”歌曲模式”,由判断电路50实现演算法100,自动判断人声所在的声道。在实际工作时,判断电路50也可依照图5中情形,每隔一段预设时间段,就重新由0累计各声音信号的过零次数,重新进行两声道间的比较及判断;而判断电路50也可不断地依据各时间段内的比较结果,选择适当的声道。另外,演算法100中阈值(threshold)的设置,则是用来防止误判的发生。由在各声道中过零的次数为随机值,在某些较为特殊的情形下,在某些时间段中,有可能混有人声的声道反而比无人声的声道具有较多的过零,但两者过零次数相差必定有限;故在演算法100中设定适当的阈值,就能防止误判的情形发生。也就是说,只有在两声道的过零次数相差超过阈值,由过零次数来判断人声所在声道才是有意义的;若两声道过零次数相差的程度过少(少于阈值),两者间的过零次数差异可能就只是某些随机出现的过零所造成的,较缺乏意义。不过,由图5的例子可看出,这种特殊情形发生的机会并不高。

本发明的构思除了使用在光盘播放器、光盘驱动器之外,也可普遍运用在其他的播放装置,甚至成为计算机中软件播放程序的一部份。举例来说,在图4中的接收电路34除了可以如图4一般是光盘伺服机构之外,也可以是一有线或无线的网路接口电路,可由有线或无线网路取得影音信号。还有,就如图3中对演算法100的A3部份的讨论,在处理模块36中也可另外实现一降低滤波模块(未示在图4),当两声音信号47A、47B间过零次数的差异未超过阈值时,即可以此降低滤波模块来降低、滤除声音信号中的人声。另外,在计算机中,某些特殊格式的影音文件(如MP3格式的音乐文件)常要以一播放软件来加以解码、播放,而本发明的演算法也可实施在此种播放软件中,让播放软件本身能自动判断人声所在的声道。另外,由本发明在图2中的原理讨论可知,本发明除了找出人声所在的声音声道外,也可广泛用来在多声道的系统中,以低计算量、低成本、快速有效率的简单方法,找出混有低频信号的声道。

在常规技术的播放装置中,由于缺乏有效、低运算量的方法来判断多声道系统中人声所在的声道,故使用者仅能自己以尝试查错的方法进行手动切换,才能顺利分辨出哪一个声道的信号中混有人声。相较之下,本发明则公开一低成本、低运算量的方法及相关装置,能在预设时间段内计算各声道声音信号中过零的次数,并根据过零次数的差异来判断哪一个声道中混有人声。这样一来,本发明就能由播放装置来自动判断人声所在的声道,让使用者省去自行尝试查错的麻烦,提供使用者更便利的影音播放服务。

以上所述仅为本发明的较佳实施例,凡依本发明权利要求所做的等效变化与修改,皆应属本发明的涵盖范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号