法律状态公告日
法律状态信息
法律状态
2020-08-14
授权
授权
2018-02-06
实质审查的生效 IPC(主分类):G10L25/63 申请日:20170905
实质审查的生效
2018-01-12
公开
公开
技术领域
本发明涉及一种基于Gamma分布分析的音乐连续情感特征分析评价方法。
背景技术
音乐情感自动识别研究已有十几年的历史,但是到目前为止,研究工作还处于相对初级阶段,音乐情感识别准确率还比较低。主要原因有以下两点:(1)缺乏音乐情感有效特征;(2)音乐表达的情感是主观且难以量化的。从本质来说,音乐是一些不同响度,频率和音色的声音的排列组合。音乐以旋律的差别,节奏的快慢,声音的高低强弱,和声的变化,以及音色的不同等方法来表现其情感。因此,如何提取与情感相关的声学特征对音乐情感的自动分析起到至关重要的作用。此外,音乐的时间结构对音乐情感认知来说非常重要。然而,在典型的音乐高层语义,如情感、曲风和相似性等预测建模任务中,时间信息经常被忽略了。在音乐情感计算中,往往特征数量较多,其中不相关、相互依赖的特征容易导致模型复杂、训练所需时间长、推广能力下降等的问题。因此如何剔除不相关或者冗余的特征,从而达到减少特征个数,增强模型泛化能力,提高模型精确度是情感计算中重要的一环。传统音乐情感是凭标签人工打分,而且往往用最终标签来评价整个音乐。这种做法一方面会造成音乐选择或推荐不准确的问题,另一方面也不能够进行实时音乐推荐。
发明内容
基于以上不足之处,本发明提供一种基于Gamma分布分析的音乐连续情感特征分析评价方法,主要解决音乐连续情感特征优化和选择问题,进而提高音乐情感识别率,对音乐情感进行实时评价。
本发明所采用的技术如下:一种基于Gamma分布分析的音乐连续情感特征分析评价方法,具体步骤如下:
步骤一:计算音乐特征和情感标签之间的相关性;
设音乐信号为Ai,1≤i≤N,N为样本个数,在用户听音乐的过程中的Valence和Arousal情感标签为L,其采样率为2Hz,
(1)为了保留时间信息,首先对音乐信号进行加窗、分帧,音乐情感分析长度取窗长w为4秒,帧移为0.5秒;
(2)其次,音频特征提取,设特征Fij,1≤j≤M,M为特征维数,提取音高、响度等音乐底层特征,以及旋律、节奏等高层语义特征;
(3)计算每一维特征Fij与打分L的Pearson相关系数,得到Pearson相关系数矩阵R,计算公式如下:
步骤二:基于Gamma分布的特征筛选方法;
由于相关系数是从0到1之间,且分布离1越近表示相关性大,分布离0越近表示相关性小,因此进行两次Gamma分布拟合去掉相关性小的,保留相关性较大的特征,
(1)首先,计算每一维特征在所有样本上相关系数的直方图;
(2)其次,对相关系数直方图进行Gamma分布拟合,在这里特定特征的相关系数为ri,i=1,2,…,n,其中n为样本个数,先对相关系数直方图进行Gamma分布拟合,根据Gamma分布的定义,得到概率密度函数拟合公式如下:
其中α为Gamma分布的形状参数,决定Gamma分布的陡峭程度,λ=1/β为Gamma分布的尺度参数,决定Gamma分布的散布程度;
(3)再对相关系数直方图进行轴对称操作,即
(4)根据两次Gamma拟合的参数构造相关性影响因子IF:
从公式可知,IF越大,其分布距离1越近,因此对所有特征按IF从大到小排序,筛选出前K个最相关特征构成特征子集Fs,s=1,…,K;
步骤三:建立情感感知概率矩阵EDM
(1)建立特征相似度矩阵FDM
首先对上一步筛选出的K维特征及情感打分进行分帧,取帧长为4秒,帧移为3秒,对情感特征的每一帧和对应的情感打分构建N×N的相似度矩阵FDM,构建方法如下:
设第t帧样本为A1,A2,…,AN,且顺序确定,其特征为F1,F2,…,FK,则:
FDMpg=dist(Fpk,Fqk),1≤p,q≤N
其中Fik表示第i个样本的第k维特征的特征向量,
同样方法,设第t帧样本对应的打分为L1,L2,…,LK,对打分也求得一个相似度矩阵LDM;
LDMpg=dist(Lp,Lq),1≤p,q≤N
(2)情感感知概率矩阵EDM
为了衡量相应的特征差异,对每一帧的FDMi和LDM计算矩阵相似度作,计算方法如下:
那么,在T帧中,用每一帧都用如上方法计算特征差异概率,并归一化,就构成了情感感知概率矩阵EDM,计算方法如下:
EDMtk=ρ′k(t)
步骤四:计算情感变化最长路径,构造回归预测模型对维度情感进行预测;
(1)情感最大路径计算方法
在T帧中,用每一帧的特征矩阵与概率矩阵EDM相乘,构成新的情感特征矩阵FDM‘,在情感特征矩阵中,用最大权值路径作为特征向量,求解最大权值路径的问题,转化为求子问题的最优解,使用动态规划算法,记录了已求解过的子问题结果,设Pathi,j是对矩阵的描述,则其状态转移方程写为:
MPi,j=max{MPi-1,j,MPi,j+1}+MPi,j
其中MPi,j表示走到第i行第j列的最大权值,那么MPi,j的最优解包含子问题MPi-1,j和MPi,j+1的最优解,其中MP0,n-1=Path0,n-1,最大的路径权值通过比较底层的分数求得;
(2)基于Lasso回归的音乐连续情感预测方法
首先,在前面特征选择的基础上,设最优特征集为Fk,k=1,2,…,K,在最优特征集上,分别对Valence和Arousal建立回归预测方程:
Y=Xβ+μ
其中X为特征集,Y为Valence或Arousal的平均打分,μ为随机误差项;
其次,基于Lasso回归模型,对预测方程进行求解,求得
在求解拟合系数时,约束条件取最小的λ或SE值,取最小值为约束条件;最后,在最优拟合系数的基础上对新的未知样本经行Valence和Arousal的预测。
本发明的方法能够剔除不相关、冗余的特征,从而达到减少特征个数、减少过拟合、提高模型精确度、减少运行时间的目的,并可对音乐情感自动分析,情感标签实时自动预测,为音乐情感的评价和选择提供依据,对人工智能、情绪感知等方面具有推动作用。
达到的性能指标为:
(1)特征优化个数小于同类方法(≤1000)
(2)对情感的拟合结果高于同类方法(R2≥0.35)
附图说明
图1是基于Gamma分布的特征子集计算步骤图;
图2是基于特征子集的拟合模型计算步骤图;
图3是最佳的拟合系数示意图;
图4是时序特征相关矩阵的计算示意图;
图5是Gamma分布的相关系数直方图分析示意图;
图6是轴对称后的Gamma分布的相关系数直方图分析示意图;
图7是情感感知概率矩阵的建立方法示意图;
图8是Lasso回归模型参数选择示意图。
具体实施方式
下面根据附图距离对本发明做进一步说明:
实施例1
一种基于Gamma分布分析的音乐连续情感特征分析评价方法具体步骤如下:
步骤一:计算音乐特征和情感标签之间的相关性;设音乐信号为Ai,1≤i≤N,N为样本个数,在用户听音乐的过程中的Valence和Arousal情感标签为L,其采样率为2Hz,
(4)为了保留时间信息,首先对音乐信号进行加窗,分帧,音乐情感分析长度取窗长w为4秒,帧移为0.5秒,
(5)其次,音频特征提取,特征Fij,1≤j≤M,M为特征维数,包括底层特征,音高和响度,以及高层语义特征,旋律和节奏;
(6)计算每一维特征Fij,1≤j≤M与打分L的Pearson相关系数,得到Pearson相关系数矩阵R,计算公式如下:
步骤二:基于Gamma分布的特征筛选方法
音乐情感计算中,往往特征数量较多。其中不相关、相互依赖的特征容易导致模型复杂、训练所需时间长、推广能力下降等的问题。因此如何剔除不相关或者冗余的特征,从而达到减少特征个数,增强模型泛化能力,提高模型精确度是情感计算中重要的一环。Gamma分布是统计学的一种连续概率函数,在自然界中服从这种分布的现象不少,如地震发生时间、水文数据的模拟等。在上一节的相关系数矩阵R中,矩阵的行为特定音乐Ai,i=1,…,N的不同特征与情感打分的相关性,而矩阵的列是所有音乐在某一特定特征Fj,j=1,…,M的相关性。当样本数量N足够大时,其分布符合一定特点。高斯分布、对数分布、Gamma分布是经常用于描述离散数据的典型分布。由于特征相关性遵从偏态分布,直接用正态分布分析相关性时有一定的缺陷,而Gamma指数则是一种研究偏态分布变化的较好指标。
(5)首先,计算每一维特征在所有样本上相关系数的直方图;如图5所示,图(a)、(b)和(c)分别是不同三种特征在所有样本上的相关系数直方图,不难发现其分布具有偏态的特点。
(6)由于相关系数是从0到1之间,且分布离1越近表示相关性大,分布离0越近表示相关性小,因此进行两次Gamma分布拟合,去掉相关性小的,保留相关性较大的特征,在这里特定特征的相关系数为ri,i=1,2,…,n,其中n为样本个数,先对相关系数直方图进行Gamma分布拟合,根据Gamma分布的定义,得到概率密度函数拟合公式如下:
(7)再对相关系数直方图进行轴对称操作,即
(8)根据两次Gamma拟合的参数构造相关性影响因子IF:
从公式可知,IF越大,其分布距离1越近,因此对所有特征按IF从大到小排序,筛选出前K个最相关特征构成特征子集Fs,s=1,…,K;
步骤三:建立情感感知概率矩阵EDM
(3)建立特征相似度矩阵FDM
首先对筛选的K为特征及情感打分进行分帧,取帧长为4秒,帧移为3秒,对情感特征的每一帧和对应的情感打分构建N×N的相似度矩阵FDM,如图7所示,构建方法如下:
设第t帧样本为A1,A2,…,AN,且顺序确定,其特征为F1,F2,…,FK,则:
FDMpg=dist(Fpk,Fqk),1≤p,q≤N
其中Fik表示第i个样本的第k维特征的特征向量,
同样方法,设第t帧样本对应的打分为L1,L2,…,LK,对打分也求得一个相似度矩阵LDM;
LDMpg=dist(Lp,Lq),1≤p,q≤N
(4)情感感知概率矩阵EDM
为了衡量相应的特征差异,对每一帧的FDMi和LDM计算矩阵相似度作,计算方法如下:
那么,在T帧中,用每一帧都用如上方法计算特征差异概率,并归一化,就构成了情感感知概率矩阵EDM(Emotion Dissimilar Matrix),计算方法如下:
EDMtk=ρ′k(t)
步骤四:计算情感变化最长路径,构造回归预测模型对维度情感进行预测;
(3)情感最大路径计算方法
有了情感感知概率矩阵EDM,就能够把样本间差异加入模型中,在T帧中,用每一帧的特征矩阵与概率矩阵EDM相乘,构成新的情感特征矩阵FDM‘,在情感特征矩阵中,用最大权值路径作为特征向量,求解最大权值路径的问题,转化为求子问题的最优解,使用动态规划算法,记录了已求解过的子问题结果,设Pathi,j是对矩阵的描述,则其状态转移方程为:
MPi,j=max{MPi-1,j,MPi,j+1}+MPi,j
其中MPi,j表示走到第i行第j列的最大权值,那么MPi,j的最优解包含子问题MPi-1,j和MPi,j+1的最优解,其中MP0,n-1=Path0,n-1,最大的路径权值通过比较底层的分数求得;
(4)基于Lasso回归的音乐连续情感预测方法
为了减少复杂性,分别预测的值,首先,在前面特征选择的基础上,设最优特征集为Fk,k=1,2,…,K,在最优特征集上,分别对Valence和Arousal建立回归预测方程:
Y=Xβ+μ
其中X为特征集,Y为Valence或Arousal的平均打分,μ为随机误差项;
其次,基于Lasso回归模型,对预测方程进行求解,求得
在求解拟合系数时,约束条件取最小的λ或SE值,为了取得最好拟合结果,这里取最小值为约束条件,。当取最小的λ值时,拟合效果最好;而SE值则是兼顾运算量的情况下的较优值,如图8所示。为了取得最好拟合结果,这里取最小值为约束条件;最后,在最优拟合系数的基础上对新的未知样本经行Valence和Arousal的预测。
实施例2
为了验证由基于Gamma分布分析的音乐连续情感特征评价方法提取出来的最优特征集的识别效果,我们在MediaEval 2013公开音乐情感数据集上进行了方法测试,并与其他方法进行比较。该数据集包含744首长度为45秒的音乐剪辑,以及对这些音乐剪辑连续的情感标注。本发明创造所提出的方法对不同特征个数的平均拟合系数,计算的结果如下表1。
表1在不同K值(特征个数)下的拟合系数表
为了取得最佳的拟合系数,我们每隔50计算一次拟合系数,结果如图3所示。当取前600维特征时,rSquare取得拟合最大值为0.377。
经过比较本发明所提出的音乐连续情感特征评价方法,对音乐情感Valence维度的拟合结果达到0.38,仅次于TUM的0.42,高于其他同类最好方法。
表2与其它方法对音乐情感(valence)拟合结果比较
机译: 基于情感置信度得分分布变化的情感分析系统便携性检测系统及方法
机译: 基于应用程序特征分析分布式计算环境中应用程序执行性能的系统,方法和软件
机译: 基于情感信心分布的变化,检测情绪分析系统的可移植性的系统和方法