首页> 中国专利> 音乐作品的生成方法、装置、设备及存储介质

音乐作品的生成方法、装置、设备及存储介质

摘要

本发明涉及人工智能技术领域,公开了一种音乐作品的生成方法、装置、设备及存储介质,用于根据预置的矢量量化变分自动编码VQ‑VAE模型和原始音频数据生成音乐作品,提高了音乐生成效率,提升了音高和节奏的准确度,使音乐作品更有独特性和表现力。音乐作品的生成方法包括:获取原始数据,原始数据为待处理的音频数据;调用预置的自回归离散自编码器对原始数据进行特征提取,生成查询向量,查询向量用于查询关键信息;将查询向量进行量化处理,得到量化向量,量化向量包括数量化的音高和节奏信息;调用预置的矢量量化变分自动编码VQ‑VAE模型,将查询向量和量化向量代入预置的公式,计算并得到目标数据;将目标数据输入预置的解码器,生成音乐作品。

著录项

  • 公开/公告号CN113053336A

    专利类型发明专利

  • 公开/公告日2021-06-29

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN202110285844.5

  • 发明设计人 刘奡智;党艺飞;韩宝强;肖京;

    申请日2021-03-17

  • 分类号G10H1/00(20060101);G10L21/007(20130101);

  • 代理机构11321 北京市京大律师事务所;

  • 代理人姚维

  • 地址 518033 广东省深圳市福田区福田街道福安社区益田路5033号平安金融中心23楼

  • 入库时间 2023-06-19 11:39:06

说明书

技术领域

本发明涉及音频转换领域,尤其涉及一种音乐作品的生成方法、装置、设备及存储介质。

背景技术

音乐是用组织音构成的听觉意象,是表达人们的思想感情与社会现实生活的一种艺术形式,远非机械的节奏与音高的输出。音乐的作用很大程度上来源于其的感染力,这种感染力来自于每位演奏家独特的乐曲处理方式和演奏风格,不同演奏者会将自己的经历和对乐曲的独特理解带入演奏中,从而产生具有感染力的音乐效果。

在现有技术中,通过将乐谱展示作为输入生成乐曲,忽略了音乐表演情感和表达上的独特性,具体表现为节奏的准确性和音高的控制,并且只能处理有限种类的乐器,造成了音乐效果的损失。

发明内容

本发明提供了一种音乐作品的生成方法,用于根据预置的矢量量化变分自动编码VQ-VAE模型和原始音频数据生成音乐作品,提高了音乐生成效率,提升了音高和节奏的准确度,使音乐作品更有独特性和表现力。

本发明第一方面提供了一种音乐作品的生成方法,包括:获取原始数据,所述原始数据为待处理的音频数据;调用预置的自回归离散自编码器对所述原始数据进行特征提取,生成查询向量,所述查询向量用于查询关键信息;将所述查询向量进行量化处理,得到量化向量,所述量化向量包括数量化的音高和节奏信息;调用预置的矢量量化变分自动编码VQ-VAE模型,将所述查询向量和所述量化向量代入预置的公式,计算并得到目标数据;将所述目标数据输入预置的解码器,生成音乐作品。

可选的,在本发明第一方面的第一种实现方式中,所述调用预置的矢量量化变分自动编码VQ-VAE模型,将所述查询向量和所述量化向量代入预置的公式,计算并得到目标数据包括:基于所述查询向量和所述量化向量按照预置的公式计算并得到目标数据,所述预置的公式为:

L

可选的,在本发明第一方面的第二种实现方式中,所述调用预置的自回归离散自编码器对所述原始数据进行特征提取,生成查询向量,所述查询向量用于查询关键信息包括:将所述原始数据输入预置的自回归离散自编码器,所述预置的自回归离散自编码器直接将原始数据作为学习的对象;对所述原始数据进行特征提取,得到多个目标特征,并基于预置的算法将所述多个目标特征转换为初始向量;对所述初始向量进行过滤处理,生成查询向量,所述查询向量用于查询关键信息。

可选的,在本发明第一方面的第三种实现方式中,所述对所述原始数据进行特征提取,得到多个目标特征,并基于预置的算法将所述多个目标特征转换为初始向量包括:基于预置的自回归离散自编码器,对所述原始数据进行特征提取,得到多个初始特征;调用预置的音乐知识库对所述多个初始特征进行归一化处理,得到多个目标特征,所述多个目标特征包括音高、节奏、速度和音色;将所述多个目标特征按照预置的算法进行转换,得到初始向量。

可选的,在本发明第一方面的第四种实现方式中,所述将所述查询向量进行量化处理,得到量化向量,所述量化向量包括数量化的音高和节奏信息包括:在所述查询向量中随机选择向量作为基础向量;在每一轮迭代中,随机选取一个迭代向量,计算所述迭代向量与所述基础向量的距离,确定簇标记,若所述簇标记相等,则将所述基础向量与所述迭代向量的距离减小,若所述簇标记不相等,则将所述基础向量与所述迭代向量的距离增大;当达到预置的迭代次数时,将当前基础向量作为最终结果,生成量化向量,所述量化向量包括数量化的音高和节奏信息。

可选的,在本发明第一方面的第五种实现方式中,所述将所述目标数据输入预置的解码器,生成音乐作品包括:调用预置的解码器中的调制器读取所述目标数据,所述预置的解码器包括调制器和预置的本地音乐模型;基于所述调制器将所述目标数据与所述预置的本地音乐模型结合,生成音乐作品。

可选的,在本发明第一方面的第六种实现方式中,在所述获取原始数据之前,所述方法还包括:构建预置的音乐知识库,所述预置的音乐知识库包括音乐的基本要素信息。

本发明第二方面提供了一种音乐作品的生成装置,包括:获取模块,用于获取原始数据,所述原始数据为待处理的音频数据;特征提取模块,用于调用预置的自回归离散自编码器对所述原始数据进行特征提取,生成查询向量,所述查询向量用于查询关键信息;量化模块,用于将所述查询向量进行量化处理,得到量化向量,所述量化向量包括数量化的音高和节奏信息;计算模块,用于调用预置的矢量量化变分自动编码VQ-VAE模型,将所述查询向量和所述量化向量代入预置的公式,计算并得到目标数据;生成模块,用于将所述目标数据输入预置的解码器,生成音乐作品。

可选的,在本发明第二方面的第一种实现方式中,所述计算模块具体用于:基于所述查询向量和所述量化向量按照预置的公式计算并得到目标数据,所述预置的公式为:L

可选的,在本发明第二方面的第二种实现方式中,所述特征提取模块包括:输入单元,用于将所述原始数据输入预置的自回归离散自编码器,所述预置的自回归离散自编码器直接将原始数据作为学习的对象;特征提取单元,用于对所述原始数据进行特征提取,得到多个目标特征,并基于预置的算法将所述多个目标特征转换为初始向量;过滤单元,用于对所述初始向量进行过滤处理,生成查询向量,所述查询向量用于查询关键信息。

可选的,在本发明第二方面的第三种实现方式中,所述特征提取单元具体用于:基于预置的自回归离散自编码器,对所述原始数据进行特征提取,得到多个初始特征;调用预置的音乐知识库对所述多个初始特征进行归一化处理,得到多个目标特征,所述多个目标特征包括音高、节奏、速度和音色;将所述多个目标特征按照预置的算法进行转换,得到初始向量。

可选的,在本发明第二方面的第四种实现方式中,所述量化模块包括:随机选择单元,用于在所述查询向量中随机选择向量作为基础向量;计算单元,用于在每一轮迭代中,随机选取一个迭代向量,计算所述迭代向量与所述基础向量的距离,确定簇标记,若所述簇标记相等,则将所述基础向量与所述迭代向量的距离减小,若所述簇标记不相等,则将所述基础向量与所述迭代向量的距离增大;第一生成单元,用于当达到预置的迭代次数时,将当前基础向量作为最终结果,生成量化向量,所述量化向量包括数量化的音高和节奏信息。

可选的,在本发明第二方面的第五种实现方式中,所述生成模块包括:读取单元,用于调用预置的解码器中的调制器读取所述目标数据,所述预置的解码器包括调制器和预置的本地音乐模型;第二生成单元,用于基于所述调制器将所述目标数据与所述预置的本地音乐模型结合,生成音乐作品。

可选的,在本发明第二方面的第六种实现方式中,在所述获取原始数据之前,所述装置还包括:构建模块,用于构建预置的音乐知识库,所述预置的音乐知识库包括音乐的基本要素信息。

本发明第三方面提供了一种音乐作品的生成设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述音乐作品的生成设备执行上述的音乐作品的生成方法。

本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的音乐作品的生成方法。

本发明提供的技术方案中,获取原始数据,所述原始数据为待处理的音频数据;调用预置的自回归离散自编码器对所述原始数据进行特征提取,生成查询向量,所述查询向量用于查询关键信息;将所述查询向量进行量化处理,得到量化向量,所述量化向量包括数量化的音高和节奏信息;调用预置的矢量量化变分自动编码VQ-VAE模型,将所述查询向量和所述量化向量代入预置的公式,计算并得到目标数据;将所述目标数据输入预置的解码器,生成音乐作品。本发明实施例中,根据预置的矢量量化变分自动编码VQ-VAE模型和原始音频数据生成音乐作品,提高了音乐生成效率,提升了音高和节奏的准确度,使音乐作品更有独特性和表现力。

附图说明

图1为本发明实施例中音乐作品的生成方法的一个实施例示意图;

图2为本发明实施例中音乐作品的生成方法的另一个实施例示意图;

图3为本发明实施例中音乐作品的生成装置的一个实施例示意图;

图4为本发明实施例中音乐作品的生成装置的另一个实施例示意图;

图5为本发明实施例中音乐作品的生成设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种音乐作品的生成方法、装置、设备及存储介质,用于根据预置的矢量量化变分自动编码VQ-VAE模型和原始音频数据生成音乐作品,提高了音乐生成效率,提升了音乐作品的独特性和表现力。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中音乐作品的生成方法的一个实施例包括:

101、获取原始数据,原始数据为待处理的音频数据。

服务器获取原始数据,原始数据为待处理的音频数据。服务器将原始数据作为输入,编码器直接将其作为学习的对象,而非像传统音乐生成技术那样仅仅将音乐符号作为学习对象,待处理的音频数据可包含多种音乐风格。

可以理解的是,本发明的执行主体可以为音乐作品的生成装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、调用预置的自回归离散自编码器对原始数据进行特征提取,生成查询向量,查询向量用于查询关键信息。

服务器调用预置的自回归离散自编码器对原始数据进行特征提取,生成查询向量,查询向量用于查询关键信息。具体的,服务器将原始数据输入预置的自回归离散自编码器,预置的自回归离散自编码器直接将原始数据作为学习的对象;服务器对原始数据进行特征提取,得到多个目标特征,并基于预置的算法将多个目标特征转换为初始向量;服务器对初始向量进行过滤处理,生成查询向量,查询向量用于查询关键信息。

特征提取过程主要包括主成分分析PCA算法,主成分分析PCA算法是将高维的数据通过线性变换投影到低维空间上,被PCA降掉的维度是噪声或者冗余的数据,去噪声的目的是去除较小特征值对应的特征向量,特征值的大小反映了变换后在特征向量方向上变换的幅度,去冗余的目的是去除可以被其他向量代表的线性相关向量,通过特征提取过程,提取出关键信息并过滤冗余信息,生成查询向量。查询向量可以方便从音乐数据中提取关键信息,并通过关键信息将音乐拆分为更小的部分,从而可以用尽可能小的算力去学习,降低了对硬件的要求。例如,可以将音乐数据拆分为“音高”、“节奏”、“和声”、“速度”等,从原始数据中提取属于这些类别的关键信息即可生成查询向量。

103、将查询向量进行量化处理,得到量化向量,量化向量包括数量化的音高和节奏信息。

服务器将查询向量进行量化处理,得到量化向量,量化向量包括数量化的音高和节奏信息。具体的,服务器在查询向量中随机选择向量作为基础向量;服务器在每一轮迭代中,随机选取一个迭代向量,计算迭代向量与基础向量的距离,确定簇标记,若簇标记相等,则将基础向量与迭代向量的距离减小,若簇标记不相等,则将基础向量与迭代向量的距离增大;当达到预置的迭代次数时,服务器将当前基础向量作为最终结果,生成量化向量,量化向量包括数量化的音高和节奏信息。

104、调用预置的矢量量化变分自动编码VQ-VAE模型,将查询向量和量化向量代入预置的公式,计算并得到目标数据。

服务器调用预置的矢量量化变分自动编码(vector quantised variationalautoencoder,VQ-VAE)模型,将查询向量和量化向量代入预置的公式,计算并得到目标数据。具体的,服务器基于查询向量和量化向量按照预置的公式计算并得到目标数据,预置的公式为:

L

对输入的量化向量取对数log条件概率以减少波动,使其特性更加平稳,可以在时长更长的音乐里保持结构性,计算查询向量和量化向量的平方差可以减少最终生成的数据与理想数据的偏差。矢量量化(vector quantization,VQ)是一种结构简单、功能强大的监督式神经网络分类方法。作为一种最近邻原型分类器,在训练过程中通过对神经元权向量的不断更新,对其学习率的不断调整,能够使不同类别权向量之间的边界逐步收敛至贝叶斯分类边界。算法中,对最近邻权向量的选取是通过计算输入样本和权向量之间的距离的大小来判断的。

105、将目标数据输入预置的解码器,生成音乐作品。

服务器将目标数据输入预置的解码器,生成音乐作品。具体的,服务器调用预置的解码器中的调制器读取目标数据,预置的解码器包括调制器和预置的本地音乐模型;服务器基于调制器将目标数据与预置的本地音乐模型结合,生成音乐作品。

解码器的存在是因为音频视频数据存储要先通过压缩,否则数据量太庞大,而压缩需要通过一定的编码才能用最小的容量来存贮质量最高的音频视频数据,因此在需要对数据进行播放时要先通过解码器进行解码,可以解码的数字编码格式有数字音频编码(audio coding-3,AC-3),高解析度兼容性数码技术(high definition compatibledigital,HDCD),数字化影院系统(digital theater system,DTS)等,这些都是多声道音视频编码格式,如果要达到高保真的水平,有双声道的脉冲编码调制(pulse codemodulation,PCM)数字编码,调制器是解码器的一部分,解码器中储存了预先设定的音乐表演风格,和目标数据结合最终生成带有表演特点的音乐作品。

本发明实施例中,根据预置的矢量量化变分自动编码VQ-VAE模型和原始音频数据生成音乐作品,提高了音乐生成效率,提升了音高和节奏的准确度,使音乐作品更有独特性和表现力。

请参阅图2,本发明实施例中音乐作品的生成方法的另一个实施例包括:

201、获取原始数据,原始数据为待处理的音频数据。

服务器获取原始数据,原始数据为待处理的音频数据。服务器将原始数据作为输入,编码器直接将其作为学习的对象,而非像传统音乐生成技术那样仅仅将音乐符号作为学习对象,待处理的音频数据可包含多种音乐风格。

可以理解的是,本发明的执行主体可以为音乐作品的生成装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

202、将原始数据输入预置的自回归离散自编码器,预置的自回归离散自编码器直接将原始数据作为学习的对象。

服务器将原始数据输入预置的自回归离散自编码器,预置的自回归离散自编码器将原始数据作为学习的对象并从输入的原始数据中提取高阶共同特性,减少了对单个解码器数据处理能力的要求。

203、对原始数据进行特征提取,得到多个目标特征,并基于预置的算法将多个目标特征转换为初始向量。

服务器对原始数据进行特征提取,得到多个目标特征,并基于预置的算法将多个目标特征转换为初始向量。具体的,服务器基于预置的自回归离散自编码器,对原始数据进行特征提取,得到多个初始特征;服务器调用预置的音乐知识库对多个初始特征进行归一化处理,得到多个目标特征,多个目标特征包括音高、节奏、速度和音色;服务器将多个目标特征按照预置的算法进行转换,得到初始向量。

特征提取过程主要包括主成分分析PCA算法,主成分分析PCA算法是将高维的数据通过线性变换投影到低维空间上,被PCA降掉的维度是噪声或者冗余的数据,去噪声的目的是去除较小特征值对应的特征向量,特征值的大小反映了变换后在特征向量方向上变换的幅度,去冗余的目的是去除可以被其他向量代表的线性相关向量。

例如,音乐的长短和强弱标准化为音乐的“节奏”,音乐行进的快慢标准化为音乐的“速度”,调用预置的音乐知识库对多个初始特征进行归一化处理有助于后续识别和分组,避免出现冗余。将多个目标特征转换为初始向量的算法包括文本向量化word2vec算法。

204、对初始向量进行过滤处理,生成查询向量,查询向量用于查询关键信息。

服务器对初始向量进行过滤处理,生成查询向量,查询向量用于查询关键信息。

过滤处理包括高相关滤波处理过程,当两列数据变化趋势相似时,它们包含的信息也相似,因此使用相似列中的一列就可以满足机器学习模型,对于数值列之间的相似性通过计算相关系数来表示,相关系数大于预置的阈值的两列只保留一列。例如,可以将音乐数据拆分为“音高”、“节奏”、“和声”、“速度”等,从初始向量中提取属于这些类别的关键信息,当两列数据变化趋势相似时删除重复数据,最终生成查询向量。

205、将查询向量进行量化处理,得到量化向量,量化向量包括数量化的音高和节奏信息。

服务器将查询向量进行量化处理,得到量化向量,量化向量包括数量化的音高和节奏信息。

服务器将查询向量进行量化处理,得到量化向量,量化向量包括数量化的音高和节奏信息。具体的,服务器在查询向量中随机选择向量作为基础向量;服务器在每一轮迭代中,随机选取一个迭代向量,计算迭代向量与基础向量的距离,确定簇标记,若簇标记相等,则将基础向量与迭代向量的距离减小,若簇标记不相等,则将基础向量与迭代向量的距离增大;当达到预置的迭代次数时,服务器将当前基础向量作为最终结果,生成量化向量,量化向量包括数量化的音高和节奏信息。

206、调用预置的矢量量化变分自动编码VQ-VAE模型,将查询向量和量化向量代入预置的公式,计算并得到目标数据。

服务器调用预置的矢量量化变分自动编码(vector quantised variationalautoencoder,VQ-VAE)模型,将查询向量和量化向量代入预置的公式,计算并得到目标数据。具体的,服务器基于查询向量和量化向量按照预置的公式计算并得到目标数据,预置的公式为:

L

对输入的量化向量取对数log条件概率以减少波动,使其特性更加平稳,可以在时长更长的音乐里保持结构性,计算查询向量和量化向量的平方差可以减少最终生成的数据与理想数据的偏差。矢量量化(vector quantization,VQ)是一种结构简单、功能强大的监督式神经网络分类方法。作为一种最近邻原型分类器,在训练过程中通过对神经元权向量的不断更新,对其学习率的不断调整,能够使不同类别权向量之间的边界逐步收敛至贝叶斯分类边界。算法中,对最近邻权向量的选取是通过计算输入样本和权向量之间的距离的大小来判断的。

207、将目标数据输入预置的解码器,生成音乐作品。

服务器将目标数据输入预置的解码器,生成音乐作品。具体的,服务器调用预置的解码器中的调制器读取目标数据,预置的解码器包括调制器和预置的本地音乐模型;服务器基于调制器将目标数据与预置的本地音乐模型结合,生成音乐作品。

解码器的存在是因为音频视频数据存储要先通过压缩,否则数据量太庞大,而压缩需要通过一定的编码才能用最小的容量来存贮质量最高的音频视频数据,因此在需要对数据进行播放时要先通过解码器进行解码,可以解码的数字编码格式有数字音频编码(audio coding-3,AC-3),高解析度兼容性数码技术(high definition compatibledigital,HDCD),数字化影院系统(digital theater system,DTS)等,这些都是多声道音视频编码格式,如果要达到高保真的水平,有双声道的脉冲编码调制(pulse codemodulation,PCM)数字编码,调制器是解码器的一部分,解码器中储存了预先设定的音乐表演风格,和目标数据结合最终生成带有表演特点的音乐作品。

本发明实施例中,根据预置的矢量量化变分自动编码VQ-VAE模型和原始音频数据生成音乐作品,提高了音乐生成效率,提升了音高和节奏的准确度,使音乐作品更有独特性和表现力。

上面对本发明实施例中音乐作品的生成方法进行了描述,下面对本发明实施例中音乐作品的生成装置进行描述,请参阅图3,本发明实施例中音乐作品的生成装置的一个实施例包括:

获取模块301,用于获取原始数据,原始数据为待处理的音频数据;

特征提取模块302,用于调用预置的自回归离散自编码器对原始数据进行特征提取,生成查询向量,查询向量用于查询关键信息;

量化模块303,用于将查询向量进行量化处理,得到量化向量,量化向量包括数量化的音高和节奏信息;

计算模块304,用于调用预置的矢量量化变分自动编码VQ-VAE模型,将查询向量和量化向量代入预置的公式,计算并得到目标数据;

生成模块305,用于将目标数据输入预置的解码器,生成音乐作品。

本发明实施例中,根据预置的矢量量化变分自动编码VQ-VAE模型和原始音频数据生成音乐作品,提高了音乐生成效率,提升了音高和节奏的准确度,使音乐作品更有独特性和表现力。

请参阅图4,本发明实施例中音乐作品的生成装置的另一个实施例包括:

获取模块301,用于获取原始数据,原始数据为待处理的音频数据;

特征提取模块302,用于调用预置的自回归离散自编码器对原始数据进行特征提取,生成查询向量,查询向量用于查询关键信息;

量化模块303,用于将查询向量进行量化处理,得到量化向量,量化向量包括数量化的音高和节奏信息;

计算模块304,用于调用预置的矢量量化变分自动编码VQ-VAE模型,将查询向量和量化向量代入预置的公式,计算并得到目标数据;

生成模块305,用于将目标数据输入预置的解码器,生成音乐作品。

可选的,计算模块304具体用于:

基于查询向量和量化向量按照预置的公式计算并得到目标数据,预置的公式为:L

可选的,特征提取模块302包括:

输入单元3021,用于将原始数据输入预置的自回归离散自编码器,预置的自回归离散自编码器直接将原始数据作为学习的对象;

特征提取单元3022,用于对原始数据进行特征提取,得到多个目标特征,并基于预置的算法将多个目标特征转换为初始向量;

过滤单元3023,用于对初始向量进行过滤处理,生成查询向量,查询向量用于查询关键信息。

可选的,特征提取单元3022具体用于:

基于预置的自回归离散自编码器,对原始数据进行特征提取,得到多个初始特征;调用预置的音乐知识库对多个初始特征进行归一化处理,得到多个目标特征,多个目标特征包括音高、节奏、速度和音色;将多个目标特征按照预置的算法进行转换,得到初始向量。

可选的,量化模块303包括:

随机选择单元3031,用于在查询向量中随机选择向量作为基础向量;

计算单元3032,用于在每一轮迭代中,随机选取一个迭代向量,计算迭代向量与基础向量的距离,确定簇标记,若簇标记相等,则将基础向量与迭代向量的距离减小,若簇标记不相等,则将基础向量与迭代向量的距离增大;

第一生成单元3033,用于当达到预置的迭代次数时,将当前基础向量作为最终结果,生成量化向量,量化向量包括数量化的音高和节奏信息。

可选的,生成模块305包括:

读取单元3051,用于调用预置的解码器中的调制器读取目标数据,预置的解码器包括调制器和预置的本地音乐模型;

第二生成单元3052,用于基于调制器将目标数据与预置的本地音乐模型结合,生成音乐作品。

可选的,音乐作品的生成装置还包括:

构建模块306,用于构建预置的音乐知识库,预置的音乐知识库包括音乐的基本要素信息。

本发明实施例中,根据预置的矢量量化变分自动编码VQ-VAE模型和原始音频数据生成音乐作品,提高了音乐生成效率,提升了音高和节奏的准确度,使音乐作品更有独特性和表现力。

上面图3和图4从模块化功能实体的角度对本发明实施例中的音乐作品的生成装置进行详细描述,下面从硬件处理的角度对本发明实施例中音乐作品的生成设备进行详细描述。

图5是本发明实施例提供的一种音乐作品的生成设备的结构示意图,该音乐作品的生成设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)510(例如,一个或一个以上处理器)和存储器520,一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中,存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对音乐作品的生成设备500中的一系列指令操作。更进一步地,处理器510可以设置为与存储介质530通信,在音乐作品的生成设备500上执行存储介质530中的一系列指令操作。

音乐作品的生成设备500还可以包括一个或一个以上电源540,一个或一个以上有线或无线网络接口550,一个或一个以上输入输出接口560,和/或,一个或一个以上操作系统531,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5示出的音乐作品的生成设备结构并不构成对音乐作品的生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

本发明还提供一种音乐作品的生成设备,所述计算机设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述音乐作品的生成方法的步骤。

本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述音乐作品的生成方法的步骤。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号