首页> 中文学位 >中国科学技术大学声音转换的神经网络建模方法研究
【6h】

中国科学技术大学声音转换的神经网络建模方法研究

代理获取

目录

声明

摘要

表格索引

插图索引

第一章 绪论

1.1 声音转换概述

1.1.1 声音转换技术

1.1.2 研究意义和应用价值

1.2 声音转换研究现状分析

1.3 论文研究目标和研究内容

1.4 论文结构安排

第二章 声音转换关键技术

2.1 声音转换的语音学基础

2.1.1 语音的发音机理

2.1.2 语音中说话人相关特征

2.2 语音分析/合成器

2.3 特征提取

2.4 特征序列对齐

2.5 特征转换

2.5.1 韵律特征转换

2.5.2 频谱特征转换

2.6 基于高斯混合模型的频谱特征转换方法

2.6.1 算法原理

2.6.2 过平滑效应问题分析

2.7 基于神经网络的频谱特征转换方法

2.7.1 传统建模方法

2.7.2 研究新进展

2.7.3 建模特点分析

2.8 转换语音效果评价方法

2.8.1 客观评价方法

2.8.2 主观评价方法

2.9 本章小结

第三章 基于双向联想贮存器的频谱包络联合特征建模方法

3.1 双向联想贮存器模型简介

3.2 基于双向联想贮存器的频谱包络联合特征建模

3.2.1 基本原理

3.2.2 参数估计

3.2.3 系统搭建

3.2.4 实验条件

3.2.5 实验结果

3.3 本章小结

第四章 基于逐层产生式训练的深度神经网络的频谱包络转换方法

4.1 基于逐层产生式训练的深度神经网络的频谱包络转换方法原理

4.2 实验条件

4.3 实验结果与分析

4.3.1 RBM和GBAM建模能力分析

4.3.2 与FTDNN的转换效果对比

4.3.3 GTDNN模型的频谱包络转换效果分析

4.3.4 与GMM-GV系统转换效果对比

4.4 本章小结

第五章 基于多源说话人数据训练的深度神经网络的频谱转换方法

5.1 模型原理

5.1.1 单目标深度神经网络训练原理

5.1.2 多目标深度神经网络训练原理

5.2 实验条件

5.3 实验结果与分析

5.3.1 作为源说话人无关模型转换效果分析

5.3.2 作为DNN初始化模型性能

5.4 本章小结

第六章 总结与展望

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

声音转换技术是在保持语义内容不变情况下,改变一个说话人语音中的个性信息使其具有另外一个说话人的发音特征。它是语音信号处理领域一个较新的分支。对这项技术的研究不仅对语音编码、语音合成、语音增强和语音识别等语音信号处理领域具有促进意义,同时它还可以应用于多媒体娱乐、医疗、保密通信等方面具有广泛的应用价值。基于高斯混合模型(Gaussian Mixture Model,GMM)的转换方法是目前主流的声音转换方法。该方法采用统计建模的方式建立转换关系,具有相似度高、鲁棒性好的优点。但是其得到的转换语音的音质受过平滑效应的影响仍有待提高。并且这种方法获得的转换模型是源和目标说话人相关的,针对新的转换说话人对需要重新训练模型,使得模型在使用灵活性上存在缺陷。
  本文围绕改善基于GMM模型的声音转换方法的转换效果与提高转换模型的使用灵活性两方面展开研究。基于GMM模型转换方法中的过平滑效应问题主要由两个原因产生:1)建模采用的高层频谱特征从原始频谱上提取得到,特征的提取过程导致频谱细节信息丢失;2)GMM只能建立线性转换关系,对源和目标频谱特征的非线性转换关系建模不足。为此,本文提出直接采用频谱包络特征进行建模。针对GMM模型对频谱包络特征建模困难的问题,本文提出了一种采用高斯型双向联想贮存器(Gaussian Bidirectional Associative Memory,GBAM)实现对源和目标频谱包络联合特征建模的方法,提高了转换语音的自然度和相似度。由于GBAM建立的仍然是源和目标频谱包络的线性转换关系,本文在受限玻尔兹曼机(Restricted Boltzmann Machine,RBM)和伯努利型BAM(Bernoulli BAM,BBAM)基础上进一步研究了一种基于产生式训练的深度神经网络模型(Generative Trained Deep Neural Network,GTDNN),这种模型可以建立源和目标频谱包络的非线性转换关系,进一步提升了转换语音的效果。此外,为了提高转换模型的使用灵活性,本文提出基于多源说话人数据训练的DNN的频谱转换模型。在这种方式下得到的DNN可以作为源说话人无关模型,直接用于实现任意源说话人到特定目标说话人的转换,使得转换更加方便。实验结果显示,采用这种DNN模型对新说话人的频谱转换时,能够获得与传统基于GMM模型接近的转换效果。另外,这种模型可用于对传统DNN模型初始化,相较于采用深度置信网络(Deep Belief Network,DBN)的初始化方式,可进一步提高传统DNN模型转换语音的自然度。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号