中国科学技术大学声音转换的神经网络建模方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

声音转换技术是在保持语义内容不变情况下，改变一个说话人语音中的个性信息使其具有另外一个说话人的发音特征。它是语音信号处理领域一个较新的分支。对这项技术的研究不仅对语音编码、语音合成、语音增强和语音识别等语音信号处理领域具有促进意义，同时它还可以应用于多媒体娱乐、医疗、保密通信等方面具有广泛的应用价值。基于高斯混合模型(Gaussian Mixture Model，GMM)的转换方法是目前主流的声音转换方法。该方法采用统计建模的方式建立转换关系，具有相似度高、鲁棒性好的优点。但是其得到的转换语音的音质受过平滑效应的影响仍有待提高。并且这种方法获得的转换模型是源和目标说话人相关的，针对新的转换说话人对需要重新训练模型，使得模型在使用灵活性上存在缺陷。
　　本文围绕改善基于GMM模型的声音转换方法的转换效果与提高转换模型的使用灵活性两方面展开研究。基于GMM模型转换方法中的过平滑效应问题主要由两个原因产生:1）建模采用的高层频谱特征从原始频谱上提取得到，特征的提取过程导致频谱细节信息丢失;2）GMM只能建立线性转换关系，对源和目标频谱特征的非线性转换关系建模不足。为此，本文提出直接采用频谱包络特征进行建模。针对GMM模型对频谱包络特征建模困难的问题，本文提出了一种采用高斯型双向联想贮存器(Gaussian Bidirectional Associative Memory，GBAM)实现对源和目标频谱包络联合特征建模的方法，提高了转换语音的自然度和相似度。由于GBAM建立的仍然是源和目标频谱包络的线性转换关系，本文在受限玻尔兹曼机(Restricted Boltzmann Machine，RBM)和伯努利型BAM(Bernoulli BAM，BBAM)基础上进一步研究了一种基于产生式训练的深度神经网络模型（Generative Trained Deep Neural Network，GTDNN），这种模型可以建立源和目标频谱包络的非线性转换关系，进一步提升了转换语音的效果。此外，为了提高转换模型的使用灵活性，本文提出基于多源说话人数据训练的DNN的频谱转换模型。在这种方式下得到的DNN可以作为源说话人无关模型，直接用于实现任意源说话人到特定目标说话人的转换，使得转换更加方便。实验结果显示，采用这种DNN模型对新说话人的频谱转换时，能够获得与传统基于GMM模型接近的转换效果。另外，这种模型可用于对传统DNN模型初始化，相较于采用深度置信网络(Deep Belief Network，DBN)的初始化方式，可进一步提高传统DNN模型转换语音的自然度。

著录项

作者
刘利娟;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科信息与通信工程
授予学位硕士
导师姓名戴礼荣;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类语音信号处理;
关键词
声音转换; 高斯混合模型; 神经网络; 建模方法;

相似文献

中文文献
外文文献
专利

1. 基于遗传径向基神经网络的声音转换 [J] . 左国玉 ,刘文举 ,阮晓钢 . 中文信息学报 . 2004,第001期
2. 神经网络方法在血管紧张素转换酶抑制剂定量构效关系建模中的应用 [J] . 王华 ,陈波 ,姚守拙 . 分析化学 . 2006,第012期
3. 基于EGM2008和BP神经网络的GPS高程转换方法研究 [J] . 徐炜 ,严超 ,刘扬 . 城市勘测 . 2016,第4期
4. 基于神经网络的数码相机颜色空间转换方法研究 [J] . 杨阳 ,陈琛 . 中国印刷与包装研究 . 2011,第005期
5. 基于动态子空间划分的BP神经网络颜色空间转换模型辨识方法研究 [J] . 智川 ,郭凌华 ,张美云 . 中国印刷与包装研究 . 2010,第0z1期
6. 基于BP神经网络的GPS高程转换方法研究 [C] . 胡川 . 2010年中国通信国际会议 . 2010
7. 基于稀疏自编码器和前馈神经网络的汽车声音转换系统的研究 [A] . 李顺 . 2020

中国科学技术大学声音转换的神经网络建模方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅