首页>中文会议>工业技术>无线电电子学与电信技术>第十届全国人机语音通讯学术会议

第十届全国人机语音通讯学术会议

召开年：2009
召开地：乌鲁木齐
出版时间： 2009-08-14

主办单位：中国中文信息学会

会议文集：第十届全国人机语音通讯学术会议论文集

会议论文

热门论文

全部论文

最新会议

更多>>

全选（0）

1.中国少数民族语言语音声学参数数据库的研制方法
- 呼和;哈斯其木格;周学文;乌日格喜乐图;郑玉玲
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文主要探讨了语音声学参数数据库研制方法中的语料、功能字段和声学参数的设计等问题，提出了声学参数采集方法及其原则。
2.基于增量估计的快速高斯计算
- 钱胜;吕萍;吴及
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文分析讨论了连续语音识别系统中的快速高斯计算问题。语音信号的短时平稳特性，使得相邻语音帧可能共享相似的分布。利用该特性，估计当前帧与基准帧间似然值增量的最大值，以此减少似然值的精确计算量。这种快速高斯计算方法称为最大概率增量估计算法。本文深入讨论了该算法在实际应用中的若干问题：增量上界估计、最优高斯候选、风险因子等。实验结果表明，在几乎不损失识别率的情况下，MPIE算法可节约40%的维数计算，解码速度相对提高10%。
3.基于情感分数曲线的语音情感变化检测
- 徐露;徐明星
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：在实际应用中，语音情感变化的检测比单纯的语音情感识别具有更广泛的应用前景，而目前关于语音情感变化检测的研究却很少。为了实现语音情感变化检测，本文研究了基于情感分数曲线的检测方法。首先将情感语音划分成一些语音段，采用基于频谱特征的方法进行情感识别，得到情感分数曲线。然后根据情感分数曲线的变化规律，确定发生情感变化的时间范围。针对该方法正确率较低的问题，对其进行了分析和改进，改进后的方法可以达到86.1%的正确率，并且具有比较稳定的检测性能。
4.汉语语篇语义层级结构边界韵律表现
- 杨晓虹;杨玉芳
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文考察了语篇修辞层级结构边界的韵律表现。对由20个语篇构成的语料库进行了修辞结构的层级标注和声学分析。声学参数主要采用小句边界处无声段，音高重置和边界前音节延长。研究得到以下主要结论：(1)小句边界处无声段和高音点重置是语篇修辞层级结构的主要声学线索。小句边界在语篇层级结构中的位置越高，边界处无声段越长，边界处高音点重置的值越大。但是语篇结构中小句边界处的无声段延长和高音点重置增大也是有限度的。(2)小句边界处低音点重置和边界前音节延长都不是区分语篇修辞层级结构的有效线索。
5.情感表达的跨文化多模态感知研究
- 李爱军;邵鹏飞;党建武
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：视频和音频两个模态的信息在交际过程中起着至关重要的作用，本研究关注的问题是情感表达中不同文化背景的听者对情感的感知(解码)与这两个模态(面部表情和情感声音)的关系。发音人为中国人，录制她的5个语句的7种情感(6种基本情感+中性情感)的音频和面部表情，制作三类刺激：只有音频信息(A-only)、只有面部视频信息(V-only)以及视频和音频同步信息(AV-Congruent)。听辨人为10名不会日语的中国人和10名不会汉语的日本人。对听辨结果分析发现，面部视频信息的加入有益于情感的感知，视频和音频信息在跨文化的情感解码中起着不同的作用，与情感的唤醒度arousal有密切的关系，相关距离空间分布模式说明听辨结果具有稳定性，跨文化的情感感知存在普遍的心理基础。
6.基于分数阶付立叶变换的谱减法及其语音增强应用
- 马多佳;谢湘;匡镜明
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：利用分数阶付立叶变换(FrFT)在时频分析上的特点，提出一种新的谱减法-分数阶谱减法。首先，对每一帧带噪语音进行的分数阶付立叶变换，通过使得分数阶谱减法的信噪比达到最大从而确定最佳变换阶数。其中，分数阶谱减法关键的噪声分数阶功率谱的估计采用最小统计估计，带噪语音的分数阶功率谱减去噪声分数阶功率谱以得到增强的语音分数阶功率谱，最后，通过逆分数阶付立叶变换(IFrFT)得到增强后的语音信号。在实验中验证了这种新方法在信噪比和Itakura-Saito LPC距离上都优于传统的谱减法。
7.基于语言模型的中文文本分类系统
- 杜鲁燕;苗振江
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：文本分类技术是近年来自然语言处理研究领域的一个热点，向量空间模型(VSM)是文本分类的经典模型，该模型在应用时假设词与词之间是相互独立的，忽略了任何词序上的相互关系，但是在几乎所有的应用中，词的相对顺序是非常有意义的，针对该特点研究了统计语言模型(LM)并将该模型应用到文本分类上，高阶的语言模型在一定程度上包含了词序信息，根据该方法设计并实现了Bigram模型文本分类器，实验结果表明，在分类准确率和稳定性上，该方法优于传统的向量空间模型。
8.基于环境特征的语音识别置信度研究
- 国玉晶;刘刚;刘健
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：传统的语音识别置信度方法基于各种静态特征进行分类判决，而忽略了词与周围环境之间的关系所携带的信息。为了进一步提高置信度特征的分类性能，本文提出了上下文环境、动态环境、句全局环境共三类五种环境特征，从空间与时间角度较全面地描述了词与环境之间的关系。实验结果证明，静态特征与环境特征联合分类的性能与只用静态特征相比有不同程度的提高，其中，静态环境与环境特征的二元联合最高有5.02%的相对改进，三元联合最高有6.11%的相对改进，说明环境特征确实是一种有价值的置信度特征，并且这几类环境特征之间存在一定的独立性。
9.一种语音频带扩展的方法及其改进
- 何勇军;韩纪庆
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：在语音通信系统中，由于信道频带的限制或编码的原因，语音的频带被控制在0.3kHz～3.4 kHz的范围内，这损失了语音的质量和可懂度。近年来，语音频带的人工扩展应运而生，也就是在接收端通过窄带语音信号生成宽带语音信号，补偿损失的高频段以恢复语音的质量，音色以及可懂度。基于频谱折叠然后滤波的方法在计算复杂度和重构效果上都明显优于其他方法，但该方法可能出现频带间隙，影响了其广泛应用。本文对该方法进行了改进，有效地解决了该方法存在的问题。
10.基于RASTA-DMFCC的说话人确认系统研究
- 康丹丹;苗振江;胡绍海
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文描述了一个与文本无关的说话人确认系统，并对前端处理作了实验研究。运用动态特征提高参数的鲁棒性。针对测试环境和训练环境的失配，采用RASTA滤波进行信道补偿。实验结果表明：动态MFCC能更好地反映各种声学特征，因此使实验结果的DET曲线都更接近于原点，使得拒识率和误识率都有所降低，对两个数据库A和B，EER都相对下降20％以上。当测试环境和训练环境不匹配时，使用RASTA滤波技术可以提取有效的特征参数，提高系统性能，EER相对下降24.88％。
11.面向情感变化检测的汉语情感语音数据库
- 徐露;徐明星
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文介绍了面向普通话情感变化检测的情感语音数据库CESD。本数据库也可以作为训练和测试样本用于语音情感识别的研究。语音以对话形式录制，包括男女声情感对话语音1200段。以生气、着急、中性、愉悦、高兴为基本情感，共包含20种情感变化模式。除语音文件外，还包含带有静音段/有效语音段、情感类别、情感变化段、情感质量等内容的标注文件。为了使更多的研究人员可以使用本数据库，利用Praat工具提取出67维常用声学特征，作为特征文件一同存储在本数据库中。
12.不同朗读语体重音的韵律特征研究
- 陈玉东;杨玉芳
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：为满足言语工程需要，基于大规模语料库，选择了记叙文、说明文、议论文、新闻和专题五种朗读语体，在时长、音高方面对其重音特征进行分析。结果表明，各语体在总体特征、重音突显和语调构造方面存在不同。记叙文、说明文和议论文更多利用时长手段来突显重音，趋于一致；新闻和专题更多利用音高手段来突显重音，趋于一致。议论文时长和音高手段都较突出，突显程度最高，反映了对重音突显的高度需求；新闻语速快、变化小，在音高上也显得平稳，体现了迅捷、整齐的风格。
13.多发音方式下的说话人识别研究
- 张利鹏;王琳琳;徐明星
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：人在说话的时候有各种各样的发音方式，如不同的语言；带情感的发音；快速与慢速、大声与小声等等。如果不做任何处理，直接用传统的说话人识别方法来处理，结果会比较差。因此，本论文研究如何降低由人的发音方式不同而导致的说话人识别性能下降。首先，进行多发音方式数据采集的设计，选择现实生活中常见的发音方式做研究；接下来在模型域提出基于多发音方式背景模型融合和模型补偿的改进系统方案；最后给出基线系统和改进系统的实验和分析结果。实验表明，由人的因素产生的发音方式不同对说话人识别有着重要的影响，本文论述的方法能够有效降低此影响。
14.汉语普通话与沈阳方言转换的研究
- 贾珈;蔡莲红;李明;张帅
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：中国地域辽阔，汉语包括多种方言。方言转换技术可实现方言间语音的转换，丰富语音交流的方式，增强语音交流的可懂性、友好性和趣味性。该文分析了普通话与沈阳方言在声调调类与调值、时长和特殊词等方面的差异；探讨了普通话与沈阳方言转换的可行性；提出了基于混合聚类算法的方言基频转换模型、基于统计的方言时长转换模型和基于加权有限状态机的特殊词识别算法；通过基本转换和说话人音色还原构建了方言转换系统，实现了实时普通话语音输入，沈阳方言语音输出。评测结果显示通过方言转换系统得到的方言语音与目标方言语音具有较高相似度。
15.基于泛化和繁殖的自举式意见目标抽取方法
- 郝博一;夏云庆;邬晓钧;郑方;刘轶
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：意见目标抽取是意见挖掘研究中的重要环节。现有方法的主要问题是将人工标注的意见目标直接视为"种子"进行意见目标扩展。本文提出了一种基于泛化、繁殖和自举的意见目标抽取方法，在泛化过程中提炼原子意见目标和意见目标模式，在繁殖过程中对复合意见目标进行扩展，并采取自举机制实现了意见目标的递增学习。实验结果显示，本文方法在自举过程的第一轮就在F-1分数上超出基线方法0.078；自举过程完成后，本文方法在F-1分数上提高了0.112。这说明，泛化处理对意见目标充分繁殖意义重大，自举过程则有助于充分发挥泛化能力和繁殖能力。
16.基于人工神经网络的音乐和弦实时感知
- 孙佳音;李海峰;雷理
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：和弦的识别是音乐调式分析以及自动标注的基础，也对于音乐结构分析及旋律分析等任务有重要的作用，也因此成为音乐信息检索(MIR)领域的热点之一。本文根据音乐认知心理学原理，提出一种基于人工神经网络(ANN)的和弦实时感知方法：首先，我们利用常数Q变换(CQT)对音乐信号进行时频变换，并在所得到的CQT谱上进行音符起始点检测以及音高校准，之后定义了一种全新的音级分布矩阵(PCDM)特征，最后利用ANN作为人脑认知过程的模拟并通过半监督学习方法对和弦进行感知。在多种风格音乐上进行的初步实验表明，所提出的方法以可以接受的计算时间消耗取得相当不错的识别率，是一种很具潜力的方法。
17.蒙古语连续语音识别在不同结构语言模型下精度的讨论
- 伊.达瓦;匂坂芳典;卢绪刚;中村哲
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：统计方法处理口语至今仍然是口语处理的核心技术. 目前处理水平较高的英语,中文及日本语等语言均采用统计处理方法. 但是,各自语言存在独特的发音方式和文本构造,即使是采用同类方法建立语音-语言模型，由于语言本身的差异也会引起性能上的较大差异. 研究和定量分析这种差异对于新语言口语处理性能的改善将有很大帮助. 本文以蒙古语为例研讨了黏着性语言语音识别在使用不同结构语言模型时的识别精度. 结果显示和常用bigram模型和聚类模型相比,通过相似词分类后的聚类模型可以提高识别精度.
18.仓央嘉措情歌的词汇组合与节律的关系研究
- 李永宏;周一心;于洪志
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文利用计算语言学的统计方法对仓央嘉措的124首情歌进行了节律方面的研究。建立了藏汉对照语诗歌节奏类型库，得出了8种主要的诗句词汇组合类型，并对每一种类型在诗歌中出现的情况进行了统计分析，为谐体民歌的韵律节奏研究奠定了良好的基础。
19.一个嵌入式中文语音合成系统的设计与实现
- 郭庆;王彬;于浩;直井聪
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文中，对富士通嵌入式中文语音合成系统的设计与实现进行了描述。该系统是一个以音节为基本合成单元，在预测韵律参数的指导下，从音库中搜寻全局最优的合成单元，然后采用PSOLA算法进行波形调整的拼接合成系统。从为了满足在资源有限的嵌入式设备上实现嵌入式语音合成系统的角度出发，本文围绕音库压缩和韵律词组词算法改进等方面进行了描述。最后，给出了音库压缩、韵律词组词算法的实验结果，并且给出了在一款智能手机上实现的嵌入式合成系统的性能指标及设备参数。
20.结构等价型模糊RBF神经网络用于语音识别的研究
- 张雪英;李高云
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：针对模糊系统和神经网络各自的不足，构建了基于模糊RBF神经网络的语音识别系统，提出了一种结构等价型模糊RBF神经网络和学习算法，采用五层神经网络结构来实现模糊系统的模糊化和规则推理，神经网络的所有节点和参数对应模糊系统的隶属度函数和推理过程。该网络利用模糊推理系统和RBF网络的等价特性，可以自动确定模糊规则数和隶属度函数，解决了模糊系统如何自动生成和调整隶属度函数和模糊规则的难题。将结构等价型模糊RBF神经网络应用到语音识别系统中，实验结果表明该方法的识别结果优于RBF 网络的识别结果，且具有较好的鲁棒性。
21.一个面向少数民族语种识别的电话语音数据库
- 徐永华;杨鉴;陈江;陈瑶玲
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文介绍一个以语种识别为目的而构建的中国少数民族语电话语音数据库，该数据库包括9种少数民族语和汉语普通话。在该语音数据库中，每种民族语言将选请50个发音人，男女各占一半；每个发音人将有一段谈话录音和20句时间不等的自动问答录音；除汉语发音人外，每个民族语发音人分别用本民族语和汉语普通话完成谈话录音和自动问答录音；整个语音数据库将有950段16分钟左右的谈话录音和19000句时间不等的自动问答录音。该语音数据库的构建对中国少数民族语种识别和口音识别的研究有着至关重要的作用。
22.临夏方言中心区双音节连读变调的实验研究
- 胡妍茹;陈晨;陈小莹;于洪志;金雅声
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：临夏方言属于官话方言区中原官话片陇中方言的小片。临夏方言在长期的与少数民族的交往中形成了自己独特的特点，其双音节的连读变调更是独具特色。本文主要采用实验语音学的方法，对临夏方言中心区的双音节连读变调的具体情况进行分析。研究结果表明，临夏中心区双音节词的调值变化区域多在3度4度之间，变调类型大体可以归纳为5种。所以在整体上看，临夏中心区双音节词的变调形式较为简单，并且去声为中降调，阳平为中升，因此在听感上临夏方言的语调显得较为平直。
23.基于词类序列的语句韵律结构预测
- 裴雨来;邱金萍;王洪君;吕士楠
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：文章主要探讨一种操作性较强的、面向CTTS应用的语句韵律词及韵律短语预测系统，这一系统预测韵律结构只依赖语句的词类音节数序列等简单的文本信息。文章区分了现代汉语中韵律结构与语法结构存在对应关系和不存在对应关系的两类单位，并针对两类单位分别采取确定韵律结构和调整韵律结构两步进行处理。此外，我们还深度挖掘了"的、介词"等功能词在韵律短语预测中的作用。在107句语料上测试了融合各种规则、信息的预测系统，韵律词预测正确率达95%，韵律短语预测正确率约81%。
24.基于EGG信号的安多藏语元音嗓音特征研究
- 陈小莹;陈晨;华侃;于洪志
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文以藏语安多方言中极具代表性的夏河话为研究对象，利用Real-Time EGG分析软件提取了元音/a/,/e/,/e/,/o/的嗓音参数基频，开商和速度商，并分元音单独出现、带前置辅音、带辅音韵尾和前后都带辅音4种情况进行了讨论。结果表明：3个参数之间有很强的关联性，各种组合方式下前置辅音对嗓音参数的影响不及辅音韵尾的影响程度，当元音前后均接辅音时两者共同作用来影响其嗓音参数;元音之间由于组合方式变化对参数影响趋势基本一致，变化幅度均为元音/e/最大，/o/最小。
25.汉语语音检索系统的设计与实现
- 钟岑岑;苗振江;章洁;杜鲁燕;康丹丹
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：随着信息技术的快速发展，各种音频、视频数据日益增多，如何高效的定位关键信息具有十分重要的意义。本文主要基于关键词识别、文本分类等技术，设计并实现了一个针对汉语口语的语音检索系统。该系统包括基于关键词识别的后台操作和多功能的语音检索接口两部分，并通过Microsoft Visual C++和MySQL数据库技术进行连接，对于用户输入的文本形式的关键词，以可视、可听、可操作、可追踪的检索结果进行反馈，从而实现对敏感信息的快速检索与定位。本文主要对系统的设计框架、关键技术和实现情况进行介绍。
26.一种基于句子分割的文法自动推导算法
- 张合;邬晓钧;王晓东;郑方
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：信息咨询口语对话系统中的领域文法规则往往需要专家来人工设计。本文针对一种面向汉语口语的上下文无关增强文法，提出了一种基于句子分割的文法自动推导算法。其基本思想是：用初始规则集对训练例句进行分析，若不能得到完整的语法树，则先对分析结果进行消歧和归一化，然后根据顶层成分递归地推导出缺少的规则，并更新已有的规则集。为了提高最终文法的性能，本文在例句处理顺序和规则更新上对算法基本流程做了改进。我们在天气预报查询领域进行了实验，结果文法的句法分析准确率在初始规则集为空时达到了64.8%，在初始规则集只包含日期相关规则时达到了86.4%。
27.中心削波法语速自适应汉语语调识别的改进
- 范京
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：汉语语调参数是汉语音节的重要特征，中心削波法是提取语音基音并进一步进行汉语语调识别的有效方法。由于实用中一般人语音的音调特征差别很大，致使目前各方法对汉语语调的识别率仍然很低。本文在四个方面改进了普通中心削波法。一是采用接续帧定域技术改进了基音变化的连续性，二是对基音的峰的突出特征进行质量评估，并应用于语调的辅助识别，三是采用了新的语调参数模型结构，可以加强对各种特征变化的自适应能力；四是在语调特征参数上改进了普通中心削波法，使用了L1相关技术。另外，对起始帧采用了综合估计技术，从而明显提高了自适应汉语语调识别的正确率。本文从原理上进行了讨论并用实际的测试结果证实了新方法的有效性。
28.面向计算机辅助正音语音语料库的创制与标注
- 曹文;张劲松
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：面向有正音功能的对外汉语计算机辅助发音训练(CAPT)语音语料库的创制与标注是一个新的课题。本文介绍北京语言大学对外汉语CAPT语音语料库的建设思路与方法。该库分两期建设，包括单音节、双音节、三音节、四音节、句子和语段六个子库。该库最大的特点是语料标注可提供声、韵、调教学分析信息。在音段方面，它标注了偏误产生的发音部位、发音方法；在韵律方面，它对声调及其特征点、语调焦点及边界调、停延/间断等也都可以作出发音偏误方面的标注。
29.汉语普通话双音节句实验研究
- 王瑞;曹文
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文研究双音节句在不同焦点、语气下的表现。实验设计了16组双音节目标句，每组包含宽、前、后三种焦点和陈述、疑问两种语气。实验结果描述出16个双音节组合中前焦和后焦的聚焦模式，其中包括含有上声的组合。实验发现，在聚焦手段中，前后音节的高音点差值在16个组合中都起到了区分焦点的作用，并再次证明汉语语调存在稳定的"二字组基本单元"；双音节句的疑问语气信息由高音点的位置决定，疑问与陈述语气的差异突出表现为疑问语气的高音点更高。
30.MLLR特征的SVM语种识别算法
- 钟山;刘加
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：为了挖掘更多语种间区分性信息进行可靠的自动语种识别，本文提出一种将自适应领域的最大似然线性回归(maximum likelihood linear regression，MLLR)矩阵作为特征的语种识别算法。该算法首先对每个语种训练Gauss混合模型(Gaussian mixture model，GMM)，然后对每个语音段在所有语种的GMM上计算MLLR矩阵。将得到的多类MLLR矩阵经归一化后拼接形成超矢量作为特征输入支持向量机(support vector machine，SVM)分类器进行训练和识别。本文比较了均值方差和排序两种归一化方法，并将本文提出的多类MLLR-SVM算法与传统GMM语种识别算法进行对比。实验表明，排序归一化算法优于传统的均值方差归一化；建立在GMM模型基础上的MLLR-SVM系统性能有9.7%的提升，并与GMM分类器有很强的互补性。
31.维语语音韵律的方言差异
- 江海燕;刘岩;卢莉
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本研究从透视乌鲁木齐维语与和田维语的韵律差异的角度来展示维语韵律的一些特点。在听感上，维族人很容易判断这两种维语方言，除了音段特征的不同外，韵律差异是区别的关键。但对这些韵律差异具体体现在哪些方面则一直停留在感性认识阶段，为了更科学地认识维语的韵律特征，本研究通过声学分析的方法探究乌鲁木齐维语与和田维语的韵律差异，找出其差异具体表现在音高走势、语音停顿、韵律单元切分以及音质等方面。
32.说话人识别中的多系统得分融合策略
- 郭武;戴礼荣
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：目前说话人识别中采用多系统融合的策略来提高识别率，融合的策略主流的算法是采用线性逻辑回归的融合策略。这种融合策略是从每个系统得分的总体分布的情况来统一考虑，没有考虑每次测试中不同系统得分的置信度。在本文中，提出对每个系统的每次得分都作一次置信度的判决来决定融合的参数，然后采用线性回归的方法进行融合。在NIST SRE 2006的1训练语段-1测试语段的核心测试任务上，采用置信度的融合方案能够取得等错误率4.08%和最小检测代价函数0.0207。从实验的结果来看，采用置信度的融合算法优于线性逻辑回归的融合算法。
33.基于气流气压信号的蒙古语不送气/送气辅音声学研究
- 胡阿旭;金雅声;于洪志
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：蒙古语中辅音的的送气与不送气的区别，向来解释为强弱之分，一般认为[p] [k] [t]等不送气音和[pp] [tpu001f] [kpu001f]等送气音的主要区别为前者气流弱后者气流强。而本文利用现代语音学的新方法对此有了进一步的分析。针对蒙古语中塞音和塞擦音的送气和不送气现象，利用美国KAY公司的Phonatory Aerodynamic System 提取蒙古语中塞音和塞擦音的声门上压力和气流量，进行了对比分析，得出蒙古语辅音不送气/送气的区别，不只是简单的强弱之分，更主要在于辅音除阻段的长度和元音起始时间的不同。
34.回声隐藏技术中回声核研究综述
- 李莉;宋亚奇
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：回声核构造是回声隐藏算法中关键因素，直接影响到嵌入的不可察觉性、检测正确率、鲁棒性、提取嵌入信息的安全性以及执行效率。首先对回声隐藏技术的最初设想、心理声学原理及最基本的回声隐藏方法进行概述，在此基础上总结了自回声隐藏算法首次提出10多年来国内外对回声隐藏的研究进展情况，主要对回声核的改造做了归纳，同时对各种回声核结构进行了模拟仿真测试，以此对各方法的优缺点进行了分析和比较。最后对全文进行了总结，展望了回声隐藏技术领域的研究热点与发展方向。
35.基于半音节的藏语连续语音语料库设计
- 杨阳蕊;李永宏;于洪志
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：大词汇量连续语音识别系统的性能在很大程度上取决于语音库的质量，而语音库设计的中心环节就是语料选取。本文根据古藏文音韵体系，建立了基于半音节的藏语连续语音语料库。首先10万句藏语文本中的每个字进行了声韵母分离；然后统计了音节内的声韵组合形式和音节间的韵声组合形式；最后在结合半音节组合的覆盖率和稀疏度的基础上，完成了语料抽取算法，设计出具有较高质量，冗余度小的蔵语连续语音语料库。
36.基于经验模态分解和短时分析的说话人研究
- 刘亚丽;杨鸿武;周慧
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文提出了一种新的基于经验模态分解和短时分析的说话人研究方法。在特征提取上，利用希尔伯特-黄变换中的经验模态分解法获得语音信号的固有模态函数，再结合短时分析技术获得语音信号的特征参数；在识别算法上，采用传统高斯混合模型进行说话人识别。实验结果表明，本文提出的EMD分解法+短时分析+高斯混合模型比传统的短时分析+高斯混合模型的的方法，在测试集上识别率由90.62%提高到了93.51%。
37.语速对韵母时长的影响及其消除
- 熊子瑜;梅晓;李健;李爱军
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文主要讨论语速的测算和分类问题，试图建立一套能够自动检测语速变化类型的有效方法，以便消除语速对韵母时长的影响，使得规整后的韵母时长能更好地反映语句的韵律节奏特性，以增强韵母时长的可预测性，从而提高对连续语流中韵母时长的预测精度。通过数据对比分析，本文提出以小句作为语速的测算单元，以其实际时长和预测时长的比值作为语速的测算指标，并在此基础上将小句语速区分为快速、中速和慢速三种类型。统计结果表明，消除语速影响之后的韵母时长不仅能更好地反映话语的韵律节奏特性，而且在增加小句语速类型作为控制因子之后，能够在一定程度上提高对连续语流中韵母时长的预测精度。
38.嵌入式语音识别系统的构建
- 张雪英;杨斌斌;王玉宏;金刚
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：系统以双核处理器OMAP5912为核心并充分利用其外围接口电路设计出了高性能、低功耗、结构紧凑的嵌入式语音识别硬件平台，并采用嵌入式Linux作为软件平台，成功移植了嵌入式语音识别引擎-Pocketsphinx，构建了一个非特定人、实时的嵌入式语音识别系统。实验结果表明系统运行稳定，识别效果良好，并达到了实时识别。
39.一种适合HMM汉语语音合成的建模单元挑选算法
- 段全盛;康世胤;双志伟;吴志勇;蔡莲红;秦勇
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文比较把不同声学单位作为建模单元时HMM汉语语音合成引擎的合成音质，分析建模单元对HMM语音合成的影响，并提出一种可变建模单元的HMM语音合成方法。考虑语料库的音段切分和HMM建模特点，汉语可以选用音节和声韵母两种单元进行HMM建模。本文分析音节和声韵母做建模单元的优缺点，通过比较实验验证了建模单元长度及相同模式分类下样本数目对HMM语音合成效果有重要的影响。最后本文提出基于样本数的建模单元挑选方法，并使用不同的建模单元进行HMM语音合成。主观评测实验表明本文提出的改进方法有效地提高了合成音质。
40.新闻播报言语数据库构建及韵律标注
- 李晓红;朱维彬;何伟;邹煜
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：将篇章层面的文本转换为准确、生动的合成语音，涉及了语言计算、韵律建模、语音合成等一系列技术问题。而这些问题的解决，一方面需要制定一个更具科学性的韵律描述方案，用以做为语言学与声学间的信息交互接口，进而构建语音合成系统的语言学、语音学计算模块；另一方面还将依赖具有丰富标注信息的言语数据库，由此提供定性分析与定量计算的实际样本。因而，言语数据库及其韵律标注，构成了合成系统研究的基础。本文选取新闻播报语料为研究/加工素材，综合考虑计算建模需求及样本的特点，制定了一套新闻播报言语数据库的韵律标注内容及其标注规范。本文对语篇的停顿、重音、语气、语调的标注规范进行了具体的阐述；通过对言语数据库构建及韵律标注的具体实施，证实了所制定的韵律标注规范的科学性。
41.一种快速的语音识别词图生成算法
- 李伟;吴及;王智国
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：作为语音识别结果的表现形式之一，词图(Lattice)以其紧凑的结构被广泛应用于大词表连续语音识别、语音检索等系统中。词图的高效生成算法同时成为了语音识别领域一个研究课题。本文提出了一种基于词格的词图生成算法 (Trellis-Based Lattice-Generating algorithm：TBLD)：该算法在正向Viterbi解码生成的词格(Trellis)基础上，进行反向A*解码生成词图。实验结果表明，与经典的解码器HDecode相比，在相同识别率下，TBLD算法速度快且词图质量高。
42.重读对降阶作用的影响研究
- 黄贤军;吕士楠
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：通过设计特定声调组合的实验室语句，考察了重读和降阶作用对陈述句语调下降趋势的影响规律。结果发现，重读对其后语调下降趋势的影响是刚性的；而降阶的作用则是有条件的，会受语句中重音位置的影响。当重读处于诱发降阶的低音之前时，两种因素对语调下降的作用是累加的，导致低音后的基频曲线明显低于只存在重读或降阶时的基频曲线。当重读与低音成分位置重合或重读处于低音成分之后时，虽然重音本身的音高表现在一定程度上会受到低音的影响，但低音成分不影响重音位置之后的基频曲线，并且此时重读会导致降阶现象消失。
43.面向大规模英语口语机考的复述题自动评分技术研究
- 严可;胡国平;魏思;戴礼荣
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：为了改变计算机必须依靠文本才能进行评分的情况，本文在国内范围内首次开展了面向大规模英语口语机考中的复述题型自动评分技术研究并证明了其技术可行性。本文首先基于连续语音识别、自然语言理解等技术搭建了复述题自动评分技术流程，并针对复述题无需按原文复述、考试现场录音质量低等难点，通过借助朗读题录音的声学模型自适应处理、基于复述原文的通用语言模型裁剪、基于识别输出词图的机器评分特征提取等一系列的改进工作的开展，最终完成的自动评分系统在339份中国科学技术大学期末考试现场采集的复述题数据集上达到了专家精细评分84%的性能，超过了教师批量阅卷时的性能，使系统在实用中，能辅助教师进行更科学客观的评分。
44.基于索引过滤的汉语短文本模糊匹配计算方法
- 曹犟;邬晓钧;夏云庆;郑方
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：在当前的中文信息处理中，对短文本进行模糊匹配有广泛的应用。而现有的模糊匹配算法时间复杂度常常无法满足实际的在线需求。本文从索引检索代替顺序计算的思想出发，提出了基于索引过滤的中文短文本模糊匹配计算方法，包括长度过滤和字命中过滤两种方法，能够大大地减少模糊匹配的计算量。实验表明，本文提出的算法在不影响召回率的前提下，能够极大地减少模糊匹配任务的计算时间。
45.基于拼音索引的中文模糊匹配算法
- 曹犟;邬晓钧;夏云庆;郑方
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：主流商业搜索引擎主要基于关键词精确匹配技术，对于用户的输入错误，通常无法取得令人满意的检索效果。针对这一问题，结合汉语中的拼音知识，本文提出汉字相似程度的三种不同的度量方式，并基于相似程度度量提出有索引的汉语模糊匹配方法。该方法通过对用户查询进行扩展，将模糊匹配转化为多个精确匹配，对精确匹配的结果按与查询串的相似程度进行排序。在实验所用的网页文本语料库中，本文提出的模糊检索方法在时间和空间复杂度增长不大的情况下取得了较高的准确率与召回率。
46.基于任务分析的自适应数据挑选
- 贺志阳;李威;吴及
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：在语音识别领域，针对具体的任务进行分析进而挑选自适应数据，往往能够获得更好的自适应效果。本文提出一种基于任务分析的声学模型自适应方法，该方法针对特定任务，分析任务相关语音单元特性(覆盖度、混淆度)；并采用贪婪算法在候选语音数据挑选一定量的数据，对声学模型进行自适应。实验表明，与使用全部候选数据进行自适应相比，基于任务分析的自适应数据挑选在仅使用10%的数据时即可获得相同或更好的自适应效果，通过进一步考虑混淆度，自适应性能能够得到进一步改善。
47.IBM GALE中文识别系统最新进展
- 张世磊;施勤;秦勇;刘文;刘义;方晗;Stephen M.Chu;Hong-kwang Kuo;Lidia Mangu
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文介绍了参加DARPA GALE中文评测时，IBM开发的系统和算法最新进展。同时给出了在三个测试集上的识别结果，包括广播新闻和广播访谈类节目。结果显示，IBM GALE中文识别系统取得了很好的识别性能。
48.适于嵌入式英语发音评价系统的英美音融合方法
- 梁维谦;赵坤;刘润生
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：英音和美音是最为常见的英语目标口音。本文针对英语学习者存在的英美口音混杂现象，提出一种英美口音模型融合方法，提高发音质量评价性能，并压缩声学模型规模以适于嵌入式实现。该方法基于替代概率将声学模型划分为可替代模型、可融合模型和孤立模型。抛弃可替代模型，保留孤立模型，基于模型插值与模型裁剪归并可融合模型。发音质量评价实验结果表明：融合模型与单口音模型相比，说话人级别的相关性提高了14.1%；融合模型与混合模型的性能相近，高斯分量数目压缩了10.7%。
49.段长在汉语识别系统后处理阶段的应用
- 李曜;刘加
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：针对传统的隐含马尔可夫模型(hidden Markov model ，HMM)存在的缺陷，该文提出了一种在识别的后处理阶段使用段长模型的方法，并应用在基于HMM的汉语识别系统上。该方法利用归一化的段长模型对识别系统的解码结果重新打分，比较前后两次算出的分数从而选出更可靠的识别结果。实验表明，通过该方法将段长模型应用在识别过程中，可以显著提高识别系统的性能，大量减少识别结果中的插入错误。数据显示，该方法使识别系统的音节错误率下降了大约10%，识别系统最终的插入错误和删除错误都低于1%。
50.多口音英语学习者口语语音库
- 纪晓丽;孙佳;李爱军;王霞
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：多口音英语学习者口语语音库(CELSCOM：Chinese EFLLearners' speech corpus with multi-accents )旨在收集和建立中国不同方言区英语学习者的英语口语语音，一方面为英语语音识别提供训练音库，另一方面为研究不用口音的英语与标准英语的语音特性的差异。本库在设计功能语句库录音文本时，将焦点位置、词性、词重音位置等作为条件综合考虑，并且将口语化的篇章作为补充材料，为研究提供数据。本文着重介绍功能语料库的设计原则、研究重点，以及对母语为普通话的英语学习者的英语语音库收集和标注规范，旨在对比功能语句的不同韵律特征，并且简要介绍了初步发现及研究意义。
51.基于LDA分析的词聚类算法
- 楚彦凌;刘刚
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文提出一种新的基于LDA分析的词聚类算法，生成基于类的语言模型，利用LDA(Latent Dirichlet Allocation)分析词在不同主题上的分布，得到词的特征向量，对其进行k均值聚类。由于这种聚类方法融入了文本语义信息，使得聚类的结果因注入了上下文的信息而更加实用化。
52.乐器识别中的时序特征整合
- 范丽;许洁萍;王君
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：特征整合是指在一个长时窗内将短时窗内的特征向量整合为一个新的单独特征向量的过程。音色是一种长时时序特征，目前常使用的均值和方差获得的长时特征，很难保持音色的时序特性。本文在多变量自动回归模型(Multivariate-Auto-Regressive MAR)特征的基础上，利用音乐最小单位音符为处理单元，提出了动态多变量自动回归模型(Dynamic MAR)特征，实现了音色时序特征整合；并将该特征向量应用于乐器音色识别中，同时在乐器识别的后处理中，利用加权平均求概率的方法去判断歌曲所属类别，使8种乐器的平均识别率从75.7%增加到87%，取得了较大提高。
53.混响时间与汉语单音节清晰度关系的实验测量
- 戴璐;孟子厚
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：在混响时间为0.5秒到6.0秒的范围内，在实验室模拟条件下测量了汉语普通话单音节清晰度与混响时间的关系。对混响条件对单音节声、韵、调的影响分别进行了分析和讨论。以本文的实验数据为基础，给出了估计汉语单音节清晰度以及声、韵、调的清晰度与混响时间关系的经验公式。
54.基于NN-HMM模型和语种无关PRLM的自动语种识别
- 王士进;梁加恩;徐波
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：NIST多年的评测表明，基于并行音素识别(PPRLM)的方法取得了很好的性能，本文提出了一种基于Multilingual音素和NN-HMM混合模型PRLM识别方法的自动语种识别系统。由于音素识别器建模能力有限，本文引入基于NN-HMM混合模型的方法用于音素识别。系统中Multilingual音素集是使用基于数据驱动聚类获得。通过真实环境电话语音测试表明，基于NN-HMM混合模型的PPRLM性能比传统的基于HMM的PRLM高5%-10%，同时由于Multilingual音素识别的引入，在只使用了很少的识别时间的情况下，获得了跟PPRLM系统可比的识别正确率。同时经过与PPRLM系统融合后，获得了更好的性能。
55.基于频谱弯曲的语音转换相似度改进
- 双志伟;张世磊;秦勇
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文中，我们对现有语音转换方法进行分析，并针对频谱弯曲方法相似度较低的问题，将频谱弯曲与单元挑选相结合以提高与目标人频谱细节上的相似度。我们首先利用频谱弯曲来获得弯曲后的源频谱。然后，我们利用弯曲后的源频谱作为预测目标从目标说话人频谱中进行单元挑选。最后，我们用挑选出来的目标说话人频谱对弯曲后的源频谱进行部分替换，以提高频谱细节上的相似度。评测结果表明，改进的方法与单纯的频谱弯曲相比能够获得约20%的相似度提高。文章最后提出了进一步的改进方向。
56.辅助语音评分系统中一种流利度自动评分方法
- 黄申;李宏言;王士进;梁家恩;徐波
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：流利度评分是目前计算机辅助自动发音评分系统中一个重要组成部分。为了解决流利度特征表述中和内容、韵律等高级表述技巧相关的广义流利问题，该文提出了一种能够全面客观地评价口语流利度通顺性和韵律性的评分方法。该方法除了通顺性之外，可以提取停顿、韵律、连读和失去爆破等特征; 评分过程中，系统采用多层次融合方法，分别从句子级和篇章级提取流利度特征，其中篇章级得分由句子级加权得分和篇章级特征进行融合得到。在实验中，分别以机器得分和人工平均分的相关度、均方差等指标比较了多元线性回归(LR)、BP神经网络、支持向量回归机(SVR)3种算法的性能。结果表明：基于非线性建模的BP神经网络和支持向量回归机拟合的得分模型要好于多元线性回归；该方法可以作为一个重要指标，应用在计算机辅助语音评分系统中。
57.基于音素混淆的语音确认研究
- 徐爽;浦剑涛;徐波
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：语音确认是许多自动语音处理系统的重要环节，其目的是判断输入语音与指定文本的内容一致性。本文提出一种基于音素混淆的语音确认方法，它不仅具备良好的语音确认性能，而且可以根据系统需求进行灵活优化和调整。实验结果表明，该方法完全可以满足实际应用的需求，并在速度和灵活性上优于基于后验概率的语音确认方法。
58.语音处理上如何逐渐减少对具体语料的依赖？
- 曹剑芬
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：为寻找解决语音处理上对大量具体语料的依赖及其繁重处理问题的出路，该文首先通过对语音处理的根本目标与语音技术的当前工艺的分析，指出了这种依赖性的根源。接着通过对语音多变的不可避免性与"声学不变量"的相对性的阐述，说明语音的变化并非完全不可知，进而指出解决问题的关键在于充分认识语音变化的规律性和在处理系统中综合利用这些规律。最后，提出一个解决策略，基本原则就是通过完善语料库建设来促进知识与语料的有机结合，逐步以相对关系上的"声学不变量"来取代具体语料的作用。并对相关语料库的建设提出了初步设想。
59.基于VP树结构的多层匹配算法在哼唱识别中的应用
- 侯珏;刘轶;郑方;蒋丹宁;秦勇;程刚;刘勇
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：哼唱识别是音频检索的一个重要应用，其难点是音频歌曲数据的非结构性以及搜索速度和准确率平衡的问题。本文提出了新的数据库构造方法，将音频歌曲集用手工标注方法提取主旋律并且按自然演唱停顿方式进行分段，采用段落结构而不是整首歌作为索引。同时，提出了一种基于VP树的搜索结构以及相应的多级搜索算法，在快速匹配层采用粗搜索算法，在精确匹配层采用基于动态时间规整算法。实验证明，在对检出率影响不大的前提下，识别速度提高了40%以上。
60.基于韵律语段的语音情感识别方法研究
- 韩文静;李海峰
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：语音情感识别领域提取情感特征时，普遍采用"不同情感类别，相同时长基准"的做法，忽略了人耳敏感的韵律段长会依情感不同而有所差异的现象。本文首先通过情感识别实验确定各类情感的最佳识别段长，作为人耳敏感韵律段长。并构造了基于韵律段特征的多重Elman网络模型，以期对不同情感基于特定敏感韵律段长进行识别和对多分类器识别结果进行有效融合，实现了对人耳情感辨识规律的模拟。实验表明，使用敏感韵律段特征的系统识别率达到67.9%，与使用定长语段特征相比有了很大的提高。
61.用于哼唱识别精确匹配的线性伸缩动态规划算法
- 曹文晓;刘轶;郑方;蒋丹宁;秦勇
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文提出一种用于哼唱识别精确匹配的线性伸缩动态规划算法。该算法将哼唱旋律切割成句子，对每一句子线性伸缩匹配同时在句子层次进行动态规划获得最优路径。该算法更有效利用了哼唱语音的分段特性并克服了动态规划在长路径时可能丢失全局最优路径的缺点。在5223首歌曲数据库上同等条件下该算法正确率相比线性伸缩、动态规划及递归匹配分别提高10.5%、6.0%和2.8%。该算法具有更高准确率和更小时间复杂度，是一种更有效的精确匹配算法。
62.离散分数余弦变换在话音隐秘通信中的应用
- 包永强;沈卫康;陶友龙;高娅
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：随着军事、安全等方面要求的日益增长，语音信息隐藏技术成为了语音信号处理和信息安全领域的热点和难点，并得到了迅猛发展。本文将分数余弦变换应用到语音信息隐藏中，通过分析得到分数余弦变换的第3参数呈高频特性，提出了一种基于分数余弦变换的嵌入方法和过零率检测方法；本文还分析提出了分数余弦变换域上的低比特嵌入法。实验仿真结果可得这两种方法具有一定的抗干扰能力，为分数余弦变换应用于语音信息隐藏提供了一种新的思路。
63.基于分数规整的发音方式鲁棒的说话人识别研究
- 王琳琳;张利鹏;徐明星
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：实际环境下，一个说话人识别系统的性能受到很多因素的影响，说话人自身发音方式的变化所引起的训练与识别语音的不匹配是其中很重要的一个方面。本文以一个含有多种发音方式变化的数据库为基础，对于不限定发音方式变化类型的情形，在分数域提出了一系列发音方式分数规整(S-Norm)的解决方法。实验结果表明，SZ-Norm、ST-Norm及SZT-Norm的做法均使系统的整体性能在基线基础上有了明显提高，尤其是在SZT-Norm的情况下等错误率下降约为26%，这说明基于分数规整的方法是有效的。
64.面向情感转换的层次化韵律分析与建模
- 徐俊;蔡莲红
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：语音的韵律特征对情感表达起着非常重要的作用。在基于韵律修改的情感语音转换系统中，为了更为准确地预测情感语音的韵律特征，该文提出一种层次化的韵律分析与建模方法，针对愤怒、高兴、悲伤、惊奇这4种情感对语音按照韵律结构的层级进行分析，探讨不同层次之间情感韵律特征变化规律的关联性和叠加性，并使用高层音段信息作为输入对低层信息进行决策树建模。实验结果表明，本方法对情感韵律特征的预测均方误差比局部分音段以及传统的决策树韵律模型低大约5%。
65.拼接语音合成系统中的韵律自适应研究
- 贾惠彬;陶建华;于剑
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文提出了一种新的、基于拼接语音合成系统的韵律自适应模型。该模型能够利用目标说话人少量的语料使语音合成系统合成具有目标说话人韵律特征的语音。同基于平行语料的韵律转换方法相比，本文所提出的韵律自适应模型与语音合成的韵律生成模型结合更加紧密。本文采用的拼接语音合成系统的韵律模型由两部分组成，韵律样本库和韵律预测树。基于此模型，本文提出的韵律自适应模型也包括两部分：对韵律样本库的自适应和对韵律预测树的自适应。实验结果证明，相比传统的韵律转换，结合韵律自适应模型生成的语音与目标说话人在韵律表现上更加接近。
66.内爆音发音机理的声学表现--壮语内爆音的声学分析
- 周学文
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文对壮语北部方言红水河土语中存在的内爆音现象从声学分析和声学表现上进行了研究。按照传统观点，内爆音的发音机制主要是内爆塞音口腔闭塞期间的喉头的下降造成口腔负气压(相对于外界气压)，口腔打开后引起的外围气流被"吸入"。本文对壮语北部方言红水河土语中13对清辅音/内爆音严整对立的单音节词(元音和声调均相同)从声波图表现、语图表现和元音音高和功率的角度进行了声学比较分析，结果显示，与传统的观点不同，内爆音的关键发音机制可能是基于通过下声门的气流和气压增大造成的，而且造成后接元音强度的显著增大，而口腔负气压引起的外围气流被"吸入"等表现仅仅是次要和伴随特征，内爆音与其说是承载于辅音，不如说是承载于整个音节。
67.HMM语音合成中基频清浊音优化算法研究
- 康世胤;段全盛;双志伟;秦勇;蔡莲红
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文提出一种用于HMM参数化语音合成的针对清浊音优化的基频建模和预测方法。在参数化合成方法中，清浊音预测直接决定激励源的选择，对合成质量有关键影响。针对这一问题，该方法从基频参数提取和预测两个方面同时入手，使用语料标注信息参与基频提取，建立音节清浊音转换时刻的高斯混合模型预测基频，改善清浊音判决质量。合成语音的听测实验表明，该方法与原系统相比，合成音质和韵律都有较大改善，MOS评分由3.0升至3.5。
68.针对少数民族的汉语发音质量评估系统研究
- 葛凤培;潘复平;董滨;颜永红
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：在计算机辅助语言学习系统中，不同音素间的声学混淆现象严重影响发音质量评估的准确性。特别是对少数民族地区学习者来说，地方口音更会加剧这种声学混淆的严重性。为解决这一难题，本文提出了一种新颖的精细音子串联的汉语音节结构来对声学空间进行建模，并尝试了多种音素拆分策略，此外还对决策树的问题集设计进行了细致地研究。试验结果表明：与传统的声韵结构相比，这种优化的精细音子音节结构能够有效地缓解不同音素间的声学混淆，改善声学模型的建模精度。
69.一种基于样本和特征选择的语种识别方法
- 宋彦;雷文辉;戴礼荣
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：区分性训练法方法是提高面向电话语音的语种识别系统性能的关键技术，基于GMM-SVM的系统是其中一种重要的识别系统。采用SVM方法在语种识别应用存在的主要问题包括：1)训练和测试数据之间的不匹配，如说话人、信道、噪声、语音段时长等；2)特征空间的冗余。针对上述问题，本文提出了一种基于样本和特征选择的GMM-SVM方法，并结合因子分析方法“去噪”。在NIST07识别30秒、10秒和3秒的测试任务中，本文所提出的方法与基线系统相比性能有明显提高，EER相对下降了约20%-30%。
70.汉语'是'和'连'标记的焦点成分语音特征研究
- 贾媛;李爱军;陈轶亚
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：该研究通过声学实验系统地考察了汉语中，由"是"和"连"标记的焦点成分的语音特征。研究指出：⑴ 由"是"和"连"所标记的焦点成分，对音高和时长作用的相同点表现在，将焦点位置音高显著抬高，时长显著拉长，将焦点后成分音高显著压低；⑵ 这两类焦点成分可以与窄焦点实现叠加，叠加的的焦点比句法标记焦点，或窄焦点对音高和时长的作用更为显著；⑶ 这两类句法标记的焦点，可以与窄焦点在同一个句子中的不同位置，实现音高突显；⑷ "是"和"连"所标记的焦点成分语音特征的差异性表现在，"是"所标记的焦点，强度比"连"标记的成分强：对音高和时长的抬高和拉长作用更显著。
71.送气辅音与非送气辅音的区别特征参数
- 冯晓亮;孟子厚
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：送气辅音与非送气辅音是普通话辅音中的一对区别特征，在实际应用中需要寻找与之对应的特征参数。传统的MEL能量参数无法对这对特征进行有效的区别，该文在时频域使用Wigner分布，提取基于Wigner分布的特征参数做为送气辅音和非送气辅音的区别特征参数。经过一个较大语料库的测试，结果显示新的参数能够有效区别这两类不同的辅音，并且有较好的区分效果。
72.基于混叠效应下听感相似度的普通话声母聚类分析
- 章斯宇;孟子厚
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：通过汉语普通话单音节清晰度听觉混淆实验考察混响所带来的混叠效应对普通话声母听感相似度的影响，并进一步比较在混响和噪声这两种不同的声学传递条件下声母听觉混淆情况间的差异，结果发现二者之间存在明显的差别。混叠效应下声母听感相似度的绝对量值明显高于噪声掩蔽下的值。且在混叠效应下声母的聚类关系大体上是按照发音部位形成的，而噪声掩蔽条件下的聚类关系大体上是按照发音方式形成的。这对思考构建合理的声母区别特征体系有启发意义。
73.一种基于Gammatone滤波和FrFT的抗噪语音识别方法
- 尹辉;谢湘;匡镜明
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：人耳听觉系统在噪声条件下具有自动语音识别(ASR)系统无法比拟的优良性能，将代表人耳时频处理特性的听觉模型应用到ASR系统中有望提高系统性能。语音信号是一种非平稳信号，而分数阶Fourier变换(FrFT)在处理调频信号方面有着独特的优势。本文采用Gammatone滤波器组对语音进行前端时域滤波，之后将每个子带信号依chirp假设应用FrFT来提取声学特征，FrFT的变换阶数由模糊函数自适应地计算得到。在干净与混噪的汉语孤立数字库上进行的识别实验结果表明，所提特征性能比MFCC有大幅度的提高。
74.基于GMM的流行音乐情感识别研究
- 张飞弦;张伟;谢湘
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：音乐携带了大量的情感信息，音乐情感的识别已经成为人们关注的研究热点。对于它的研究在音乐数据库管理、音乐检索等方面有广阔的应用前景。本文提出了一种新的基于GMM的流行音乐情感识别研究方法; 建立了流行音乐数据库; 并采用Thayer情感认知模型，分析并提取了声学层和旋律层情感特征参数，用于不同类别的情感分类实验。实验结果表明针对本论文采用的数据库的第一层次两类情感的类正确率平均达85%以上，针对第二层次四类情感的分类正确率达65%以上。进一步引入模糊理论，实现了音乐片断的情感成分分析。
75.汉语普通话双音节句实验研究
- 王瑞;曹文
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：该文主要研究双音节句在不同焦点、语气下的表现。目的是为了考察汉语双音节组合的调形模式是否以及如何受到语调影响。实验设计了16组双音节目标句，每组包含宽、前、后3种焦点和陈述、疑问两种语气。实验结果描述出16个双音节组合中前焦和后焦的聚焦模式，其中包括含有上声的组合。实验发现，在聚焦手段中，前后音节的高音点差值在16个组合中都起到了区分焦点的作用，并再次证明汉语语调存在稳定的"二字组基本单元"；双音节句的疑问语气信息由高音点的位置决定，疑问与陈述语气的差异突出表现为疑问语气的高音点更高。
76.藏语玛曲话元音央化分析
- 龙从军
- 《第十届全国人机语音通讯学术会议》 | 2009年
摘要：本文阐释玛曲元音央化现象，央化包括高元音[i]、[u]向低央元音[e]的演化，低元音[e]与拉萨话及标杆元音[a]相比来说，是一种央化现象，其开口度较低，舌位靠后。文章主要采用共振峰模式比较，认为央化是单元音复化、裂化产生滑音最终达到目的音。从总体上看，在玛曲话中，发元音时声带处于比较松弛、省力的状态。