掌桥科研
一站式科研服务平台
科技查新
收录引用
专题文献检索
外文数据库(机构版)
更多产品
首页
成为会员
我要充值
退出
我的积分:
中文会员
开通
中文文献批量获取
外文会员
开通
外文文献批量获取
我的订单
会员中心
我的包量
我的余额
登录/注册
文献导航
中文期刊
>
中文会议
>
中文学位
>
中国专利
>
外文期刊
>
外文会议
>
外文学位
>
外国专利
>
外文OA文献
>
外文科技报告
>
中文图书
>
外文图书
>
工业技术
基础科学
医药卫生
农业科学
教科文艺
经济财政
社会科学
哲学政法
其他
工业技术
基础科学
医药卫生
农业科学
教科文艺
经济财政
社会科学
哲学政法
其他
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
材料科学
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
马克思主义、列宁主义、毛泽东思想、邓小平理论
哲学、宗教
社会科学总论
政治、法律
军事
经济
文化、科学、教育、体育
语言、文字
文学
艺术
历史、地理
自然科学总论
数理科学和化学
天文学、地球科学
生物科学
医药、卫生
农业科学
工业技术
交通运输
航空、航天
环境科学、安全科学
综合性图书
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
材料科学
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
自然科学总论
数学、物理、化学、力学
天文学、地球科学
生物科技
医学、药学、卫生
航空航天、军事
农林牧渔
机械、仪表工业
化工、能源
冶金矿业
电子学、通信
计算机、自动化
土木、建筑、水利
交通运输
轻工业技术
材料科学
电工技术
一般工业技术
环境科学、安全科学
图书馆学、情报学
社会科学
其他
美国国防部AD报告
美国能源部DE报告
美国航空航天局NASA报告
美国商务部PB报告
外军国防科技报告
美国国防部
美国参联会主席指示
美国海军
美国空军
美国陆军
美国海军陆战队
美国国防技术信息中心(DTIC)
美军标
美国航空航天局(NASA)
战略与国际研究中心
美国国土安全数字图书馆
美国科学研究出版社
兰德公司
美国政府问责局
香港科技大学图书馆
美国海军研究生院图书馆
OALIB数据库
在线学术档案数据库
数字空间系统
剑桥大学机构知识库
欧洲核子研究中心机构库
美国密西根大学论文库
美国政府出版局(GPO)
加利福尼亚大学数字图书馆
美国国家学术出版社
美国国防大学出版社
美国能源部文献库
美国国防高级研究计划局
美国陆军协会
美国陆军研究实验室
英国空军
美国国家科学基金会
美国战略与国际研究中心-导弹威胁网
美国科学与国际安全研究所
法国国际关系战略研究院
法国国际关系研究所
国际宇航联合会
美国防务日报
国会研究处
美国海运司令部
北约
盟军快速反应部队
北约浅水行动卓越中心
北约盟军地面部队司令部
北约通信信息局
北约稳定政策卓越中心
美国国会研究服务处
美国国防预算办公室
美国陆军技术手册
一般OA
科技期刊论文
科技会议论文
图书
科技报告
科技专著
标准
其它
美国卫生研究院文献
分子生物学
神经科学
药学
外科
临床神经病学
肿瘤学
细胞生物学
遗传学
公共卫生&环境&职业病
应用微生物学
全科医学
免疫学
动物学
精神病学
兽医学
心血管
放射&核医学&医学影像学
儿科
医学进展
微生物学
护理学
生物学
牙科&口腔外科
毒理学
生理学
医院管理
妇产科学
病理学
生化技术
胃肠&肝脏病学
运动科学
心理学
营养学
血液学
泌尿科学&肾病学
生物医学工程
感染病
生物物理学
矫形
外周血管病
药物化学
皮肤病学
康复学
眼科学
行为科学
呼吸学
进化生物学
老年医学
耳鼻喉科学
发育生物学
寄生虫学
病毒学
医学实验室检查技术
生殖生物学
风湿病学
麻醉学
危重病护理
生物材料
移植
医学情报
其他学科
人类生活必需品
作业;运输
化学;冶金
纺织;造纸
固定建筑物
机械工程;照明;加热;武器;爆破
物理
电学
人类生活必需品
作业;运输
化学;冶金
纺织;造纸
固定建筑物
机械工程;照明;加热;武器;爆破
物理
电学
马克思主义、列宁主义、毛泽东思想、邓小平理论
哲学、宗教
社会科学总论
政治、法律
军事
经济
文化、科学、教育、体育
语言、文字
文学
艺术
历史、地理
自然科学总论
数理科学和化学
天文学、地球科学
生物科学
医药、卫生
农业科学
工业技术
交通运输
航空、航天
环境科学、安全科学
综合性图书
主题
主题
题名
作者
关键词
摘要
高级搜索 >
外文期刊
外文会议
外文学位
外国专利
外文图书
外文OA文献
中文期刊
中文会议
中文学位
中国专利
中文图书
外文科技报告
清除
历史搜索
清空历史
首页
>
中文会议
>
工业技术
>
无线电电子学与电信技术
>
第十届全国人机语音通讯学术会议
第十届全国人机语音通讯学术会议
召开年:
2009
召开地:
乌鲁木齐
出版时间:
2009-08-14
主办单位:
中国中文信息学会
会议文集:
第十届全国人机语音通讯学术会议论文集
会议论文
热门论文
全部论文
相关中文期刊
中国信息界
数据通信
通信与广播电视
无线电
激光与红外
真空电器技术
电子机械工程
微细加工技术
中兴通讯技术
音响世界
更多>>
相关外文期刊
Electrical Engineers, Journal of the Institution of
Total Telecom Magazine
Antennas and Wireless Propagation Letters, IEEE
Journal of mobile multimedia
IEEE Microwave and Guided Wave Letters
IEEE Photonics Technology Letters
IEEE Transactions on Vehicular Technology
Telecommunications Americas
International journal of communication systems
New Electronics
更多>>
相关中文会议
2010中国数字电视与网络发展高峰论坛暨第十八届全国有线电视综合信息网学术研讨会
第一届有线电视产业发展论坛大会暨第八届全国有线电视技术研讨会(NCTC·2005)
首都信息网络发展学术研讨会
第五届中国通信网络运维年会暨安全生产研讨会
2006年中国通信学会通信管理委员会学术研讨会
第十四届全国微波磁学会议
第二届中国光纤器件发展研讨会
中国卫星通信广播电视技术第七届国际研讨会暨卫星通信广播电视与航天应用国际论坛
2009年全国无线电应用与管理学术会议
第七届全国雷达学术年会
更多>>
相关外文会议
High-power laser materials processing: lasers, beam delivery, diagnostics, and applications III
International Conference on Imaging Science,Systems,and Technology CISST'99 Une 28-July 1, 1999 Las Vegas, Nevada, USA
Integrated Optic Devices II
Terahertz, RF, millimeter, and submillimeter-wave technology and applications VI
Electrochemical Society(ECS) Meeting;Symposium on Electrodeposition of Nanoengineered Materials and Alloys; 20071007-12;20071007-12; Washington,DC(US);Washington,DC(US)
High-power, high-energy, and high-intensity laser technology III
Advances in Resist Technology and Processing XXIV pt.1; Proceedings of SPIE-The International Society for Optical Engineering; vol.6519 pt.1
Fifth Conference on Electronic Publishing, Jul 5-7, 2001, Kent, United Kingdom
Conference on Terabit Optical Networking: Architecture, Control, and Management Issues, Nov 6-7, 2000, Boston, USA
International Conference on Semiconductor Technology for Ultra Large Scale Integrated Circuits and Thin Film Transistors;ULSIC vs. TFT; 20070729-0803;20070729-0803; arga(IT);Barga(IT)
更多>>
热门会议
2015第十届全国体育科学大会
2019年中国城市规划年会
2018中国城市规划年会
中国工程热物理学会2014年年会
第三届世界灾害护理大会
第30届中国气象学会年会
2017年中国地球科学联合学术年会(CGU2017)
中华医学会第十八次全国儿科学术会议
2006中国科协年会
2011年第二十八届中国气象学会年会
更多>>
最新会议
2005中国首届国际铜板带研讨会
全国小儿病毒性肝炎学术会议
模糊系统及其应用成果学术交流会
中国金属学会高温合金中微量元素的控制及其作用鉴定会
中国有色金属学会冶金设备学术委员会第一届年会
2003年全国理论计算机科学学术年会
2015年齐鲁高教论坛
中国石油学会油品应用技术交流会
中国化工学会第一届流体流动传热传质及燃烧技术会
中国金属学会第四界炭素材料年会
更多>>
全选(
0
)
清除
导出
1.
中国少数民族语言语音声学参数数据库的研制方法
呼和
;
哈斯其木格
;
周学文
;
乌日格喜乐图
;
郑玉玲
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文主要探讨了语音声学参数数据库研制方法中的语料、功能字段和声学参数的设计等问题,提出了声学参数采集方法及其原则。
少数民族语言;
语音声学参数;
语音数据库;
功能字段;
2.
基于增量估计的快速高斯计算
钱胜
;
吕萍
;
吴及
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文分析讨论了连续语音识别系统中的快速高斯计算问题。语音信号的短时平稳特性,使得相邻语音帧可能共享相似的分布。利用该特性,估计当前帧与基准帧间似然值增量的最大值,以此减少似然值的精确计算量。这种快速高斯计算方法称为最大概率增量估计算法。本文深入讨论了该算法在实际应用中的若干问题:增量上界估计、最优高斯候选、风险因子等。实验结果表明,在几乎不损失识别率的情况下,MPIE算法可节约40%的维数计算,解码速度相对提高10%。
语音识别;
快速高斯计算;
增量估计;
最优高斯候选;
风险因子;
3.
基于情感分数曲线的语音情感变化检测
徐露
;
徐明星
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
在实际应用中,语音情感变化的检测比单纯的语音情感识别具有更广泛的应用前景,而目前关于语音情感变化检测的研究却很少。为了实现语音情感变化检测,本文研究了基于情感分数曲线的检测方法。首先将情感语音划分成一些语音段,采用基于频谱特征的方法进行情感识别,得到情感分数曲线。然后根据情感分数曲线的变化规律,确定发生情感变化的时间范围。针对该方法正确率较低的问题,对其进行了分析和改进,改进后的方法可以达到86.1%的正确率,并且具有比较稳定的检测性能。
语音识别;
情感识别;
情感计算;
情感变化检测;
频谱特征;
4.
汉语语篇语义层级结构边界韵律表现
杨晓虹
;
杨玉芳
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文考察了语篇修辞层级结构边界的韵律表现。对由20个语篇构成的语料库进行了修辞结构的层级标注和声学分析。声学参数主要采用小句边界处无声段,音高重置和边界前音节延长。研究得到以下主要结论:(1)小句边界处无声段和高音点重置是语篇修辞层级结构的主要声学线索。小句边界在语篇层级结构中的位置越高,边界处无声段越长,边界处高音点重置的值越大。但是语篇结构中小句边界处的无声段延长和高音点重置增大也是有限度的。(2)小句边界处低音点重置和边界前音节延长都不是区分语篇修辞层级结构的有效线索。
修辞结构理论;
汉语语篇;
语义层级边界;
层级标注;
声学分析;
5.
情感表达的跨文化多模态感知研究
李爱军
;
邵鹏飞
;
党建武
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
视频和音频两个模态的信息在交际过程中起着至关重要的作用,本研究关注的问题是情感表达中不同文化背景的听者对情感的感知(解码)与这两个模态(面部表情和情感声音)的关系。发音人为中国人,录制她的5个语句的7种情感(6种基本情感+中性情感)的音频和面部表情,制作三类刺激:只有音频信息(A-only)、只有面部视频信息(V-only)以及视频和音频同步信息(AV-Congruent)。听辨人为10名不会日语的中国人和10名不会汉语的日本人。对听辨结果分析发现,面部视频信息的加入有益于情感的感知,视频和音频信息在跨文化的情感解码中起着不同的作用,与情感的唤醒度arousal有密切的关系,相关距离空间分布模式说明听辨结果具有稳定性,跨文化的情感感知存在普遍的心理基础。
情感表达;
语音感知;
面部表情;
跨文化感知;
6.
基于分数阶付立叶变换的谱减法及其语音增强应用
马多佳
;
谢湘
;
匡镜明
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
利用分数阶付立叶变换(FrFT)在时频分析上的特点,提出一种新的谱减法-分数阶谱减法。首先,对每一帧带噪语音进行的分数阶付立叶变换,通过使得分数阶谱减法的信噪比达到最大从而确定最佳变换阶数。其中,分数阶谱减法关键的噪声分数阶功率谱的估计采用最小统计估计,带噪语音的分数阶功率谱减去噪声分数阶功率谱以得到增强的语音分数阶功率谱,最后,通过逆分数阶付立叶变换(IFrFT)得到增强后的语音信号。在实验中验证了这种新方法在信噪比和Itakura-Saito LPC距离上都优于传统的谱减法。
噪声消除;
语音增强;
分数阶付立叶变换;
谱减法;
信噪比;
7.
基于语言模型的中文文本分类系统
杜鲁燕
;
苗振江
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
文本分类技术是近年来自然语言处理研究领域的一个热点,向量空间模型(VSM)是文本分类的经典模型,该模型在应用时假设词与词之间是相互独立的,忽略了任何词序上的相互关系,但是在几乎所有的应用中,词的相对顺序是非常有意义的,针对该特点研究了统计语言模型(LM)并将该模型应用到文本分类上,高阶的语言模型在一定程度上包含了词序信息,根据该方法设计并实现了Bigram模型文本分类器,实验结果表明,在分类准确率和稳定性上,该方法优于传统的向量空间模型。
中文文本分类;
语言模型;
向量空间模型;
统计平滑;
自然语言处理;
8.
基于环境特征的语音识别置信度研究
国玉晶
;
刘刚
;
刘健
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
传统的语音识别置信度方法基于各种静态特征进行分类判决,而忽略了词与周围环境之间的关系所携带的信息。为了进一步提高置信度特征的分类性能,本文提出了上下文环境、动态环境、句全局环境共三类五种环境特征,从空间与时间角度较全面地描述了词与环境之间的关系。实验结果证明,静态特征与环境特征联合分类的性能与只用静态特征相比有不同程度的提高,其中,静态环境与环境特征的二元联合最高有5.02%的相对改进,三元联合最高有6.11%的相对改进,说明环境特征确实是一种有价值的置信度特征,并且这几类环境特征之间存在一定的独立性。
语音识别;
置信度;
后验概率;
环境特征;
上下文环境;
9.
一种语音频带扩展的方法及其改进
何勇军
;
韩纪庆
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
在语音通信系统中,由于信道频带的限制或编码的原因,语音的频带被控制在0.3kHz~3.4 kHz的范围内,这损失了语音的质量和可懂度。近年来,语音频带的人工扩展应运而生,也就是在接收端通过窄带语音信号生成宽带语音信号,补偿损失的高频段以恢复语音的质量,音色以及可懂度。基于频谱折叠然后滤波的方法在计算复杂度和重构效果上都明显优于其他方法,但该方法可能出现频带间隙,影响了其广泛应用。本文对该方法进行了改进,有效地解决了该方法存在的问题。
语音频带扩展;
频谱折叠;
语音重构;
语音通信系统;
信道频带;
10.
基于RASTA-DMFCC的说话人确认系统研究
康丹丹
;
苗振江
;
胡绍海
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文描述了一个与文本无关的说话人确认系统,并对前端处理作了实验研究。运用动态特征提高参数的鲁棒性。针对测试环境和训练环境的失配,采用RASTA滤波进行信道补偿。实验结果表明:动态MFCC能更好地反映各种声学特征,因此使实验结果的DET曲线都更接近于原点,使得拒识率和误识率都有所降低,对两个数据库A和B,EER都相对下降20%以上。当测试环境和训练环境不匹配时,使用RASTA滤波技术可以提取有效的特征参数,提高系统性能,EER相对下降24.88%。
说话人确认;
动态MFCC;
相对谱滤波;
RASTA滤波;
信道补偿;
鲁棒性;
11.
面向情感变化检测的汉语情感语音数据库
徐露
;
徐明星
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文介绍了面向普通话情感变化检测的情感语音数据库CESD。本数据库也可以作为训练和测试样本用于语音情感识别的研究。语音以对话形式录制,包括男女声情感对话语音1200段。以生气、着急、中性、愉悦、高兴为基本情感,共包含20种情感变化模式。除语音文件外,还包含带有静音段/有效语音段、情感类别、情感变化段、情感质量等内容的标注文件。为了使更多的研究人员可以使用本数据库,利用Praat工具提取出67维常用声学特征,作为特征文件一同存储在本数据库中。
语音识别;
情感识别;
语音数据库;
声学特征;
12.
不同朗读语体重音的韵律特征研究
陈玉东
;
杨玉芳
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
为满足言语工程需要,基于大规模语料库,选择了记叙文、说明文、议论文、新闻和专题五种朗读语体,在时长、音高方面对其重音特征进行分析。结果表明,各语体在总体特征、重音突显和语调构造方面存在不同。记叙文、说明文和议论文更多利用时长手段来突显重音,趋于一致;新闻和专题更多利用音高手段来突显重音,趋于一致。议论文时长和音高手段都较突出,突显程度最高,反映了对重音突显的高度需求;新闻语速快、变化小,在音高上也显得平稳,体现了迅捷、整齐的风格。
朗读语体;
重音韵律;
语料库;
重音突显;
语调构造;
13.
多发音方式下的说话人识别研究
张利鹏
;
王琳琳
;
徐明星
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
人在说话的时候有各种各样的发音方式,如不同的语言;带情感的发音;快速与慢速、大声与小声等等。如果不做任何处理,直接用传统的说话人识别方法来处理,结果会比较差。因此,本论文研究如何降低由人的发音方式不同而导致的说话人识别性能下降。首先,进行多发音方式数据采集的设计,选择现实生活中常见的发音方式做研究;接下来在模型域提出基于多发音方式背景模型融合和模型补偿的改进系统方案;最后给出基线系统和改进系统的实验和分析结果。实验表明,由人的因素产生的发音方式不同对说话人识别有着重要的影响,本文论述的方法能够有效降低此影响。
说话人识别;
发音方式;
多系统融合;
模型补偿;
鲁棒性;
14.
汉语普通话与沈阳方言转换的研究
贾珈
;
蔡莲红
;
李明
;
张帅
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
中国地域辽阔,汉语包括多种方言。方言转换技术可实现方言间语音的转换,丰富语音交流的方式,增强语音交流的可懂性、友好性和趣味性。该文分析了普通话与沈阳方言在声调调类与调值、时长和特殊词等方面的差异;探讨了普通话与沈阳方言转换的可行性;提出了基于混合聚类算法的方言基频转换模型、基于统计的方言时长转换模型和基于加权有限状态机的特殊词识别算法;通过基本转换和说话人音色还原构建了方言转换系统,实现了实时普通话语音输入,沈阳方言语音输出。评测结果显示通过方言转换系统得到的方言语音与目标方言语音具有较高相似度。
汉语普通话;
方言转换;
基频聚类;
时长统计;
语音识别;
音色还原;
15.
基于泛化和繁殖的自举式意见目标抽取方法
郝博一
;
夏云庆
;
邬晓钧
;
郑方
;
刘轶
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
意见目标抽取是意见挖掘研究中的重要环节。现有方法的主要问题是将人工标注的意见目标直接视为"种子"进行意见目标扩展。本文提出了一种基于泛化、繁殖和自举的意见目标抽取方法,在泛化过程中提炼原子意见目标和意见目标模式,在繁殖过程中对复合意见目标进行扩展,并采取自举机制实现了意见目标的递增学习。实验结果显示,本文方法在自举过程的第一轮就在F-1分数上超出基线方法0.078;自举过程完成后,本文方法在F-1分数上提高了0.112。这说明,泛化处理对意见目标充分繁殖意义重大,自举过程则有助于充分发挥泛化能力和繁殖能力。
意见目标抽取;
意见挖掘;
自然语言处理;
文本挖掘;
泛化;
繁殖过程;
16.
基于人工神经网络的音乐和弦实时感知
孙佳音
;
李海峰
;
雷理
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
和弦的识别是音乐调式分析以及自动标注的基础,也对于音乐结构分析及旋律分析等任务有重要的作用,也因此成为音乐信息检索(MIR)领域的热点之一。本文根据音乐认知心理学原理,提出一种基于人工神经网络(ANN)的和弦实时感知方法:首先,我们利用常数Q变换(CQT)对音乐信号进行时频变换,并在所得到的CQT谱上进行音符起始点检测以及音高校准,之后定义了一种全新的音级分布矩阵(PCDM)特征,最后利用ANN作为人脑认知过程的模拟并通过半监督学习方法对和弦进行感知。在多种风格音乐上进行的初步实验表明,所提出的方法以可以接受的计算时间消耗取得相当不错的识别率,是一种很具潜力的方法。
和弦识别;
音级分布矩阵;
CQT谱;
半监督学习;
人工神经网络;
音乐信息检索;
17.
蒙古语连续语音识别在不同结构语言模型下精度的讨论
伊.达瓦
;
匂坂 芳典
;
卢 绪刚
;
中村 哲
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
统计方法处理口语至今仍然是口语处理的核心技术. 目前处理水平较高的英语,中文及日本语等语言均采用统计处理方法. 但是,各自语言存在独特的发音方式和文本构造,即使是采用同类方法建立语音-语言模型,由于语言本身的差异也会引起性能上的较大差异. 研究和定量分析这种差异对于新语言口语处理性能的改善将有很大帮助. 本文以蒙古语为例研讨了黏着性语言语音识别在使用不同结构语言模型时的识别精度. 结果显示和常用bigram模型和聚类模型相比,通过相似词分类后的聚类模型可以提高识别精度.
蒙古语;
连续语语音识别;
统计语言模型;
黏着语言;
相似词分类;
bigram模型;
18.
仓央嘉措情歌的词汇组合与节律的关系研究
李永宏
;
周一心
;
于洪志
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文利用计算语言学的统计方法对仓央嘉措的124首情歌进行了节律方面的研究。建立了藏汉对照语诗歌节奏类型库,得出了8种主要的诗句词汇组合类型,并对每一种类型在诗歌中出现的情况进行了统计分析,为谐体民歌的韵律节奏研究奠定了良好的基础。
仓央嘉措情歌;
词汇组合;
诗歌节律;
计算语言学;
19.
一个嵌入式中文语音合成系统的设计与实现
郭庆
;
王彬
;
于浩
;
直井聪
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文中,对富士通嵌入式中文语音合成系统的设计与实现进行了描述。该系统是一个以音节为基本合成单元,在预测韵律参数的指导下,从音库中搜寻全局最优的合成单元,然后采用PSOLA算法进行波形调整的拼接合成系统。从为了满足在资源有限的嵌入式设备上实现嵌入式语音合成系统的角度出发,本文围绕音库压缩和韵律词组词算法改进等方面进行了描述。最后,给出了音库压缩、韵律词组词算法的实验结果,并且给出了在一款智能手机上实现的嵌入式合成系统的性能指标及设备参数。
嵌入式语音合成;
中文语音合成;
音库压缩;
韵律词组词;
PSOLA算法;
20.
结构等价型模糊RBF神经网络用于语音识别的研究
张雪英
;
李高云
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
针对模糊系统和神经网络各自的不足,构建了基于模糊RBF神经网络的语音识别系统,提出了一种结构等价型模糊RBF神经网络和学习算法,采用五层神经网络结构来实现模糊系统的模糊化和规则推理,神经网络的所有节点和参数对应模糊系统的隶属度函数和推理过程。该网络利用模糊推理系统和RBF网络的等价特性,可以自动确定模糊规则数和隶属度函数,解决了模糊系统如何自动生成和调整隶属度函数和模糊规则的难题。将结构等价型模糊RBF神经网络应用到语音识别系统中,实验结果表明该方法的识别结果优于RBF 网络的识别结果,且具有较好的鲁棒性。
RBF神经网络;
语音识别;
模糊系统;
隶属度函数;
模糊规则;
21.
一个面向少数民族语种识别的电话语音数据库
徐永华
;
杨鉴
;
陈江
;
陈瑶玲
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文介绍一个以语种识别为目的而构建的中国少数民族语电话语音数据库,该数据库包括9种少数民族语和汉语普通话。在该语音数据库中,每种民族语言将选请50个发音人,男女各占一半;每个发音人将有一段谈话录音和20句时间不等的自动问答录音;除汉语发音人外,每个民族语发音人分别用本民族语和汉语普通话完成谈话录音和自动问答录音;整个语音数据库将有950段16分钟左右的谈话录音和19000句时间不等的自动问答录音。该语音数据库的构建对中国少数民族语种识别和口音识别的研究有着至关重要的作用。
少数民族语;
语音数据库;
语种识别;
民族口音;
汉语借词;
22.
临夏方言中心区双音节连读变调的实验研究
胡妍茹
;
陈晨
;
陈小莹
;
于洪志
;
金雅声
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
临夏方言属于官话方言区中原官话片陇中方言的小片。临夏方言在长期的与少数民族的交往中形成了自己独特的特点,其双音节的连读变调更是独具特色。本文主要采用实验语音学的方法,对临夏方言中心区的双音节连读变调的具体情况进行分析。研究结果表明,临夏中心区双音节词的调值变化区域多在3度4度之间,变调类型大体可以归纳为5种。所以在整体上看,临夏中心区双音节词的变调形式较为简单,并且去声为中降调,阳平为中升,因此在听感上临夏方言的语调显得较为平直。
临夏方言;
连读变调;
实验语音学;
23.
基于词类序列的语句韵律结构预测
裴雨来
;
邱金萍
;
王洪君
;
吕士楠
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
文章主要探讨一种操作性较强的、面向CTTS应用的语句韵律词及韵律短语预测系统,这一系统预测韵律结构只依赖语句的词类音节数序列等简单的文本信息。文章区分了现代汉语中韵律结构与语法结构存在对应关系和不存在对应关系的两类单位,并针对两类单位分别采取确定韵律结构和调整韵律结构两步进行处理。此外,我们还深度挖掘了"的、介词"等功能词在韵律短语预测中的作用。在107句语料上测试了融合各种规则、信息的预测系统,韵律词预测正确率达95%,韵律短语预测正确率约81%。
韵律语法;
功能词;
词类序列;
韵律结构;
韵律词预测;
24.
基于EGG信号的安多藏语元音嗓音特征研究
陈小莹
;
陈晨
;
华侃
;
于洪志
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文以藏语安多方言中极具代表性的夏河话为研究对象,利用Real-Time EGG分析软件提取了元音/a/,/e/,/e/,/o/的嗓音参数基频,开商和速度商,并分元音单独出现、带前置辅音、带辅音韵尾和前后都带辅音4种情况进行了讨论。结果表明:3个参数之间有很强的关联性,各种组合方式下前置辅音对嗓音参数的影响不及辅音韵尾的影响程度,当元音前后均接辅音时两者共同作用来影响其嗓音参数;元音之间由于组合方式变化对参数影响趋势基本一致,变化幅度均为元音/e/最大,/o/最小。
藏语安多方言;
EGG信号;
元音基频;
速度商;
开商;
嗓音参数;
25.
汉语语音检索系统的设计与实现
钟岑岑
;
苗振江
;
章洁
;
杜鲁燕
;
康丹丹
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
随着信息技术的快速发展,各种音频、视频数据日益增多,如何高效的定位关键信息具有十分重要的意义。本文主要基于关键词识别、文本分类等技术,设计并实现了一个针对汉语口语的语音检索系统。该系统包括基于关键词识别的后台操作和多功能的语音检索接口两部分,并通过Microsoft Visual C++和MySQL数据库技术进行连接,对于用户输入的文本形式的关键词,以可视、可听、可操作、可追踪的检索结果进行反馈,从而实现对敏感信息的快速检索与定位。本文主要对系统的设计框架、关键技术和实现情况进行介绍。
语音检索;
关键词识别;
文本分类;
MySQL数据库;
26.
一种基于句子分割的文法自动推导算法
张合
;
邬晓钧
;
王晓东
;
郑方
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
信息咨询口语对话系统中的领域文法规则往往需要专家来人工设计。本文针对一种面向汉语口语的上下文无关增强文法,提出了一种基于句子分割的文法自动推导算法。其基本思想是:用初始规则集对训练例句进行分析,若不能得到完整的语法树,则先对分析结果进行消歧和归一化,然后根据顶层成分递归地推导出缺少的规则,并更新已有的规则集。为了提高最终文法的性能,本文在例句处理顺序和规则更新上对算法基本流程做了改进。我们在天气预报查询领域进行了实验,结果文法的句法分析准确率在初始规则集为空时达到了64.8%,在初始规则集只包含日期相关规则时达到了86.4%。
汉语口语;
口语对话系统;
上下文无关增强文法;
文法自动推导;
句子分割;
句法分析;
27.
中心削波法语速自适应汉语语调识别的改进
范京
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
汉语语调参数是汉语音节的重要特征,中心削波法是提取语音基音并进一步进行汉语语调识别的有效方法。由于实用中一般人语音的音调特征差别很大,致使目前各方法对汉语语调的识别率仍然很低。本文在四个方面改进了普通中心削波法。一是采用接续帧定域技术改进了基音变化的连续性,二是对基音的峰的突出特征进行质量评估,并应用于语调的辅助识别,三是采用了新的语调参数模型结构,可以加强对各种特征变化的自适应能力;四是在语调特征参数上改进了普通中心削波法,使用了L1相关技术。另外,对起始帧采用了综合估计技术,从而明显提高了自适应汉语语调识别的正确率。本文从原理上进行了讨论并用实际的测试结果证实了新方法的有效性。
汉语语调模型;
语速自适应;
语调识别;
中心削波法;
28.
面向计算机辅助正音语音语料库的创制与标注
曹文
;
张劲松
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
面向有正音功能的对外汉语计算机辅助发音训练(CAPT)语音语料库的创制与标注是一个新的课题。本文介绍北京语言大学对外汉语CAPT语音语料库的建设思路与方法。该库分两期建设,包括单音节、双音节、三音节、四音节、句子和语段六个子库。该库最大的特点是语料标注可提供声、韵、调教学分析信息。在音段方面,它标注了偏误产生的发音部位、发音方法;在韵律方面,它对声调及其特征点、语调焦点及边界调、停延/间断等也都可以作出发音偏误方面的标注。
对外汉语教学;
语音语料库;
计算机辅助发音训练;
发音偏误;
29.
汉语普通话双音节句实验研究
王瑞
;
曹文
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文研究双音节句在不同焦点、语气下的表现。实验设计了16组双音节目标句,每组包含宽、前、后三种焦点和陈述、疑问两种语气。实验结果描述出16个双音节组合中前焦和后焦的聚焦模式,其中包括含有上声的组合。实验发现,在聚焦手段中,前后音节的高音点差值在16个组合中都起到了区分焦点的作用,并再次证明汉语语调存在稳定的"二字组基本单元";双音节句的疑问语气信息由高音点的位置决定,疑问与陈述语气的差异突出表现为疑问语气的高音点更高。
汉语普通话;
双音节句;
聚焦模式;
语气信息;
30.
MLLR特征的SVM语种识别算法
钟山
;
刘加
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
为了挖掘更多语种间区分性信息进行可靠的自动语种识别,本文提出一种将自适应领域的最大似然线性回归(maximum likelihood linear regression,MLLR)矩阵作为特征的语种识别算法。该算法首先对每个语种训练Gauss混合模型(Gaussian mixture model,GMM),然后对每个语音段在所有语种的GMM上计算MLLR矩阵。将得到的多类MLLR矩阵经归一化后拼接形成超矢量作为特征输入支持向量机(support vector machine,SVM)分类器进行训练和识别。本文比较了均值方差和排序两种归一化方法,并将本文提出的多类MLLR-SVM算法与传统GMM语种识别算法进行对比。实验表明,排序归一化算法优于传统的均值方差归一化;建立在GMM模型基础上的MLLR-SVM系统性能有9.7%的提升,并与GMM分类器有很强的互补性。
语种识别;
最大似然线性回归;
支持向量机;
语种训练;
Gauss混合模型;
31.
维语语音韵律的方言差异
江海燕
;
刘岩
;
卢莉
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本研究从透视乌鲁木齐维语与和田维语的韵律差异的角度来展示维语韵律的一些特点。在听感上,维族人很容易判断这两种维语方言,除了音段特征的不同外,韵律差异是区别的关键。但对这些韵律差异具体体现在哪些方面则一直停留在感性认识阶段,为了更科学地认识维语的韵律特征,本研究通过声学分析的方法探究乌鲁木齐维语与和田维语的韵律差异,找出其差异具体表现在音高走势、语音停顿、韵律单元切分以及音质等方面。
维语;
语音韵律;
方言差异;
音高走势;
声学分析;
32.
说话人识别中的多系统得分融合策略
郭武
;
戴礼荣
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
目前说话人识别中采用多系统融合的策略来提高识别率,融合的策略主流的算法是采用线性逻辑回归的融合策略。这种融合策略是从每个系统得分的总体分布的情况来统一考虑,没有考虑每次测试中不同系统得分的置信度。在本文中,提出对每个系统的每次得分都作一次置信度的判决来决定融合的参数,然后采用线性回归的方法进行融合。在NIST SRE 2006的1训练语段-1测试语段的核心测试任务上,采用置信度的融合方案能够取得等错误率4.08%和最小检测代价函数0.0207。从实验的结果来看,采用置信度的融合算法优于线性逻辑回归的融合算法。
说话人识别;
置信度;
线性逻辑回归;
融合策略;
33.
基于气流气压信号的蒙古语不送气/送气辅音声学研究
胡阿旭
;
金雅声
;
于洪志
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
蒙古语中辅音的的送气与不送气的区别,向来解释为强弱之分,一般认为[p] [k] [t]等不送气音和[pp] [tpu001f] [kpu001f]等送气音的主要区别为前者气流弱后者气流强。而本文利用现代语音学的新方法对此有了进一步的分析。针对蒙古语中塞音和塞擦音的送气和不送气现象,利用美国KAY公司的Phonatory Aerodynamic System 提取蒙古语中塞音和塞擦音的声门上压力和气流量,进行了对比分析,得出蒙古语辅音不送气/送气的区别,不只是简单的强弱之分,更主要在于辅音除阻段的长度和元音起始时间的不同。
蒙古语;
辅音;
气流气压;
不送气音;
送气音;
语音信号处理;
34.
回声隐藏技术中回声核研究综述
李莉
;
宋亚奇
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
回声核构造是回声隐藏算法中关键因素,直接影响到嵌入的不可察觉性、检测正确率、鲁棒性、提取嵌入信息的安全性以及执行效率。首先对回声隐藏技术的最初设想、心理声学原理及最基本的回声隐藏方法进行概述,在此基础上总结了自回声隐藏算法首次提出10多年来国内外对回声隐藏的研究进展情况,主要对回声核的改造做了归纳,同时对各种回声核结构进行了模拟仿真测试,以此对各方法的优缺点进行了分析和比较。最后对全文进行了总结,展望了回声隐藏技术领域的研究热点与发展方向。
回声隐藏;
回声核;
回声核改进;
心理声学;
嵌入信息安全;
35.
基于半音节的藏语连续语音语料库设计
杨阳蕊
;
李永宏
;
于洪志
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
大词汇量连续语音识别系统的性能在很大程度上取决于语音库的质量,而语音库设计的中心环节就是语料选取。本文根据古藏文音韵体系,建立了基于半音节的藏语连续语音语料库。首先10万句藏语文本中的每个字进行了声韵母分离;然后统计了音节内的声韵组合形式和音节间的韵声组合形式;最后在结合半音节组合的覆盖率和稀疏度的基础上,完成了语料抽取算法,设计出具有较高质量,冗余度小的蔵语连续语音语料库。
藏语;
语音语音库;
半音节;
声韵组合;
韵声组合;
语料抽取;
36.
基于经验模态分解和短时分析的说话人研究
刘亚丽
;
杨鸿武
;
周慧
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文提出了一种新的基于经验模态分解和短时分析的说话人研究方法。在特征提取上,利用希尔伯特-黄变换中的经验模态分解法获得语音信号的固有模态函数,再结合短时分析技术获得语音信号的特征参数;在识别算法上,采用传统高斯混合模型进行说话人识别。实验结果表明,本文提出的EMD分解法+短时分析+高斯混合模型比传统的短时分析+高斯混合模型的的方法,在测试集上识别率由90.62%提高到了93.51%。
说话人识别;
经验模态分解法;
高斯混合模型;
短时分析;
语音信号;
37.
语速对韵母时长的影响及其消除
熊子瑜
;
梅晓
;
李健
;
李爱军
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文主要讨论语速的测算和分类问题,试图建立一套能够自动检测语速变化类型的有效方法,以便消除语速对韵母时长的影响,使得规整后的韵母时长能更好地反映语句的韵律节奏特性,以增强韵母时长的可预测性,从而提高对连续语流中韵母时长的预测精度。通过数据对比分析,本文提出以小句作为语速的测算单元,以其实际时长和预测时长的比值作为语速的测算指标,并在此基础上将小句语速区分为快速、中速和慢速三种类型。统计结果表明,消除语速影响之后的韵母时长不仅能更好地反映话语的韵律节奏特性,而且在增加小句语速类型作为控制因子之后,能够在一定程度上提高对连续语流中韵母时长的预测精度。
语音学;
语速测算;
韵母时长;
韵律节奏;
38.
嵌入式语音识别系统的构建
张雪英
;
杨斌斌
;
王玉宏
;
金刚
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
系统以双核处理器OMAP5912为核心并充分利用其外围接口电路设计出了高性能、低功耗、结构紧凑的嵌入式语音识别硬件平台,并采用嵌入式Linux作为软件平台,成功移植了嵌入式语音识别引擎-Pocketsphinx,构建了一个非特定人、实时的嵌入式语音识别系统。实验结果表明系统运行稳定,识别效果良好,并达到了实时识别。
语音识别;
嵌入式系统;
双核处理器;
39.
一种适合HMM汉语语音合成的建模单元挑选算法
段全盛
;
康世胤
;
双志伟
;
吴志勇
;
蔡莲红
;
秦勇
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文比较把不同声学单位作为建模单元时HMM汉语语音合成引擎的合成音质,分析建模单元对HMM语音合成的影响,并提出一种可变建模单元的HMM语音合成方法。考虑语料库的音段切分和HMM建模特点,汉语可以选用音节和声韵母两种单元进行HMM建模。本文分析音节和声韵母做建模单元的优缺点,通过比较实验验证了建模单元长度及相同模式分类下样本数目对HMM语音合成效果有重要的影响。最后本文提出基于样本数的建模单元挑选方法,并使用不同的建模单元进行HMM语音合成。主观评测实验表明本文提出的改进方法有效地提高了合成音质。
语音合成;
隐马尔可夫模型;
建模单元挑选;
音节;
声韵母;
40.
新闻播报言语数据库构建及韵律标注
李晓红
;
朱维彬
;
何伟
;
邹煜
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
将篇章层面的文本转换为准确、生动的合成语音,涉及了语言计算、韵律建模、语音合成等一系列技术问题。而这些问题的解决,一方面需要制定一个更具科学性的韵律描述方案,用以做为语言学与声学间的信息交互接口,进而构建语音合成系统的语言学、语音学计算模块;另一方面还将依赖具有丰富标注信息的言语数据库,由此提供定性分析与定量计算的实际样本。因而,言语数据库及其韵律标注,构成了合成系统研究的基础。本文选取新闻播报语料为研究/加工素材,综合考虑计算建模需求及样本的特点,制定了一套新闻播报言语数据库的韵律标注内容及其标注规范。本文对语篇的停顿、重音、语气、语调的标注规范进行了具体的阐述;通过对言语数据库构建及韵律标注的具体实施,证实了所制定的韵律标注规范的科学性。
言语数据库;
韵律标注;
新闻播报;
语音合成;
语篇停顿;
语调;
41.
一种快速的语音识别词图生成算法
李伟
;
吴及
;
王智国
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
作为语音识别结果的表现形式之一,词图(Lattice)以其紧凑的结构被广泛应用于大词表连续语音识别、语音检索等系统中。词图的高效生成算法同时成为了语音识别领域一个研究课题。本文提出了一种基于词格的词图生成算法 (Trellis-Based Lattice-Generating algorithm:TBLD):该算法在正向Viterbi解码生成的词格(Trellis)基础上,进行反向A*解码生成词图。实验结果表明,与经典的解码器HDecode相比,在相同识别率下,TBLD算法速度快且词图质量高。
语音识别;
词图生成;
解码器;
正向反向算法;
TBLD算法;
42.
重读对降阶作用的影响研究
黄贤军
;
吕士楠
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
通过设计特定声调组合的实验室语句,考察了重读和降阶作用对陈述句语调下降趋势的影响规律。结果发现,重读对其后语调下降趋势的影响是刚性的;而降阶的作用则是有条件的,会受语句中重音位置的影响。当重读处于诱发降阶的低音之前时,两种因素对语调下降的作用是累加的,导致低音后的基频曲线明显低于只存在重读或降阶时的基频曲线。当重读与低音成分位置重合或重读处于低音成分之后时,虽然重音本身的音高表现在一定程度上会受到低音的影响,但低音成分不影响重音位置之后的基频曲线,并且此时重读会导致降阶现象消失。
降阶作用;
重读;
重音位置;
陈述句;
43.
面向大规模英语口语机考的复述题自动评分技术研究
严可
;
胡国平
;
魏思
;
戴礼荣
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
为了改变计算机必须依靠文本才能进行评分的情况,本文在国内范围内首次开展了面向大规模英语口语机考中的复述题型自动评分技术研究并证明了其技术可行性。本文首先基于连续语音识别、自然语言理解等技术搭建了复述题自动评分技术流程,并针对复述题无需按原文复述、考试现场录音质量低等难点,通过借助朗读题录音的声学模型自适应处理、基于复述原文的通用语言模型裁剪、基于识别输出词图的机器评分特征提取等一系列的改进工作的开展,最终完成的自动评分系统在339份中国科学技术大学期末考试现场采集的复述题数据集上达到了专家精细评分84%的性能,超过了教师批量阅卷时的性能,使系统在实用中,能辅助教师进行更科学客观的评分。
计算机辅助语言学习;
英语口语机考;
复述题评分;
语音识别;
语言模型;
44.
基于索引过滤的汉语短文本模糊匹配计算方法
曹犟
;
邬晓钧
;
夏云庆
;
郑方
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
在当前的中文信息处理中,对短文本进行模糊匹配有广泛的应用。而现有的模糊匹配算法时间复杂度常常无法满足实际的在线需求。本文从索引检索代替顺序计算的思想出发,提出了基于索引过滤的中文短文本模糊匹配计算方法,包括长度过滤和字命中过滤两种方法,能够大大地减少模糊匹配的计算量。实验表明,本文提出的算法在不影响召回率的前提下,能够极大地减少模糊匹配任务的计算时间。
编辑距离;
汉语短文本;
模糊匹配;
索引过滤;
中文信息处理;
45.
基于拼音索引的中文模糊匹配算法
曹犟
;
邬晓钧
;
夏云庆
;
郑方
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
主流商业搜索引擎主要基于关键词精确匹配技术,对于用户的输入错误,通常无法取得令人满意的检索效果。针对这一问题,结合汉语中的拼音知识,本文提出汉字相似程度的三种不同的度量方式,并基于相似程度度量提出有索引的汉语模糊匹配方法。该方法通过对用户查询进行扩展,将模糊匹配转化为多个精确匹配,对精确匹配的结果按与查询串的相似程度进行排序。在实验所用的网页文本语料库中,本文提出的模糊检索方法在时间和空间复杂度增长不大的情况下取得了较高的准确率与召回率。
拼音索引;
中文模糊匹配;
查询扩展;
汉字相似度;
46.
基于任务分析的自适应数据挑选
贺志阳
;
李威
;
吴及
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
在语音识别领域,针对具体的任务进行分析进而挑选自适应数据,往往能够获得更好的自适应效果。本文提出一种基于任务分析的声学模型自适应方法,该方法针对特定任务,分析任务相关语音单元特性(覆盖度、混淆度);并采用贪婪算法在候选语音数据挑选一定量的数据,对声学模型进行自适应。实验表明,与使用全部候选数据进行自适应相比,基于任务分析的自适应数据挑选在仅使用10%的数据时即可获得相同或更好的自适应效果,通过进一步考虑混淆度,自适应性能能够得到进一步改善。
语音识别;
说话人自适应;
任务分析;
数据挑选;
声学模型;
47.
IBM GALE中文识别系统最新进展
张世磊
;
施勤
;
秦勇
;
刘文
;
刘义
;
方晗
;
Stephen M.Chu
;
Hong-kwang Kuo
;
Lidia Mangu
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文介绍了参加DARPA GALE中文评测时,IBM开发的系统和算法最新进展。同时给出了在三个测试集上的识别结果,包括广播新闻和广播访谈类节目。结果显示,IBM GALE中文识别系统取得了很好的识别性能。
语音识别;
中文识别系统;
IBM GALE;
48.
适于嵌入式英语发音评价系统的英美音融合方法
梁维谦
;
赵坤
;
刘润生
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
英音和美音是最为常见的英语目标口音。本文针对英语学习者存在的英美口音混杂现象,提出一种英美口音模型融合方法,提高发音质量评价性能,并压缩声学模型规模以适于嵌入式实现。该方法基于替代概率将声学模型划分为可替代模型、可融合模型和孤立模型。抛弃可替代模型,保留孤立模型,基于模型插值与模型裁剪归并可融合模型。发音质量评价实验结果表明:融合模型与单口音模型相比,说话人级别的相关性提高了14.1%;融合模型与混合模型的性能相近,高斯分量数目压缩了10.7%。
计算机辅助语言学习;
嵌入式应用;
发音质量评价;
模型融合;
英语口音模型;
49.
段长在汉语识别系统后处理阶段的应用
李曜
;
刘加
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
针对传统的隐含马尔可夫模型(hidden Markov model ,HMM)存在的缺陷,该文提出了一种在识别的后处理阶段使用段长模型的方法,并应用在基于HMM的汉语识别系统上。该方法利用归一化的段长模型对识别系统的解码结果重新打分,比较前后两次算出的分数从而选出更可靠的识别结果。实验表明,通过该方法将段长模型应用在识别过程中,可以显著提高识别系统的性能,大量减少识别结果中的插入错误。数据显示,该方法使识别系统的音节错误率下降了大约10%,识别系统最终的插入错误和删除错误都低于1%。
语音识别;
后处理段长模型;
段长归一化;
汉语识别系统;
50.
多口音英语学习者口语语音库
纪晓丽
;
孙佳
;
李爱军
;
王霞
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
多口音英语学习者口语语音库(CELSCOM:Chinese EFL
Learners' speech corpus with multi-accents )旨在收集和建立中国不同方言区英语学习者的英语口语语音,一方面为英语语音识别提供 训练音库,另一方面为研究不用口音的英语与标准英语的语音特性的差异。本库在设计功能语句库录音文本时,将焦 点位置、词性、词重音位置等作为条件综合考虑,并且将口语化的篇章作为补充材料,为研究提供数据。本文着重介 绍功能语料库的设计原则、研究重点,以及对母语为普通话的英语学习者的英语语音库收集和标注规范,旨在对比功 能语句的不同韵律特征,并且简要介绍了初步发现及研究意义。
多口音英语学习;
口语语音库;
英语语音识别;
实义词;
词重音;
51.
基于LDA分析的词聚类算法
楚彦凌
;
刘刚
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文提出一种新的基于LDA分析的词聚类算法,生成基于类的语言模型,利用LDA(Latent Dirichlet Allocation)分析词在不同主题上的分布,得到词的特征向量,对其进行k均值聚类。由于这种聚类方法融入了文本语义信息,使得聚类的结果因注入了上下文的信息而更加实用化。
语言模型;
LDA分析;
词聚类;
特征向量;
k均值聚类;
52.
乐器识别中的时序特征整合
范丽
;
许洁萍
;
王君
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
特征整合是指在一个长时窗内将短时窗内的特征向量整合为一个新的单独特征向量的过程。音色是一种长时时序特征,目前常使用的均值和方差获得的长时特征,很难保持音色的时序特性。本文在多变量自动回归模型(Multivariate-Auto-Regressive MAR)特征的基础上,利用音乐最小单位音符为处理单元,提出了动态多变量自动回归模型(Dynamic MAR)特征,实现了音色时序特征整合;并将该特征向量应用于乐器音色识别中,同时在乐器识别的后处理中,利用加权平均求概率的方法去判断歌曲所属类别,使8种乐器的平均识别率从75.7%增加到87%,取得了较大提高。
时序特征整合;
乐器识别;
音色识别;
多变量自动回归模型;
53.
混响时间与汉语单音节清晰度关系的实验测量
戴璐
;
孟子厚
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
在混响时间为0.5秒到6.0秒的范围内,在实验室模拟条件下测量了汉语普通话单音节清晰度与混响时间的关系。对混响条件对单音节声、韵、调的影响分别进行了分析和讨论。以本文的实验数据为基础,给出了估计汉语单音节清晰度以及声、韵、调的清晰度与混响时间关系的经验公式。
混响时间;
汉语单音节;
清晰度;
声韵调;
54.
基于NN-HMM模型和语种无关PRLM的自动语种识别
王士进
;
梁加恩
;
徐波
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
NIST多年的评测表明,基于并行音素识别(PPRLM)的方法取得了很好的性能,本文提出了一种基于Multilingual音素和NN-HMM混合模型PRLM识别方法的自动语种识别系统。由于音素识别器建模能力有限,本文引入基于NN-HMM混合模型的方法用于音素识别。系统中Multilingual音素集是使用基于数据驱动聚类获得。通过真实环境电话语音测试表明,基于NN-HMM混合模型的PPRLM性能比传统的基于HMM的PRLM高5%-10%,同时由于Multilingual音素识别的引入,在只使用了很少的识别时间的情况下,获得了跟PPRLM系统可比的识别正确率。同时经过与PPRLM系统融合后,获得了更好的性能。
并行音素识别;
语种识别;
NN-HMM模型;
数据驱动聚类;
55.
基于频谱弯曲的语音转换相似度改进
双志伟
;
张世磊
;
秦勇
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文中,我们对现有语音转换方法进行分析,并针对频谱弯曲方法相似度较低的问题,将频谱弯曲与单元挑选相结合以提高与目标人频谱细节上的相似度。我们首先利用频谱弯曲来获得弯曲后的源频谱。然后,我们利用弯曲后的源频谱作为预测目标从目标说话人频谱中进行单元挑选。最后,我们用挑选出来的目标说话人频谱对弯曲后的源频谱进行部分替换,以提高频谱细节上的相似度。评测结果表明,改进的方法与单纯的频谱弯曲相比能够获得约20%的相似度提高。文章最后提出了进一步的改进方向。
语音转换;
频谱弯曲;
相似度;
目标说话人;
56.
辅助语音评分系统中一种流利度自动评分方法
黄申
;
李宏言
;
王士进
;
梁家恩
;
徐波
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
流利度评分是目前计算机辅助自动发音评分系统中一个重要组成部分。为了解决流利度特征表述中和内容、韵律等高级表述技巧相关的广义流利问题,该文提出了一种能够全面客观地评价口语流利度通顺性和韵律性的评分方法。该方法除了通顺性之外,可以提取停顿、韵律、连读和失去爆破等特征; 评分过程中,系统采用多层次融合方法,分别从句子级和篇章级提取流利度特征,其中篇章级得分由句子级加权得分和篇章级特征进行融合得到。在实验中,分别以机器得分和人工平均分的相关度、均方差等指标比较了多元线性回归(LR)、BP神经网络、支持向量回归机(SVR)3种算法的性能。结果表明:基于非线性建模的BP神经网络和支持向量回归机拟合的得分模型要好于多元线性回归;该方法可以作为一个重要指标,应用在计算机辅助语音评分系统中。
计算机辅助语言学习;
语音识别;
流利度评分;
自动发音系统;
多元线性回归;
BP神经网络;
57.
基于音素混淆的语音确认研究
徐爽
;
浦剑涛
;
徐波
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
语音确认是许多自动语音处理系统的重要环节,其目的是判断输入语音与指定文本的内容一致性。本文提出一种基于音素混淆的语音确认方法,它不仅具备良好的语音确认性能,而且可以根据系统需求进行灵活优化和调整。实验结果表明,该方法完全可以满足实际应用的需求,并在速度和灵活性上优于基于后验概率的语音确认方法。
语音确认;
音素混淆;
后验概率;
自动语音处理;
58.
语音处理上如何逐渐减少对具体语料的依赖?
曹剑芬
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
为寻找解决语音处理上对大量具体语料的依赖及其繁重处理问题的出路,该文首先通过对语音处理的根本目标与语音技术的当前工艺的分析,指出了这种依赖性的根源。接着通过对语音多变的不可避免性与"声学不变量"的相对性的阐述,说明语音的变化并非完全不可知,进而指出解决问题的关键在于充分认识语音变化的规律性和在处理系统中综合利用这些规律。最后,提出一个解决策略,基本原则就是通过完善语料库建设来促进知识与语料的有机结合,逐步以相对关系上的"声学不变量"来取代具体语料的作用。并对相关语料库的建设提出了初步设想。
语音多变性;
声学不变量;
语料库建设;
语音处理;
59.
基于VP树结构的多层匹配算法在哼唱识别中的应用
侯珏
;
刘轶
;
郑方
;
蒋丹宁
;
秦勇
;
程刚
;
刘勇
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
哼唱识别是音频检索的一个重要应用,其难点是音频歌曲数据的非结构性以及搜索速度和准确率平衡的问题。本文提出了新的数据库构造方法,将音频歌曲集用手工标注方法提取主旋律并且按自然演唱停顿方式进行分段,采用段落结构而不是整首歌作为索引。同时,提出了一种基于VP树的搜索结构以及相应的多级搜索算法,在快速匹配层采用粗搜索算法,在精确匹配层采用基于动态时间规整算法。实验证明,在对检出率影响不大的前提下,识别速度提高了40%以上。
哼唱识别;
VP树结构;
动态时间规整;
多层匹配;
多级搜索;
60.
基于韵律语段的语音情感识别方法研究
韩文静
;
李海峰
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
语音情感识别领域提取情感特征时,普遍采用"不同情感类别,相同时长基准"的做法,忽略了人耳敏感的韵律段长会依情感不同而有所差异的现象。本文首先通过情感识别实验确定各类情感的最佳识别段长,作为人耳敏感韵律段长。并构造了基于韵律段特征的多重Elman网络模型,以期对不同情感基于特定敏感韵律段长进行识别和对多分类器识别结果进行有效融合,实现了对人耳情感辨识规律的模拟。实验表明,使用敏感韵律段特征的系统识别率达到67.9%,与使用定长语段特征相比有了很大的提高。
情感特征;
敏感韵律段长;
韵律语段;
Elman神经网络;
语音情感识别;
多分类器识别;
61.
用于哼唱识别精确匹配的线性伸缩动态规划算法
曹文晓
;
刘轶
;
郑方
;
蒋丹宁
;
秦勇
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文提出一种用于哼唱识别精确匹配的线性伸缩动态规划算法。该算法将哼唱旋律切割成句子,对每一句子线性伸缩匹配同时在句子层次进行动态规划获得最优路径。该算法更有效利用了哼唱语音的分段特性并克服了动态规划在长路径时可能丢失全局最优路径的缺点。在5223首歌曲数据库上同等条件下该算法正确率相比线性伸缩、动态规划及递归匹配分别提高10.5%、6.0%和2.8%。该算法具有更高准确率和更小时间复杂度,是一种更有效的精确匹配算法。
检索机;
哼唱识别;
递归匹配;
线性伸缩;
动态规划;
62.
离散分数余弦变换在话音隐秘通信中的应用
包永强
;
沈卫康
;
陶友龙
;
高娅
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
随着军事、安全等方面要求的日益增长,语音信息隐藏技术成为了语音信号处理和信息安全领域的热点和难点,并得到了迅猛发展。本文将分数余弦变换应用到语音信息隐藏中,通过分析得到分数余弦变换的第3参数呈高频特性,提出了一种基于分数余弦变换的嵌入方法和过零率检测方法;本文还分析提出了分数余弦变换域上的低比特嵌入法。实验仿真结果可得这两种方法具有一定的抗干扰能力,为分数余弦变换应用于语音信息隐藏提供了一种新的思路。
分数余弦变换;
语音信息隐藏;
过零率;
语音信号处理;
信息安全;
63.
基于分数规整的发音方式鲁棒的说话人识别研究
王琳琳
;
张利鹏
;
徐明星
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
实际环境下,一个说话人识别系统的性能受到很多因素的影响,说话人自身发音方式的变化所引起的训练与识别语音的不匹配是其中很重要的一个方面。本文以一个含有多种发音方式变化的数据库为基础,对于不限定发音方式变化类型的情形,在分数域提出了一系列发音方式分数规整(S-Norm)的解决方法。实验结果表明,SZ-Norm、ST-Norm及SZT-Norm的做法均使系统的整体性能在基线基础上有了明显提高,尤其是在SZT-Norm的情况下等错误率下降约为26%,这说明基于分数规整的方法是有效的。
说话人识别;
鲁棒性;
发音方式;
分数规整;
SZT-Norm;
64.
面向情感转换的层次化韵律分析与建模
徐俊
;
蔡莲红
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
语音的韵律特征对情感表达起着非常重要的作用。在基于韵律修改的情感语音转换系统中,为了更为准确地预测情感语音的韵律特征,该文提出一种层次化的韵律分析与建模方法,针对愤怒、高兴、悲伤、惊奇这4种情感对语音按照韵律结构的层级进行分析,探讨不同层次之间情感韵律特征变化规律的关联性和叠加性,并使用高层音段信息作为输入对低层信息进行决策树建模。实验结果表明,本方法对情感韵律特征的预测均方误差比局部分音段以及传统的决策树韵律模型低大约5%。
情感韵律特征;
情感转换;
韵律建模;
语音韵律;
预测均方误差;
65.
拼接语音合成系统中的韵律自适应研究
贾惠彬
;
陶建华
;
于剑
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文提出了一种新的、基于拼接语音合成系统的韵律自适应模型。该模型能够利用目标说话人少量的语料使语音合成系统合成具有目标说话人韵律特征的语音。同基于平行语料的韵律转换方法相比,本文所提出的韵律自适应模型与语音合成的韵律生成模型结合更加紧密。本文采用的拼接语音合成系统的韵律模型由两部分组成,韵律样本库和韵律预测树。基于此模型,本文提出的韵律自适应模型也包括两部分:对韵律样本库的自适应和对韵律预测树的自适应。实验结果证明,相比传统的韵律转换,结合韵律自适应模型生成的语音与目标说话人在韵律表现上更加接近。
语音合成;
韵律自适应;
韵律转换;
韵律生成模型;
66.
内爆音发音机理的声学表现--壮语内爆音的声学分析
周学文
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文对壮语北部方言红水河土语中存在的内爆音现象从声学分析和声学表现上进行了研究。按照传统观点,内爆音的发音机制主要是内爆塞音口腔闭塞期间的喉头的下降造成口腔负气压(相对于外界气压),口腔打开后引起的外围气流被"吸入"。本文对壮语北部方言红水河土语中13对清辅音/内爆音严整对立的单音节词(元音和声调均相同)从声波图表现、语图表现和元音音高和功率的角度进行了声学比较分析,结果显示,与传统的观点不同,内爆音的关键发音机制可能是基于通过下声门的气流和气压增大造成的,而且造成后接元音强度的显著增大,而口腔负气压引起的外围气流被"吸入"等表现仅仅是次要和伴随特征,内爆音与其说是承载于辅音,不如说是承载于整个音节。
内爆音;
声学表现;
北部方言;
元音音高;
声波图;
67.
HMM语音合成中基频清浊音优化算法研究
康世胤
;
段全盛
;
双志伟
;
秦勇
;
蔡莲红
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文提出一种用于HMM参数化语音合成的针对清浊音优化的基频建模和预测方法。在参数化合成方法中,清浊音预测直接决定激励源的选择,对合成质量有关键影响。针对这一问题,该方法从基频参数提取和预测两个方面同时入手,使用语料标注信息参与基频提取,建立音节清浊音转换时刻的高斯混合模型预测基频,改善清浊音判决质量。合成语音的听测实验表明,该方法与原系统相比,合成音质和韵律都有较大改善,MOS评分由3.0升至3.5。
语音合成;
隐马尔可夫模型;
基频建模;
高斯混合模型;
清浊音优化;
68.
针对少数民族的汉语发音质量评估系统研究
葛凤培
;
潘复平
;
董滨
;
颜永红
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
在计算机辅助语言学习系统中,不同音素间的声学混淆现象严重影响发音质量评估的准确性。特别是对少数民族地区学习者来说,地方口音更会加剧这种声学混淆的严重性。为解决这一难题,本文提出了一种新颖的精细音子串联的汉语音节结构来对声学空间进行建模,并尝试了多种音素拆分策略,此外还对决策树的问题集设计进行了细致地研究。试验结果表明:与传统的声韵结构相比,这种优化的精细音子音节结构能够有效地缓解不同音素间的声学混淆,改善声学模型的建模精度。
发音质量评估;
声学混淆;
音素拆分;
计算机辅助语言学习;
语音识别;
69.
一种基于样本和特征选择的语种识别方法
宋彦
;
雷文辉
;
戴礼荣
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
区分性训练法方法是提高面向电话语音的语种识别系统性能的关键技术,基于GMM-SVM的系统是其中一种重要的识别系统。采用SVM方法在语种识别应用存在的主要问题包括:1)训练和测试数据之间的不匹配,如说话人、信道、噪声、语音段时长等;2)特征空间的冗余。针对上述问题,本文提出了一种基于样本和特征选择的GMM-SVM方法,并结合因子分析方法“去噪”。在NIST07识别30秒、10秒和3秒的测试任务中,本文所提出的方法与基线系统相比性能有明显提高,EER相对下降了约20%-30%。
语种识别;
区分性训练;
样本选择;
特征选择;
SVM方法;
70.
汉语'是'和'连'标记的焦点成分语音特征研究
贾媛
;
李爱军
;
陈轶亚
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
该研究通过声学实验系统地考察了汉语中,由"是"和"连"标记的焦点成分的语音特征。研究指出:⑴ 由"是"和"连"所标记的焦点成分,对音高和时长作用的相同点表现在,将焦点位置音高显著抬高,时长显著拉长,将焦点后成分音高显著压低;⑵ 这两类焦点成分可以与窄焦点实现叠加,叠加的的焦点比句法标记焦点,或窄焦点对音高和时长的作用更为显著;⑶ 这两类句法标记的焦点,可以与窄焦点在同一个句子中的不同位置,实现音高突显;⑷ "是"和"连"所标记的焦点成分语音特征的差异性表现在,"是"所标记的焦点,强度比"连"标记的成分强:对音高和时长的抬高和拉长作用更显著。
汉语语音学;
音高突显;
句法标记;
语音特征;
71.
送气辅音与非送气辅音的区别特征参数
冯晓亮
;
孟子厚
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
送气辅音与非送气辅音是普通话辅音中的一对区别特征,在实际应用中需要寻找与之对应的特征参数。传统的MEL能量参数无法对这对特征进行有效的区别,该文在时频域使用Wigner分布,提取基于Wigner分布的特征参数做为送气辅音和非送气辅音的区别特征参数。经过一个较大语料库的测试,结果显示新的参数能够有效区别这两类不同的辅音,并且有较好的区分效果。
送气辅音;
非送气辅音;
Wigner分布;
区别特征参数;
72.
基于混叠效应下听感相似度的普通话声母聚类分析
章斯宇
;
孟子厚
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
通过汉语普通话单音节清晰度听觉混淆实验考察混响所带来的混叠效应对普通话声母听感相似度的影响,并进一步比较在混响和噪声这两种不同的声学传递条件下声母听觉混淆情况间的差异,结果发现二者之间存在明显的差别。混叠效应下声母听感相似度的绝对量值明显高于噪声掩蔽下的值。且在混叠效应下声母的聚类关系大体上是按照发音部位形成的,而噪声掩蔽条件下的聚类关系大体上是按照发音方式形成的。这对思考构建合理的声母区别特征体系有启发意义。
混叠效应;
声母;
听感相似度;
聚类分析;
汉语普通话;
73.
一种基于Gammatone滤波和FrFT的抗噪语音识别方法
尹辉
;
谢湘
;
匡镜明
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
人耳听觉系统在噪声条件下具有自动语音识别(ASR)系统无法比拟的优良性能,将代表人耳时频处理特性的听觉模型应用到ASR系统中有望提高系统性能。语音信号是一种非平稳信号,而分数阶Fourier变换(FrFT)在处理调频信号方面有着独特的优势。本文采用Gammatone滤波器组对语音进行前端时域滤波,之后将每个子带信号依chirp假设应用FrFT来提取声学特征,FrFT的变换阶数由模糊函数自适应地计算得到。在干净与混噪的汉语孤立数字库上进行的识别实验结果表明,所提特征性能比MFCC有大幅度的提高。
语音识别;
Gammatone滤波;
分数阶Fourier变换;
模糊函数;
时频处理;
听觉模型;
74.
基于GMM的流行音乐情感识别研究
张飞弦
;
张伟
;
谢湘
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
音乐携带了大量的情感信息,音乐情感的识别已经成为人们关注的研究热点。对于它的研究在音乐数据库管理、音乐检索等方面有广阔的应用前景。本文提出了一种新的基于GMM的流行音乐情感识别研究方法; 建立了流行音乐数据库; 并采用Thayer情感认知模型,分析并提取了声学层和旋律层情感特征参数,用于不同类别的情感分类实验。实验结果表明针对本论文采用的数据库的第一层次两类情感的类正确率平均达85%以上,针对第二层次四类情感的分类正确率达65%以上。进一步引入模糊理论,实现了音乐片断的情感成分分析。
音乐情感识别;
混合高斯模型;
Thayer模型;
模糊理论;
音乐检索;
音乐数据库管理;
75.
汉语普通话双音节句实验研究
王瑞
;
曹文
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
该文主要研究双音节句在不同焦点、语气下的表现。目的是为了考察汉语双音节组合的调形模式是否以及如何受到语调影响。实验设计了16组双音节目标句,每组包含宽、前、后3种焦点和陈述、疑问两种语气。实验结果描述出16个双音节组合中前焦和后焦的聚焦模式,其中包括含有上声的组合。实验发现,在聚焦手段中,前后音节的高音点差值在16个组合中都起到了区分焦点的作用,并再次证明汉语语调存在稳定的"二字组基本单元";双音节句的疑问语气信息由高音点的位置决定,疑问与陈述语气的差异突出表现为疑问语气的高音点更高。
汉语普通话;
双音节句;
聚焦模式;
语气信息;
高音点;
语调;
76.
藏语玛曲话元音央化分析
龙从军
《第十届全国人机语音通讯学术会议》
|
2009年
摘要:
本文阐释玛曲元音央化现象,央化包括高元音[i]、[u]向低央元音[e]的演化,低元音[e]与拉萨话及标杆元音[a]相比来说,是一种央化现象,其开口度较低,舌位靠后。文章主要采用共振峰模式比较,认为央化是单元音复化、裂化产生滑音最终达到目的音。从总体上看,在玛曲话中,发元音时声带处于比较松弛、省力的状态。
玛曲藏语;
元音;
央化;
共振峰模式;
单元音复化;
意见反馈
回到顶部
回到首页