本文以藏语卫藏话为研究对象,旨在建立藏汉双语多模态生理语音数据库.首先根据此数据库需要,设计并建立藏汉双语平行文本语料集,此语料集包括41句藏语句子、27句汉语句子、30个藏语辅音、4个元音、25个藏语单音节;以此文本语料集为基础,通过由Terason超声仪(Ultrasound)、高速摄像头(High-speed digital imaging,HSDI)、电磁发音记录仪(Electromagnetic Articulograph,EMA)等组成的生理语音数据采集系统对藏汉双语多模态生理语音数据进行采集;并利用Praat软件对所采集到的音频文件做了语音文本的标注;最终建立了一个大小约为2.5TB的生理语音数据库.
展开▼