近年携帯端末やカーナビゲーションシステムなどを,音声入力を用いて操作する場面が多くなっている.しかし実環境下での音声入力は様々な雑音が混入してしまい,クリーン環境で構築された音響モデルのみが使われていた場合,認識率の大きな低下を招くことになる.音声の特徴量から雑音の影響を取り除く手法は特徴量正規化,特徴強調など様々な手法が提案されているが,単一の手法で影響をすべて取り除くことは難しい.そこで本稿ではこれらの手法を組み合わせてより雑音に頑健な音声認識を目指す.SPLICE(Stereo-Piecewise Linear Compensation for Environments)は任意の特徴量を入力として扱える高い汎用性を持っている.そこで既存手法とSPLICEの組み合わせの中で,各手法の特性が有効に働くを組み合わせを検討する.Aurora-2データベースを用いた英語連続数字音声認識のタスクにおいて,AFE(Advanced Front-End),SPLICE,HEQ(Histogram EQualization)を順番に適用した特徴量がどの環境においても優れた性能を示した.
展开▼