...
首页> 外文期刊>電子情報通信学会論文誌, D. 情報·システム >トラジェクトリ特徴量に基づく単語読唇
【24h】

トラジェクトリ特徴量に基づく単語読唇

机译:基于轨迹特征的单词阅读

获取原文
获取原文并翻译 | 示例
           

摘要

本論文では視覚情報を利用して人間の発話内容を理解する,いわゆる読唇において高認識率が得られるトラジェクトリ特徴量を提案する.トラジェクトリ特徴量は,口唇領域または口内領域より計測できる面積とアスペクト比の二つの特徴量をもとに,発話により生じる2特徴量の時間的変化を口形の軌道として表現される.認識はトラジェクトリ特徴量に二次元DPマッチングを適用する.(1)車椅子制御用10単語と(2)数字10単語の動画像において,これまで提案されている特徴量とトラジェクトリ特徴量の比較実験を行った結果,従来特徴量で最も高い認識率は(1)92.5%,(2)72.0%であったのに対し,トラジェクトリ特徴量は(1)99.5%,(2)83.5%の高認識率を得た.また処理速度,発話速度を考慮して擬似的にフレームレートを変更して比較実験を行った結果,従来の特徴量で最も高い認識率は69.5%であるのに対し,トラジェクトリ特徴量では98.0%と高い認識率であった.これより,トラジェクトリ特徴量は発話速度に対してロバストであり,かつ高い認識精度を有することを確認した.
机译:在本文中,我们提出了一种在所谓的“唇读”中可以获得较高识别率的轨迹特征量,它利用视觉信息来理解人类语音的内容。轨迹特征表示为基于面积和纵横比这两个特征的嘴形轨迹,可以从嘴唇或嘴巴区域进行测量,还可以根据语音在两个特征中随时间变化。为了识别,将二维DP匹配应用于轨迹特征。在(1)10个用于轮椅控制的单词和(2)10个数字的运动图像中,到目前为止建议的特征量与运动图像中的轨迹特征量进行了对比实验,在传统特征量中最高识别率是(轨迹特征获得了较高的识别率(1)99.5%和(2)83.5%,而1)92.5%和(2)72.0%。另外,通过考虑处理速度和语音速度以伪方式改变帧速率进行比较实验的结果,常规特征量的最高识别率为69.5%,而轨迹特征量的最高识别率为98.0%。识别率很高。由此确认了轨迹特征量相对于语音速度是鲁棒的并且具有高识别精度。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号