要解决的问题:提供一种设备和技术,该设备和技术通过在有效利用单词与单词分离的第一语料的同时,以高精度计算单词的n-gram概率来提高自然语言处理中的识别精度。另一个语料库,其中单词不分开。
解决方案:在一种使用单词彼此分开的语料库的方法中,第一个语料库(单词分开)用于计算n-gram和两个相邻词之间的间隔的概率(除法概率)字符成为单词边界;根据第一语料库(分离的词)中的信息,为第二语料库(未分离的词)分配概率词边界,并将其用于词n-gram的计算。对于概率词边界的计算,第二语料库(未分离的词)将通过第一语料库(分离的词)计算的除法概率分配给字符之间的每个空格。基于字符单元的未知单词模型对每个字符之间的对应关系以及如何以字符为单位进行读取建模。以此方式,提出了针对未知单词的假名汉字转换模型。
版权:(C)2006,JPO&NCIPI
公开/公告号JP2006031295A
专利类型
公开/公告日2006-02-02
原文格式PDF
申请/专利号JP20040207864
申请日2004-07-14
分类号G06F17/27;G10L15/18;
国家 JP
入库时间 2022-08-21 21:52:58