首页> 中国专利> 基于HMM和决策树的阿拉伯语光学字母识别方法

基于HMM和决策树的阿拉伯语光学字母识别方法

摘要

本发明公开了一种阿拉伯语光学字母识别方法,包括以下步骤:接收包含阿拉伯语文本的输入图像,通过检测所述输入图像中每个读音符号的边界框、并将其坐标与文本主体的边界框坐标比较去除所有读音符号,将每个输入图像划分为四层,并对所述四层执行特征提取,将特征提取的结果输入隐马尔可夫模型,以生成表示每个阿拉伯语字母的隐马尔可夫模型,对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练,直至满足似然比准则为止,将迭代训练后的隐马尔可夫模型输入决策树,以预测读音符号的位置和类别,并生成最终识别结果。本发明能够利用阿拉伯语的书写特性使识别任务更简单,并具有较高的识别精度。

著录项

  • 公开/公告号CN105023028A

    专利类型发明专利

  • 公开/公告日2015-11-04

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN201510420294.8

  • 发明设计人 尤新革;罗特飞;

    申请日2015-07-17

  • 分类号G06K9/68;

  • 代理机构华中科技大学专利中心;

  • 代理人朱仁玲

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2023-12-18 11:38:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-06

    授权

    授权

  • 2015-12-02

    实质审查的生效 IPC(主分类):G06K9/68 申请日:20150717

    实质审查的生效

  • 2015-11-04

    公开

    公开

说明书

技术领域

本发明属于光学字母识别技术领域,更具体地,涉及一种基于HMM和决策树的阿拉伯语光学字母识别方法。

背景技术

光学字母识别(OCR)是计算机模式识别中最古老的问题之一,并且其已经被列为穿孔技术后最古老的数据录入。OCR可被定义为将打字或印刷文本的扫描或拍摄图像转换为机器编码/计算机可读文本。虽然对于许多语言、尤其是拉丁语和汉语而言,OCR是成熟的技术,但对于阿拉伯语而言,其仍然处于初级阶段。

由于阿拉伯语书写系统的特性,文本图像识别任务比其它语言更复杂。这些特性包括:文本方向是从右到左、以手写和机器印刷文本的草体书写、每个字母在字中的不同位置具有不同的形状、字母上下的点号和读音符号、字母之间连线的延长线长度可变、垂直或水平连写、以及不同字母的不同大小(高度和宽度)。所有这些特性以不同方式影响了阿拉伯语字母的处理和识别,并使得简单适用于拉丁语的基于字母的处理变得不可能。

现存阿拉伯语OCR方法的主要问题是,它们都没有将阿拉伯语文本特性视为会简化问题的优势,而仅仅将这些特性描述为会增加识别的复杂度。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种使用隐马尔可夫模型和决策树的阿拉伯语光学字母识别方法,其能够利用阿拉伯语的书写特性使识别任务更简单,并具有较高的识别精度。

为实现上述目的,按照本发明的一个方面,提供了一种基于HMM和 决策树的阿拉伯语光学字母识别方法,包括以下步骤:

(1)接收包含阿拉伯语文本的输入图像;

(2)通过检测所述输入图像中每个读音符号的边界框、并将其坐标与文本主体的边界框坐标比较去除所有读音符号;

(3)将每个输入图像划分为四层,并对所述四层执行特征提取;

(4)将特征提取的结果输入隐马尔可夫模型,以生成表示每个阿拉伯语字母的隐马尔可夫模型;

(5)对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练,直至满足似然比准则为止;

(6)将迭代训练后的隐马尔可夫模型输入决策树,以预测读音符号的位置和类别,并生成最终识别结果。

优选地,确定围绕文本主体区域的区域的边界框,并在所述边界框处于所述文本主体的边界框内时将所述围绕文本主体区域的区域标记为读音符号。

优选地,如果围绕文本主体区域的区域的横坐标与所述文本主体区域的横坐标相交,则将所述围绕文本主体区域的区域标记为读音符号。

优选地,将每个输入图像划分为四层具体为,每次从所述输入图像的顶部一列开始垂直扫描所述输入图像,并将每列所包括的每个连通黑色像素段与各个层进行匹配。

优选地,如果所述列仅包含一个连通黑色像素段,则将该连通黑色像素段与第四层进行匹配。

优选地,对所述四层执行特征提取具体为,以3个像素宽的窗口同时在所述四层上移动,且所述窗口一次移动一个像素。

优选地,对所述四层执行特征提取的过程包括以下子步骤:

提取第一特征,其等于包含黑色像素的层的数量;

提取第二特征,其等于第一层和第四层和的均值;

提取第三特征,其等于第二层和第三层和的均值;

提取第四、第五和第六特征,其等于所有四层垂直投影的和;

提取第七、第八和第九特征,其等于第三层垂直投影。

优选地,对每个阿拉伯语字母形状使用单独的HMM模型,字母之间延长线的建模是使用HMM模型。

按照本发明的另一方面,提供了一种文字识别过程中使用阿拉伯语字母的连通性规则建立HMM的编码网络的方法,包括以下步骤:

定义网络中的三种非发射态:一种在网络的起始,一种在网络的末尾,一种在网络的中间;

将起始非发射态连接到孤立位置字母模型,然后将该孤立位置字母模型连接到末尾非发射态;

将起始非发射态连接到起始位置字母模型,然后将起始位置字母模型连接到中间非发射态;

将中间非发射态连接到末尾位置字母模型,然后将末尾位置字母模型连接得到末尾非发射态;

将中间非发射态与中间位置字母模型并联,然后将中间位置字母模型连接到中间非发射态,以形成中间非发射态与每个中间位置字母模型之间的环路;

将中间非发射态连接到延长模型,然后将延长模型连接到中间非发射态,以形成中间非发射态与延长模型之间的环路;

将末尾非发射态连接到起始非发射态。

优选地,使用解码网络输出最佳字母序列,使用决策树将HMM的输出与读音符号特征组合,以输出最终识别结果。

总体而言,通过本发明所构思的以上技术方案与现有技术相比,通过从字母形状中分离读音符号,并使读音符号和/或字母形状彼此影响,能够大大提高阿拉伯语字母的识别精度。

附图说明

图1是三个阿拉伯语字的示例,其每个都具有不同数量的字分段;

图2是本发明方法中预处理的过程。

图3是本发明方法中特征提取的过程。

图4是HMM使用的解密网络。

图5是用于读音符号分类的决策树的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

阿拉伯语是一种字母语言,具有28个字母,每个字母取决于其在字中的位置(起始、中间或是否孤立末尾)具有2种或4种不同的形状,这等于有100种字母形状。此外,取决于字体类型,连体和读音符号会引入新的形状,这在某些字体中会产生120种不同的形状。实际上,如此庞大数量的字母形状和读音符号在它们之间具有许多相似性。例如,会发现四个具有不同四种形状的字母其区别仅仅在于与其相关联的读音符号。类似地,相同的读音符号可附属于许多不同的字母形状,这意味着存在许多可在不同的字母和读音符号之间共享的信息。在读音符号类别和字母形状之间存在强关系,其中读音符号类别的知识会增加或降低给定字母形状存在于某个字中的概率,反之亦然。因此,通过从字母形状中分离读音符号,并建立读音符号与字母形状之间的关联性,肯定能够大大提高识别精度,这也是对于任何OCR系统而言的主要目标。

在阿拉伯语中,每个字包括一个或多个相连接的字母,但并不是所有的字母都具有中间形状,这是一个关键点,这是由于其导致字被分为 许多子字,或许多出版物中被称为“阿拉伯语字分段”(Piece of ArabicWord,简称PAW)。相应的,如图1所示,每个PAW可以是在其孤立的形状101、102、103、104、108中仅具有一个字母的PAW,或者是具有两个字母的PAW:一个在其起始形状中,另一个在其末尾形状中,或者是具有三个或更多字母的PAW:一个在其起始形状中,一个在其末尾形状中,一个或更多的在其中间形状106、109中,并且这展现出阿拉伯语书写系统的一个非常重要的属性:字母的中间形状是阿拉伯语书写系统中最常出现的形状。这意味着对于任何阿拉伯语OCR系统而言,字母的中间形状比其它形状需要更多的注意力。

因此,在识别阶段,由于每个字母形状一直具有专用的位置标记,因此字母的位置属性及其与字母形状的关系可用于证实识别结果是否服从上述PAW规则。例如,如果PAW包含5个字母,则识别器输出应该是5个字母形状,其中第一个字母是起始形式的形状,最后一个字母是末尾形式的形状,其它三个字母是中间形式的字母形状,除此以外的任何结果可以被丢弃。

本发明阿拉伯语光学字母识别方法包括以下步骤:

(1)接收包含阿拉伯语文本的输入图像;

(2)通过检测所述输入图像中每个读音符号的边界框、并将其坐标与文本主体的边界框坐标比较去除所有读音符号;去除读音符号所使用的算法是基于字体设计原理:当设计阿拉伯语字体时,读音符号的中心一直与字母形状的中心垂直对齐,并且其大小小于字母大小。这样,读音符号连通区域的边界框将被包括在文本主体连通区域203的边界框内,或者至少读音符号图像的横坐标将会与文本主体图像204的横坐标相交,如图2所示。对于围绕PAW文本主体的所有对象,包括读音符号和任何噪声对象,重复该过程。

(3)将每个输入图像划分为四层,并对所述四层执行特征提取;

对于每个PAW而言,上浮和下浮是任何字母形状的主要部分。事实上,相连字母之间的区别和分离主要是基于该上浮和下浮。因此,捕捉与每个字母的上浮和下浮相关的信息将高度增加字母之间的区别。在本发明中,通过使用多层分离技术从PAW中提取这些特征。每次从输入图像的顶部一列开始垂直扫描该输入图像,并将每列所包括的每个连通黑色像素段与各个层进行匹配(如图3所示)。如果该列仅包含一个连通黑色像素段,则将该连通黑色像素段与最后一层进行匹配。四层对于绝大部分阿拉伯语字体而言是足够的。与第二层和第三层比较,第一层和第四层包含更多的PAW文本主体。在将PAW与层匹配后,3个像素宽的滑动窗口305每次同时沿着四层滑动1个像素用于特征提取。基于层中像素的分布,从每个窗口提取到9个不同的特征如下:

F1=包含连通黑色像素的层数;

F2=mean(L1+L4)

F3=mean(L2+L3)

F4~F6=Σi=14垂直投影(Li)

F7~F9=垂直投影(L3)

其中F表示提取的特征,Li表示层,且1≤i≤4,mean表示取均值。

在提取特征后,每个字母形状被建模为隐马尔可夫模型(Hidden Markov Model,简称HMM);

(4)将特征提取的结果输入隐马尔可夫模型,以生成表示每个阿拉伯语字母的隐马尔可夫模型;

(5)对生成的表示每个阿拉伯语字母的隐马尔可夫模型进行迭代训练,直至满足似然比准则为止;

(6)将迭代训练后的隐马尔可夫模型输入决策树,以预测读音 符号的位置和类别,并生成最终识别结果。

每个字母形状是通过单个具有8种状态的左右HMM建模,并且每种状态除了其自身外,还具有到其随后两种状态的过渡。剑桥大学的隐马尔可夫模型工具包(Hidden Markov Model Tool Kit,简称HTK)被用于实现该系统。HTK支持识别过程中的多个步骤:数据准备、训练、识别以及后处理。HTK在识别阶段使用混合高斯分布(本发明系统中有9个)以及维特比算法(Viterbi algorithm)对特征向量进行建模,该算法在给定输入特征向量下搜索最可能的字母序列。

为了使HTK能够成功解码给定输入,字典和解码网络与该维特比解码器共同工作。字典仅仅是包含HMM和最终输出之间映射列表的单个文本文件。在本发明中,最终输出是字母形状名,这是由于识别器工作在没有读音符号的字母级别。网络描述了构成每个PAW的HMM序列,这是本发明的核心,其中使用现有阿拉伯语书写系统中一直被看做难点的字母连通性,并将其变为本发明的优点。

按照PAW规则,通过基于图4中所示的字母位置属性来构建适合各种PAW的解码网络。字母位置属性使用其先前和/或前一个字母位置定义了PAW中的字母序列、给定位置提供的字母形状的数量、以及给定字母位置之间提供的连接性。在该网络中定义了三种非发射态:一种401在网络的起始,一种402在网络的末尾,用于使PAW模型能够级联以连续识别输入PAW,第三种非发射态403(后续称为中间态)位于起始位置405和末尾位置406之间,使得在PAW仅具有2个字母的情况下脱离中间位置407。

中间态403用于将同一网络中具有两个字母的PAW与具有三个或更多字母的PAW结合。中间态403和中间位置407之间的连接是并联,并同样形成环路,使得能够解码PAW中任意数量的中间形状,因此这是本发明最重要的部分。例如,对于具有5个字母的PAW而言,网络会将第一个字母分配给起始位置,然后为中间位置进入环路三次,并最终将最后的一个字 母分配给末尾位置。然而,如果PAW仅仅包含两个字母,网络会直接从起始位置405移动到末尾位置406。在PAW仅仅包含一个字母的情况下,网络会直接穿过孤立位置404。

阿拉伯语文本中的延长线是一条水平线,其用于连接字母,并可位于字母形状的起始形式和中间形式之后。延长线大多数用于文本对齐。然而,当使用HMM将PAW建模为时间过程时,这些延长线会占据特定的持续时间,并使维特比解码器在延长线存在的位置输出无效标记(尤其是在存在长的延长线时)。在本发明中,通过引入延长线模型408解决了此问题,该模型具有三种完整的连接状态,与中间态403并联连接,并可随意出现并重复多次。

基于阿拉伯语书写系统的语法,字母形状与读音符号类别存在着非常有用的关系。对于大多数阿拉伯语字母而言,每个无读音字母与具有读音符号的字母具有等同的字母形状。在预处理步骤中,从输入PAW图像中去除了所有读音符号,然后基于HMM的输出结果预测读音符号是否存在。如果需要,也会识别读音符号类别。读音符号识别主要是基于阿拉伯语字体设计原理。然而,虽然读音符号看上去是独立于字母形状的,但实际上读音符号是字母形状的固定部分,通过使用键盘上的按键,就可以与字母形状一起被输入。因此,当调整字母大小或改变其字体类型时,读音符号也会变化,但其相对于字母位置的位置保持不变。

因此,除了字母形状类型以外,HMM还输出字母形状的大致边界。可使用该边界信息来限定搜索区域,并标记围绕该字母形状的所有对象,以确定这些对象中的一个是否是读音符号。从字母形状提取的主要特征包括字体大小(其可能不是真实的字体大小,但是读音符号会与其具有相同的大小)、读音符号中心、读音符号和字母形状之间的宽度比、以及读音符号位置(在字母形状上方或下方)。这些特征用于将围绕字母形状的对象进行分类,并检测这些对象中的哪一个是读音符号。

有读音符号有关的字母形状可被分为五个不同的群组:

1、不具有读音符号的字母形状:在此情况下,HMM的输出将会是最终的识别结果;

2、具有特定位置处(一直在字母形状上方)读音符号的字母形状:在此情况下,字母形状上方是否存在读音符号足以给出最终的识别结果;

3、仅具有一个读音符号类别的字母形状,但该读音符号可能在字母形状的上方或下方:在此情况下,读音符号的位置足以给出最终的识别结果;

4、具有特定位置处(一直在字母形状上方)的多个读音符号类别的字母形状:在此情况下,读音符号类别足以给出最终的识别结果;

5、具有字母形状上方或下方处的多个读音符号类别的字母形状:在此情况下,需要读音符号类别及其位置给出最终的识别结果。

需要注意的是,需要识别读音符号类别的两种情况仅仅出现在3个字母时。

如图5所示,HMM输出与决策树形式的读音符号特征组合。在读音符号识别期间,0个或更多围绕字母形状的对象被标记为读音符号。将每个读音符号对象与字母形状组合,以创建字母列表。该列表(以字母排序)中顶部的有效字母会被选择作为最终识别的字母。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号