首页> 中国专利> 经历光学字符识别的文本图像的文本增强

经历光学字符识别的文本图像的文本增强

摘要

用于增强文本图像以便经历光学字符识别的方法通过接收包括文本的自然行的图像开始。确定代表沿图像中的自然行的平均背景强度的背景行剖析。同样地,确定代表沿图像中的自然行的平均前景背景强度的前景行剖析。在图像中的像素至少部分根据背景行剖析和前景行剖析被分配给图像的背景或前景部分。被指定给图像的背景部分的像素的强度被调节到最大亮度,以便代表不包括文本的图像的部分。

著录项

  • 公开/公告号CN102782706A

    专利类型发明专利

  • 公开/公告日2012-11-14

    原文格式PDF

  • 申请/专利权人 微软公司;

    申请/专利号CN201180013195.8

  • 申请日2011-03-07

  • 分类号G06K9/20(20060101);G06K7/10(20060101);

  • 代理机构72001 中国专利代理(香港)有限公司;

  • 代理人李舒;汪扬

  • 地址 美国华盛顿州

  • 入库时间 2023-12-18 07:21:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-31

    专利权的转移 IPC(主分类):G06K9/20 登记生效日:20160809 变更前: 变更后: 申请日:20110307

    专利申请权、专利权的转移

  • 2015-05-20

    专利权的转移 IPC(主分类):G06K9/20 变更前: 变更后: 登记生效日:20150506 申请日:20110307

    专利申请权、专利权的转移

  • 2014-07-23

    授权

    授权

  • 2013-01-02

    实质审查的生效 IPC(主分类):G06K9/20 申请日:20110307

    实质审查的生效

  • 2012-11-14

    公开

    公开

说明书

背景技术

光学字符识别(OCR)是文本的图像到如机器可编辑文本的数字形式的基于计算机的转化,通常是按照标准编码方案的。这个过程消除了对将文档人工打字输入到计算机系统的需要。由于图像质量差、由扫描过程引起的缺陷等等,会引发许多不同的问题。例如,常规的OCR引擎可以被耦合到用来扫描文本的页的平板扫描仪。因为页被相对扫描仪的扫描面齐平地放置,所以由扫描仪生成的图像典型地呈现均匀的对比度和照度、减小的扭曲和失真、以及高分辨率。因此,OCR引擎可以容易地把图像中的文本转化成机器可编辑的文本。然而,当图像在对比度、照度、扭曲等等方面具有较差的质量时,OCR引擎的性能可能会恶化,并且处理时间可能会由于对图像中的所有像素进行处理而增加。例如当图像是由基于图像的扫描仪生成时,情形可能是这样,因为文本/图片是从一定的距离、从变化的取向和在变化的照度下被扫描的。即使扫描过程的性能是好的,当质量相对较差的文本页被扫描时,OCR引擎的性能也可能恶化。

发明内容

如果原始图像的背景被检测且被滤除,而同时加强剩余的文本像素,则OCR过程的精度可以大大地提高。在一个实现中,背景是通过计算背景和文本彩色剖析(color profile)而被检测和滤波的。文本增强本身是通过使用以高精度识别文本笔划(stroke)像素的笔划恢复技术而被执行的。

在一个具体的实现中,用于增强文本图像以便经历光学字符识别的方法通过接收包括文本的自然行(native line)的图像开始。确定代表沿图像中的自然行的平均背景强度的背景行剖析(line profile)。同样地,确定代表沿图像中的自然行的平均前景背景强度的前景行剖析。在图像中的像素至少部分根据背景行剖析或前景行剖析被分配给图像的背景部分或前景部分。被指定给图像的背景部分的像素的强度被调节到最大亮度,以便代表没有包括文本的图像的部分。

在再一个具体的实现中,代表图像中的文本的已连成分(connected component)的平均或中值笔划宽度在背景和前景行剖析被确定后才被确定。如果平均或中值笔划宽度小于阈值,则文本质量被增强。例如,文本质量可以通过执行图像内插以增加图像分辨率而被增强。

本概要被提供来以简化的形式介绍概念的选择,这些概念将在下面的详细描述中进一步描述。本概要既不打算识别所要求保护的主题的关键特征或必要特征,也不打算被用来帮助确定所要求保护的主题的范围。

附图说明

图1显示用于光学字符识别的系统的一个说明性例子。

图2显示不适合于处理的文本行的例子。

图3显示更适合于OCR处理的、在图2上的文本行的变换。

图4显示用来保证文本比背景更暗的图像变换。

图5显示在边缘空间中文本行表示的例子。

图6是在图2上的图像的灰度版本。

图7显示图6上的自然行的最左部分,其中在具有2*h×h的尺度的矩形上执行局部处理。

图8显示在边缘空间中表示的、在图7上的自然行。

图9显示围绕图8所示的已连成分的框,它们规定包含边缘的一个区域(深色)和不包含边缘的另一个区域(浅色)。

图10a是对于图7的矩形的局部化区域的强度的直方图;图10b是图示对于图9的深灰色区域的、像素相对于它们的彩色强度的分布的直方图;图10c是通过从图10a上直方图的相应值中减去图10b上第二直方图的值而得到的直方图。

图11显示对于图6的文本行的、计算的背景(上面的线)和前景(下面的线)行剖析。

图12显示把求逆运算符应用到深色背景上的浅色文本的结果。

图13显示低质量文本图像的例子。

图14显示把阈值处理规程应用到图13所示的图像的结果。

图15显示为箭头发源于其中的单个前景像素确定局部笔划宽度的方式。

图16显示像素被映射到要被内插的图像中的一组四个像素。

图17图示在内插过程中的步骤。

图18图示把内插过程应用到图的上面部分所描绘的文本图像的结果。

图19图示将对其应用文本增强过程的单词。

图20描绘了通过把像素添加到图20所示的单词中的第一个字母而进行的文本增强过程。

图21a显示已连成分的例子;图21b显示对于图21a上的已连成分的边缘像素;图21c显示图21a上的已连成分的骨架(skeleton)。

图22显示把图20的像素添加过程应用到已连成分的骨架的结果。

图23显示把文本增强过程应用到图13所描绘的图像的结果。

图24显示可以对经历光学字符识别的文本图像执行文本增强的图像处理设备的一个例子。

图25是显示用于增强要经历光学字符识别的文本图像的总体方法中的一个例子的流程图。

具体实施方式

图1显示用于在图像上进行光学字符识别(OCR)的系统5的一个说明性例子,所述系统包括用来生成文档15的图像的数据捕获装置(例如,扫描仪10)。扫描仪10可以是基于图像的扫描仪,它利用电荷耦合器件作为图像传感器来生成图像。扫描仪10处理图像来生成输入数据,并把输入数据传送到处理装置(例如,OCR引擎20),以便进行图像内的字符识别。在这个具体的例子中,OCR引擎20被合并到扫描仪10中。然而,在其它的例子中,OCR引擎20可以是单独的单元,诸如独立的单元,或者是被合并到诸如PC、服务器等等的另外的设备的单元。

如果原始图像的背景被检测且被滤除,而同时加强剩余的文本像素,则OCR过程的精度可以大大地提高。正如下面详细说明的,背景是通过计算背景和文本彩色剖析而被检测和滤波的。文本增强本身是通过使用以高精度识别文本笔划像素的笔划恢复技术而被执行的。

这个文本增强过程的输入是文本的自然行(见下面的对于“自然行”的定义)的图像。然而,在着手描述实际的过程之前,将介绍某些数学概念。这些概念将贯穿本讨论被普遍地使用以便便于本发明的理解,并且在一些情形下定形(formalize)某些解释说明。

定义1:宽度w和高度h的数字彩色图像是两个自变量的向量函数                                                ,其中GS=[0,1,…,255], W=[0,1,…,w-1], H=[0,1,…,h-1],以及×表示笛卡尔乘积。

这个定义是从RGB彩色系统推导的,以及在中的分量r,g,b分别对应于红、绿和蓝色分量。

定义2:宽度W和高度H的数字灰度图像是两个自变量的标量函数,其中GS可以是:

- GS=[g1,g2],其中灰度图像被称为二元、二级或二色调图像

- GS=[g1,g2,g3,…,g16],其中灰度图像被称为16级灰度图像

- GS=[g1, g2,g3,…,g256],其中灰度图像被称为256级灰度图像。

在这一点,应当介绍贯穿文档使用的一个约定。由于图像被看作为函数,所以应当定义它的图形呈现的坐标系。通常,图像的左上角被视为参考点。这里将遵循这个约定,所以,图像的左上角将按被放置在原点对待。

定义3:三元组(I(x,y),x,y)被称为像素。对(x,y)被称为像素坐标,而I(x,y)被称为像素值。

通常,术语“像素”可互换地被使用于坐标、值以及坐标和值两者。在这里,如果不可能引发混淆的话,术语“像素”也将这样地使用,否则将使用准确的术语。同样,当不可能混淆时,符号I(x,y)将可互换地使用。

先前的三个定义提供了对于数字图像是什么的理解。图像处理的通常任务是一系列变换,这些变换导致原始图像的某种呈现,该呈现对于进一步的分析更便利,使得可以得出各种结论。以下的定义为这些变换的定形提供数学手段。

定义4:令Ω为具有尺度w和h的所有图像的集合。函数被称为n元图像运算符。如果n=1,运算符是一元的,而对于n=2,运算符是二元的。

先前的定义暗示,运算符是通过使用某组变换法则把一个图像(或几个图像)变换成另一个图像的函数。最重要的图像运算符是基于滤波器的运算符。滤波器(有时称为核或掩膜)是n×m尺寸的矩阵Anm

通常,n和m是相等的并且是奇数,从而产生例如3×3、5×5、7×7滤波器。基于滤波器的运算符通过使用下述法则来变换输入图像,即:在输出图像中的像素I0(x,y)通过使用以下公式进行计算:

其中所有的除法是整数除法。

换句话说,在输出图像中的像素是通过将输入图像中的对应像素的邻域与滤波器进行卷积而被构造的。

定义5:令I为宽度w和高度h的图像,以及令I(x,y)为任意像素。像素{I(x+1,y),I(x-1,y),I(x,y+1),I(x,y-1)}的集合被称为I(x,y)的4-邻居。相似地,像素{I(x+1,y),I(x-1,y),I(x,y+1),I(x,y-1),I(x-1,y-1),I(x-1,y+1),I(x+1,y-1),I(x+1,y+1)}的集合被称为I(x,y)的8-邻居。

在文献中对于毗邻有不同的定义,但将使用以下的定义,因为它对于随后的讨论是最方便的。

定义6:如果像素I(x2,y2)是像素I(x1,y1)的8-邻居集合的成员并且它们的像素值是“相似的”,则这两个像素I(x1,y1)和I(x2,y2)是毗邻的。

单词相似的被加上引号,是因为不存在相似性的严格定义。相反,这个定义是按照特定应用的要求而被采用的。例如,可以说,如果两个像素的像素值是相同的,则它们是相似的。贯穿本文档,都将采用这个定义,如果不是则另外阐述。

定义7:如果存在集合{I(x2,y2),I(x3,y3),…,I(xn-1,yn-1)},使得对于i=1,2,…,n-1,I(xi,yi)和I(xi+1,yi+1)是毗邻的,则两个像素I(x1,y1)和I(xn,yn)是已连接的。

定义8:已连成分是图像像素的子集,其中来自该集合的每个像素是与来自该集合的所有其余像素已连接的。

为了滤波文本图像中的背景,需要了解文本与背景之间的关系,以便在干净的(例如,白色)背景上提供灰度文本。这个要求可以参照图1弄明白。

图2上描绘的文本行的图像不适合于连续的处理。如果它可以被变换成图3所示的图像,则在OCR过程中随后的步骤多半会更简单和更精确。而且,方便的是假设:文本比背景彩色更深。如果事实上情形正是这样,则所有的文本-背景组合可以一致地处理。因此,当必要时,应当执行图4上描绘的图像变换。

先前的讨论应当澄清了:为了滤波文本图像的背景,应当确定文本-背景关系(在彩色方面);以及文本增强过程产生了其中深色文本呈现在白色背景上的图像。在下一节中,描述了文本-背景关系检测。

行剖析

[0053]要注意的第一件事情是文本行图像具有两种类型的像素,一种源自于文本,而另一种源自于背景。另外,在文本与背景之间的边缘处有突然的彩色改变。这导致在边缘空间中可以观察到文本行的结论。通过使用各种各样熟知的边缘检测技术中的任意技术,可以得到边缘空间中的行表示。边缘空间中的行表示的例子显示于图5。

很明显,在图5上保留了所有的重要的文本特征。字母主要被表示为边缘空间中的已连成分。而且,在边缘空间中的文本特征的呈现是与文本-背景关系无关的(例如,哪个彩色更深是不相关的)。所以,可以制定以下的定义。

定义9:自然行是在文本行图像的边缘空间中的所有已连成分的集合。

如果CCi是第i个已连成分以及是自然行,则下式成立:

行剖析规程是在自然行上进行的,产生以下定义中规定的行剖析。

定义10. 令是自然行,以及令是具有宽度w和高度h的对应的自然行图像。然后,如果满足以下的条件,则函数和(其中W={0,1,…,w-1}和GS={0,1,…,255})被称为前景行剖析和背景行剖析:

其中FP(x0)是来自自然行图像的、具有坐标x=x0的所有前景像素的集合,以及BP(x0)是来自自然行图像的、具有坐标x=x0的所有背景像素的集合。

换句话说,剖析函数反映对于给定的图像列的平均背景或前景强度。

在参照作为图2上的图像的灰度版本的图6以后,应当明白引入行剖析的重要性。虽然常常合理地假设:文本彩色强度和背景彩色强度沿水平轴是相当均匀的,但这个假设在图6的情形下是不成立的。在图像的左侧的平均背景强度约为190,而在图像的右侧,平均背景强度约为100(差值大于整个灰度范围0-255的三分之一)。

因此,在图6的情形下,跨整个图像来用单个值近似背景强度将在精度上造成很大的损失,从而阻碍随后的处理步骤得到最可信的信息。这是引入行剖析的原因。行剖析规程是用于估计行剖析的方法,且将在下面描述。

在定义10中介绍的行剖析很难使用给定的公式来计算,因为在过程中的这一点处缺乏关于前景和背景像素的知识。所以,应当执行某种估计。

要观察的第一件事是,虽然在整个自然行上可能存在彩色的很大变化,但在相对较小的局部化区域中,彩色应当是相当恒定的。如果该局部化区域被选择为例如具有等于几倍h的宽度和等于h的高度的矩形(其中h是行的高度),则可以对于该小的部分执行局部处理。

矩形的尺度被选择为遵从以下假设:在与几个字符的宽度成比例的距离上,彩色变化不能相对较大。局部处理暗示,在矩形上执行的处理产生两个值,一个用于主导的背景彩色,一个用于主导的前景彩色。这两个结果可被使用来近似在对应的矩形上的行剖析值。一个这样的矩形的例子被描绘于图7。

图7显示图6的自然行的最左面部分,其中所选择的矩形具有尺度2*h×h。如果局部处理产生分别为主导的前景和背景彩色的df和db,则可以使用以下的近似:

这个近似导致对于行剖析的阶梯状(step-like)近似。为了计算df和db的值,图7的矩形应当在边缘空间中表示,如图8所描绘的。也可以使用其它近似。例如,分段线性近似可以给出更好的结果,虽然它可能需要增多的处理时间。

图8上的三个内部矩形对应于已连成分的边界框。这些框限定两个不同的区域,一个区域包含边缘,另一个区域不包含边缘。这些区域被图示于图9。在图9上的深灰色区域对应于边缘区域,而浅灰色区域对应于非边缘区域。

接着,计算直方图,其举例说明对于图7的矩形局部化区域,像素相对于它们的彩色强度的分布(distribution)。计算另一个直方图,其举例说明仅仅对于图9的深灰色区域,像素相对于它们的彩色强度的分布。通过从第一个直方图的对应值中减去第二个直方图的值,得到再一个直方图。所计算的直方图被显示于图10a、10b和10c。

图10c上的直方图是图9上浅灰色区域的直方图(这是因为它是通过上述的减法过程而被创建的)。这是不包括边缘的区域,这暗示不带有字母的区域,因为只在字母-背景边界处才发现边缘。换句话说,它是对应于背景的区域。这将通过更详细地讨论图10a和10b的直方图而被展示。

图10a上的直方图代表对于图7的整个矩形的像素强度的分布。如图所示,有一个由背景像素引起的占主导的峰。严格地说,这个占主导的峰的存在并不是惯例(考虑完全粗体化的文本),所以还不会假设这实际上代表了背景。在峰的左面还有直方图的相对平坦的部分,其是由文本和背景以及它们的混合引起的。

直方图10b代表在图9所示的内部矩形内的像素的像素强度的分布,其对应于边缘区域。除了背景峰不是那样占主导之外,这个直方图看起来相当类似于10a上的直方图。第三直方图(图10c)是最重要的。如上所指出的,它对应于背景像素。由于直方图减法过程,起源于文本和文本-背景混合的成分被完全抵消(注意,缺少来自图10a的平坦区域)。在直方图上对应于峰的最大值的特定bin(仓室)给出占主导的背景彩色的强度。在本例中,它是190。

从图10c的直方图也可以得到背景动态范围。它可以通过检查在0开始的强度并找出对于具有非零数量的像素的第一bin的强度值而被找到。在图10c上,这个值是150。然后,对于其中像素的数量返回到零的随后的bin,找出强度值。在图10c上,这个值是230。因此,动态范围是[150,230]。在直方图10b上的、在这个范围以外的强度值是由前景文本像素导致的。在图10b的直方图上对应于从前景像素引起的第二峰的最大值的bin对应于占主导的前景彩色的强度,在本例中,它是47。

对于前景和背景行剖析的估计可以通过把这个过程应用到自然行的每个局部化区域(例如,图7上的矩形)而得到。应当指出,得到这些估计所需要的所有处理依赖于简单的直方图处理;即,直方图计算、直方图减法和最大值提取。不执行复杂的操作(例如,峰检测、峰宽度估计、平坦区域检测),因此几乎不留机会来让潜在的错误由于复杂的分析引发。对于图6上文本行的计算的背景和前景行剖析被描绘于图11,其中上面的线代表背景行剖析和下面的线代表前景行剖析。

在这一点,应当执行一个附加的步骤。即,通过观察在两个行剖析之间的关系,可以容易地提取文本-背景关系,以便确定哪一个彩色更深。如果在深色背景上找到浅色文本,则可以应用图像求逆运算符。这个运算符被定义为:

应用这个运算符的结果被描绘于图12。在执行这个求逆后,当必要时,可以安全地假设深色文本出现在浅色背景上。一旦背景和前景行剖析被计算(以及当必要时执行图像求逆),就可以通过使用阈值处理(thresholding)而滤除背景,这将在下面描述。

阈值处理

一旦行剖析被计算,滤波背景的过程就相当直截了当了。函数被应用到每个像素,且被定义为:

换句话说,具有小于前景和背景剖析的平均的像素强度值的每个像素仍维持原样,而其它像素被改变以使得它们看起来具有最大强度。也就是,它们被改变为白色。这种阈值处理可被看作为根据它们的像素值把像素分类为前景或背景的过程。如果像素被分类为前景像素,则它的值不被修改,而如果像素被分类为背景像素,则它的值被改变为白色。

更一般地,在一些实现中,不是把阈值确立为前景和背景剖析的平均,而是可以选择某个其它的参数,其是从前景和背景剖析确定的。

图3描绘的图像是通过使用上述的阈值处理技术而得到的。这个技术产生非常好的结果。然而,它在低质量图像上的应用并不总是令人满意的,以及某种文本增强技术可被应用到这样的图像,正如下面讨论的。

低质量文本增强

图13显示低质量文本图像的例子。在这个图像上应用前述的阈值处理规程的结果显示于图14。显然,作为结果的图像具有差的质量。任何随后的处理步骤注定要作出错误的判决,因为图像即使对于人来说都几乎是难辨认的。劣质结果的原因是明显的。组成图13的文本笔划的像素值具有大的变化。相比于前景像素,它们中的某些甚至更类似于背景像素,且某些有噪声的(noisy)像素具有类似于前景像素值的值。另外,笔划宽度极小,导致很少的文本完整性。

以上描述的阈值处理规程对于阈值函数使用固定值,其常常是在局部背景与前景剖析的中间。克服关于低质量文本图像的问题的一个方法是使得阈值处理规程更自适应,以使得阈值对于不同的图像是可调节的。不幸地,为了有效地完成这一点通常需要更多的上下文信息。阈值处理过程的一个替换例牵涉到使用更智能的(和更密集的)处理来检测低质量图像,以便提供更好的背景滤波。这样的替换过程将在讨论可以如何检测低质量文本图像以后进行描述。

低质量文本检测

检测低质量文本图像的第一步骤牵涉到识别使这样的图像质量低的那些特征。如前所述,这样的文本图像的特征在于小的笔划宽度和大的文本彩色变化。如果笔划宽度是较大的,则以上描述的阈值处理过程将产生字符的“变薄的”再现,但它们仍旧是可辨认的。这对于小的彩色变化也是成立的。可以得出结论,低质量文本图像的关键特征是小的笔划宽度与大的彩色强度变化的组合。

要指出的另一件事情是图14描绘的阈值处理规程的结果。显然,这个规程在字符的一些部分中产生具有小的宽度(典型地小于两个像素)的笔划。通过计算在这个图像上的“笔划”宽度的中值,可以评估文本质量。

为了描述用于估计笔划宽度的规程,需要以下的定义。

定义11. 令是已连成分。每个这样的,即其使得存在有属于的8-邻居集合的,被称为cc的边缘像素。

笔划宽度估计规程通过计算图14上的每个边缘前景像素的局部笔划宽度开始。这可以通过计算在所有可能的方向上的笔划宽度而完成,如图15中对于箭头发源于其中的单个前景像素所例示的。

从选择的前景像素开始,检查在90度方向的相邻像素。在垂直方向上,在到达背景像素之前有一串3个连续的前景像素。类似地,在0度方向有2个前景像素,在45度方向有1个前景像素,以及在135度方向延伸了3个前景像素。从这四个值中间,选择最小的(在这种情形下是1)作为对于所选择的像素的局部笔划宽度。这个相同的规程被应用到所有的边缘像素,由此产生一组局部笔划宽度。对于文本的总的笔划宽度的良好估计是这组值的中值,其被表示为SWor

一旦计算SWor,所有的必须的数据就可得到来检查文本图像的质量。如果SWor小于某个预定义的阈值SWtr,则图像可被看作为低质量图像。SWtr的选择影响过程的其余部分。因为选择的SWtr的值越小,被看作为低质量的自然行图像越少。虽然这暗示较小数量的随后处理,但它也使得某些自然行图像未被增强。另一方面,如果为SWtr选择较大的值,则将以更多的处理功率为代价来增强更多的自然行。在某些实现中,适当的折衷值是在的范围内的。

一旦低质量图像被检测到,就可以应用文本增强方法。下面描述了用于文本增强的两个说明性方法。第一个方法是非常精确的,但在需要的处理功率方面是昂贵的,而第二个方法是更经济的,但多多少少不太精确。

精确的文本增强

被传递到文本增强部件的图像具有小于某个预定义的阈值的笔划宽度SWor。这暗示在处理中只有很小的自由度。克服这个问题的一种方式是执行图像内插。图像内插是一种用于增加图像的分辨率的技术。虽然有大量的内插技术是可用的,但一个合适的例子是双线性内插,它是非常简单的然而又是足够强有力的来服务于文本增强过程的需要。

作为例子,假设图像要被内插以使得它的分辨率在两个(x和y)方向上增加到两倍。这意味着,在原始图像上的每个像素被映射到内插的图像上的一组四个像素。这个过程例示于图16。

在双线性内插过程中的第一步骤是把在原始图像上的坐标(x,y)处的像素值映射到输出图像上的坐标(2x,2y)。这个过程描绘于图17。包括小的画阴影的矩形的像素是没有被分配以值的像素。这样,输出像素的四分之一被分配以恰当的像素值。应当指出,映射或复制在输出图像上产生位于两个已分配的像素(这些像素是具有至少一个偶坐标的像素)之间的某些像素。这些像素的值可以被计算为被分配给它们的相邻像素的平均值(见图17b)。在这一点,只有在输出图像上具有奇坐标的像素仍旧是未被分配的。这些像素的值可以被计算为在它的4-邻居集合中的像素的所有像素值的平均。在双线性内插过程中的这个最后步骤产生内插的图像(见图17c)。图17c上的最后图像有某些像素不带有分配的值,因为它们的值依赖于图上未示出的像素值。

图18的底部部分显示把内插过程应用到该图的上面部分所描绘的文本图像的结果。

把图像内插应用到低质量文本图像所引发的一个有利的副作用是内插过程的固有的平滑影响。这产生具有文本彩色强度的更小方差的图像,其是对于低质量文本的问题之一。

在这一点,在文本增强过程中,知道以下的关于内插的图像的信息:

- 背景行剖析BLP(x)

- 前景行剖析FLP(x)

- 笔划宽度 SWhr=2*SWor+1。

由于阈值处理算法产生文本的受侵蚀(erode)的版本,因此小于((BLP(x)+FLP(x))/2的所有像素值可以被安全地看作为文本的一部分,并被分配以0的值。同样地,具有大于BLP(x)的值的像素可被分类为背景像素,并被分配以255的值。然而,具有在从((BLP(x)+FLP(x))/2到BLP(x)=(L1(x),L2(x))的范围内的值的像素在分类方面是成问题的,并且需要某种附加处理来确定它们是属于文本还是属于背景。

为了以易管理的和方便的方式分类这些像素,像素彩色分辨率可以通过使用以下等式而被划分成在前述的不确定范围上的有限数量的强度区间n:

其中ΔI=255/n和ΔL=(L2(x)-L1(x))/n。

确定强度区间的尺寸的参数是n,它应当被选择成产生少量的强度区间。在一些实现中,好的选择可以是例如。通过把强度划分成n个区间来减小彩色分辨率,可被使用来以某种方式增强文本的质量,该方式将结合图19和20描述。

现在将把文本增强过程应用到图19上的字母F。图20通过把像素加到这个字母而描绘了该过程。具有在第一区间ΔI内的强度的像素被添加到图20的最左面的字母。具有在第二区间ΔI内的强度的像素被添加到图20的从左面数的第二个字母。这个过程通过把在每个随后更高的强度区间内的像素添加到图上每个随后的字母而重复进行。

图20清楚地例示了以这种方式添加像素的结果。具体地,随着像素被添加,字母F变得越来越明确。虽然明显地这个过程可被使用来增强或重建各个字母,但当字母开始“渗漏”到背景或开始互相接触时引发了问题。为了防止这一点,必须采用某种停止准则来确定何时不应当添加附加像素。以下的定义在得到适当的停止准则时是有用的。

定义12. 令cc是已连成分。属于已连成分的、与cc的两个不同的边缘像素等距离的一组像素被称为cc的骨架。

图21a显示已连成分的例子。图21b上较深色的像素是对于这个已连成分的边缘像素,图21c的交叉影线(cross-hatched)像素代表已连成分的骨架。

要观察的一件事情是像素添加过程对于骨架几乎没有影响。这可以在图22中看到,其描绘了对应于图20中的像素添加过程的已连成分的骨架。在每个像素添加步骤,已连成分的骨架几乎保持为相同的。确实改变的东西是骨架像素与边缘像素之间的距离。添加的像素越多,骨架像素与边缘像素之间的距离变得越大。

在这一点,重要的是记起这个已连成分的笔划宽度SWhr已经被计算。合理的是要求像素添加过程在某小数量的骨架像素离边缘像素超过SWhr/2的距离时终止。如果这个值要被超过,则已连成分将开始“渗漏”到背景。因此,在这一点不再有像素应当添加到字母。

记住前面的讨论,文本增强算法可以被制定为如下:

1) 以两倍高的分辨率内插低质量文本图像。

2) 通过规定有限数量的强度区间来降低文本图像的彩色分辨率。

3) 识别在图像中仅仅由最深色的像素(例如,具有零强度的那些像素)形成的所有的已连成分。这些已连成分将被称为基本已连成分。

4) 对于每个基本已连成分执行以下步骤:

a. 计算已连成分的骨架。

b. 如果在骨架中的像素离边缘像素小于距离SWhr/2,则通过把属于下一个强度区间(当前的I+ΔI)的相邻像素添加到当前的已连成分而创建新的已连成分。

c. 重复步骤a和b,直至满足停止准则为止。也就是说,当有离边缘像素大于SWhr/2的距离的骨架像素时,这个过程停止。

一旦所有的基本已连成分都以这种方式被处理,文本增强过程就结束。把这个过程应用到如图13描绘的图像的结果例示于图23。

经济的文本增强

先前描述的用于通过使用笔划恢复来增强文本图像的算法常常可以提供非常好的结果。然而,一个缺点是它的计算复杂性。在这一节,将描述该算法的一个变例,它不太昂贵(就处理功率而言),但具有类似的质量。

如在先前的方法中那样,这个方法执行图像内插,且把彩色分辨率按以上描述的方式分成有限数量的区间。然而,在前一节中描述的算法是费时的,因为对基本已连成分应用了递归过程,其牵涉到骨架的计算。由于骨架是停止准则的组成部分,所以可以利用停止准则的某个其它变例来降低算法的计算复杂性。下面描述一个方法。

在减小彩色分辨率后,留下一小组的彩色。具有255的强度的所有像素(白色像素)被认为是背景的一部分。具有零的强度的所有像素(黑色像素)被认为是文本像素。是灰色像素才成问题。再次参照图19,一个避免需要执行骨架的精确计算而同时得到它的估计的方式是(对于每个灰色像素)找出以该像素为中心的、完全由非白色像素组成的最大矩形。令是对于像素I(x,y)的矩形的尺度。具有满足的矩形的所有像素都几乎肯定是文本的一部分或是背景中的平坦的有噪声区域。这个集合被表示为。现在,使得(其中,)的所有像素被添加到该集合中。换句话说,来自集合A内的像素的邻近区域的所有像素被添加,这是对于上述的算法中像素添加规程的替换例。为了保证不发生到背景的“渗漏”,集合A可以经历滤波。这样,如果来自该集合的像素离最接近的边缘的距离大于SWhr,则可以消除这些像素。这样,平坦的有噪声区域从文本中被消除。

这个算法类似于上述的更精确的算法。然而,不是在添加区间内的每组像素之前执行递归计算,而是应用一步近似,从而导致较小的处理时间量。通过对低质量文本图像应用这个算法而达到的结果被发现类似于通过应用精确的算法而达到的结果,所述结果被描绘于图23。

图24显示图像处理设备300的一个例子,其可以对经历光学字符识别的文本图像执行上述的文本增强过程。可以被合并在OCR引擎中的该设备包括输入部件202,用于接收具有文本的自然行的输入图像。该设备还包括背景和前景行剖析部件204、图像质量检测部件206、阈值处理部件208和笔划增强部件210。输出部件212生成增强的图像作为输出,其可以被OCR引擎的随后的部件利用。

图25是显示用于增强要经历光学字符识别的文本图像的总体方法的一个例子的流程图。该方法可以通过图24所示的图像处理设备实施。该方法在步骤305当由输入部件202接收到文本的自然行的图像时开始。在步骤310,行剖析部件204然后对自然行执行边缘检测,以产生在边缘空间中的自然行的表示。在步骤315,行剖析部件204接着识别在边缘空间中的自然行的表示中出现的每个已连成分。通过使用在步骤310和315中得到的信息,行剖析部件204在步骤320中以上述的方式确定背景和前景行剖析。一旦行剖析被确定,图像质量检测部件206就在步骤325中根据行剖析确定图像的质量是否足以分配像素给图像的背景或前景部分。如上所述,可被使用来确定图像质量的一个准则是已连成分的笔划宽度。如果在判决步骤330中发现图像质量是足够高的,则在步骤335中由阈值处理部件208把像素分配给图像的前景或背景部分。另一方面,如果图像质量是不够高的,则在步骤340中由笔划增强部件210执行图像增强,以便增强已连成分的笔划。最后,在步骤345中,输出部件212生成增强的图像,其可以被OCR引擎的随后部件利用。

当在本申请中使用时,术语“部件”、“模块”、“系统”、“设备”、 “接口”等等通常打算指与计算机有关的实体,或者是硬件、硬件与软件的组合、软件,或者是执行中的软件。例如,部件可以是,但不限于,在处理器上运行的进程、处理器、对象、可执行文件、执行的线程、程序和/或计算机。作为说明,在控制器上运行的应用和该控制器都可以是部件。一个或多个部件可以驻留在执行的线程和/或进程内,以及部件可以被定位在一个计算机上和/或被分布在两个或更多个计算机之间。

而且,所要求保护的主题可以通过使用标准编程和/或工程技术产生软件、固件、硬件或它们的任何组合,而被实施为方法、设备或制品,以便控制计算机实施所公开的主题。当在这里使用时,术语 “制品”打算包括从任何计算机可读装置、载体、或媒体可访问的计算机程序。例如,计算机可读媒体可包括,但不限于,磁存储装置(例如,硬盘、软盘、磁条…)、光盘(例如,紧凑盘(CD)、数字多功能盘(DVD)…)、智能卡和闪速存储器装置(例如,卡、棒、键驱动(key drive)…)。当然,本领域技术人员将会认识到,可以对于本配置做出许多修改而不背离所要求保护的主题的范围或精神。

虽然本主题是以对于结构特征和/或方法动作特定的语言描述的,但应当明白,在所附权利要求中限定的主题不是必须限于以上描述的特定特征或动作。相反,以上描述的特定特征或动作是作为实施权利要求的示例性形式被公开的。 

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号