首页> 中国专利> 文本图像与非文本图像的分类方法和分类系统

文本图像与非文本图像的分类方法和分类系统

摘要

本发明公开了一种文本图像与非文本图像的分类方法和分类系统。其中,该方法可以包括获取原始图像的二值矩阵;统计二值矩阵中字符点所构成的连通域,获取符合第一预定要求的字符连通域的位置和大小;对文本行进行划分,得到文本行的个数和位置信息,以及文本行含有的字符连通域的个数和位置信息;提取原始图像中的线段,并计算线段的倾斜角度及倾斜角度的中位数;根据线段的倾斜角度及倾斜角度的中位数,计算不符合第二预定要求的线段所占的比例;统计原始图像的灰度空间和HSV空间中S通道的均值和方差;根据前述步骤的结果,利用朴素贝叶斯分类模型实现原始图像的分类。由此,本发明实施例解决了如何准确地从海量图像中筛选出文本图像的技术问题。

著录项

  • 公开/公告号CN106503732A

    专利类型发明专利

  • 公开/公告日2017-03-15

    原文格式PDF

  • 申请/专利权人 北京云江科技有限公司;

    申请/专利号CN201610892308.0

  • 发明设计人 刘宁;陈李江;

    申请日2016-10-13

  • 分类号G06K9/62(20060101);G06K9/34(20060101);

  • 代理机构北京瀚仁知识产权代理事务所(普通合伙);

  • 代理人宋宝库

  • 地址 100083 北京市海淀区五道口优盛大厦A座1801室

  • 入库时间 2023-06-19 01:48:18

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-11-29

    专利权的转移 IPC(主分类):G06K9/62 登记生效日:20191108 变更前: 变更后: 申请日:20161013

    专利申请权、专利权的转移

  • 2019-07-19

    授权

    授权

  • 2017-04-12

    实质审查的生效 IPC(主分类):G06K9/62 申请日:20161013

    实质审查的生效

  • 2017-03-15

    公开

    公开

说明书

技术领域

本发明实施例涉及图像处理技术领域,具体涉及一种文本图像与非文本图像的分类方法和分类系统。

背景技术

图像作为人类感知世界的视觉基础,是人类获取信息、表达信息和传递信息的重要手段。图像处理是对图像进行分析,以达到所需结果的技术。

图像处理技术中的图像分类是指通过对图像内容进行分析来对图像进行自动分类的技术。该技术在很多方面都有着重要的应用价值,比如在互联网安全、视频内容分析等方面。图像分类是图像识别技术中重要的一环,该技术可以在海量数据处理中大大提高生产效率。

有鉴于此,特提出本发明。

发明内容

本发明实施例的主要目的在于提供一种文本图像与非文本图像的分类方法,其至少部分地解决了如何准确地从海量图像中筛选出文本图像的技术问题。此外,还提供一种文本图像与非文本图像的分类系统。

为了实现上述目的,根据本发明的一个方面,提供了以下技术方案:

一种文本图像与非文本图像的分类方法,所述方法至少包括:

获取原始图像的二值矩阵;

统计所述二值矩阵中字符点所构成的连通域,并筛选出长度、宽度、长宽比符合第一预定要求的字符连通域,且获取符合所述第一预定要求的所述字符连通域的位置和大小;

根据所述符合第一预定要求的字符连通域的位置和大小对文本行进行划分,得到所述文本行的个数和位置信息,以及所述文本行含有的所述字符连通域的个数和位置信息;

对所述二值矩阵进行霍夫变换,提取所述原始图像中的线段,并计算所述线段的倾斜角度及所述倾斜角度的中位数;

针对所有提取出的所述线段,根据所述线段的所述倾斜角度及所述倾斜角度的中位数,计算不符合第二预定要求的线段所占的比例;

统计所述原始图像的灰度空间和HSV空间中S通道的均值和方差;

根据所述文本行的个数和位置信息、所述每一文本行含有的字符连通域的个数和位置信息、所述不符合第二预定要求的线段所占的比例以及所述均值和所述方差,建立朴素贝叶斯分类模型,并利用所述朴素贝叶斯分类模型实现所述原始图像的所述文本图像与所述非文本图像的分类。

进一步地,所述获取原始图像的二值矩阵具体包括:

获取所述原始图像的灰度矩阵;

通过巴氏相似性系数滤波器对所述原始图像的灰度矩阵进行滤波得到所述巴氏相似性矩阵;

对所述巴氏相似性矩阵进行归一化处理;

将归一化后的巴氏相似性矩阵中的数值按照大小生成直方图;

在所述直方图上,利用OTSU方法进行二值划分,得到二值矩阵。

进一步地,所述根据所述符合第一预定要求的字符连通域的位置和大小对文本行进行划分,得到所述文本行的个数和位置信息,以及所述文本行含有的所述字符连通域的个数和位置信息,具体包括:

基于所述符合第一预定要求的字符连通域的位置和大小,进行以下判断:

若任意二所述字符连通域的纵坐标存在重叠区域,则将所述二字符连通域划分为同一文本行,否则,将所述二字符连通域划分为不同的文本行;

若任一所述字符连通域与当前所有所述文本行在纵坐标上无重叠区域,则为所述字符连通域创建一新的文本行;

若任一所述字符连通域与任一所述文本行的纵坐标存在重叠区域,则将所述任一字符连通域划分到该文本行;

若任一所述字符连通域与任二所述文本行的纵坐标存在重叠区域,则将所述任一字符连通域划分到重叠区域所占比重大的文本行;

遍历所有所述字符连通域,基于上述判断结果,得到所述文本行的个数和位置信息,以及所述文本行含有的字符连通域的个数和位置信息。

进一步地,所述对所述二值矩阵进行霍夫变换,提取所述原始图像中的线段,并计算所述线段的倾斜角度及所述倾斜角度的中位数,具体包括:

对所述二值矩阵中的字符点进行极坐标变换,将极坐标空间中取值大于阈值的字符点作为图像空间中备选线段的点,并将所述备选线段反转到所述图像空间中;

基于反转到所述图像空间中的所述备选线段,统计出所有所述备选线段的起止点位置、长度和倾斜角度,并根据所述备选线段的长度筛选线段;

针对筛选出的线段,计算所述线段倾斜角度的中位数。

进一步地,所述根据所述文本行的个数和位置信息、所述每一文本行含有的字符连通域的个数和位置信息、所述不符合第二预定要求的线段所占的比例以及所述均值和所述方差,建立朴素贝叶斯分类模型,并利用所述朴素贝叶斯分类模型实现所述原始图像的所述文本图像与所述非文本图像的分类,具体包括:

构建包括所述文本图像和所述非文本图像的图像集;

针对所述图像集中的所述文本图像和所述非文本图像,分别提取基于所述文本行的个数和位置信息、所述各文本行含有的字符连通域的个数和位置信息、所述不符合第二预定要求的线段所占的比例、所述均值和所述方差的特征,并构建特征向量;

基于所述特征向量,构建2类别的朴素贝叶斯分类模型;

根据所述朴素贝叶斯分类模型,对原始图像进行所述文本图像与所述非文本图像的分类。

进一步地,所述基于所述特征向量,构建2类别的朴素贝叶斯分类模型,具体包括:

建立训练样本;

将所述训练样本分为文本图像类样本和非文本图像类样本;

计算所述文本图像类样本所占比例和所述非文本图像类样本所占比例;

根据所述文本图像类样本所占比例和所述非文本图像类样本所占比例,估算所述特征向量中各维特征的类条件概率分布;

根据所述各维特征的类条件概率分布,计算各所述训练样本的类条件概率分布;

根据以下公式建立朴素贝叶斯分类模型:

其中,所述p(xjk)表示所述各维特征的类条件概率分布;所述p(xik)表示所述各训练样本的类条件概率分布;所述k表示类别;所述ωk表示第k个类别;所述j表示维度;所述xi表示所述训练样本;所述ω*表示推断出的所述训练样本所属的类别。

为了实现上述目的,根据本发明的另一个方面,还提供了一种文本图像与非文本图像的分类系统,所述系统至少包括:

第一获取模块,用于获取原始图像的二值矩阵;

第二获取模块,用于统计所述二值矩阵中字符点所构成的连通域,并筛选出长度、宽度、长宽比符合第一预定要求的字符连通域,且获取符合所述第一预定要求的所述字符连通域的位置和大小;

划分模块,用于根据所述符合第一预定要求的字符连通域的位置和大小对文本行进行划分,得到所述文本行的个数和位置信息,以及所述文本行含有的所述字符连通域的个数和位置信息;

第一计算模块,用于对所述二值矩阵进行霍夫变换,提取所述原始图像中的线段,并计算所述线段的倾斜角度及所述倾斜角度的中位数;

第二计算模块,用于针对所有提取出的所述线段,根据所述线段的所述倾斜角度及所述倾斜角度的中位数,计算不符合第二预定要求的线段所占的比例;

统计模块,用于统计所述原始图像的灰度空间和HSV空间中S通道的均值和方差;

分类模块,用于根据所述文本行的个数和位置信息、所述每一文本行含有的字符连通域的个数和位置信息、所述不符合第二预定要求的线段所占的比例以及所述均值和所述方差,建立朴素贝叶斯分类模型,并利用所述朴素贝叶斯分类模型实现所述原始图像的所述文本图像与所述非文本图像的分类。

进一步地,所述第一获取模块具体包括:

获取单元,用于获取所述原始图像的灰度矩阵;

滤波单元,用于通过巴氏相似性系数滤波器对所述原始图像的灰度矩阵进行滤波得到所述巴氏相似性矩阵;

归一化单元,用于对所述巴氏相似性矩阵进行归一化处理;

处理单元,用于将归一化后的巴氏相似性矩阵中的数值按照大小生成直方图;

二值划分单元,用于在所述直方图上,利用OTSU方法进行二值划分,得到二值矩阵。

进一步地,所述第一计算模块具体包括:

变换单元,用于对所述二值矩阵中的字符点进行极坐标变换,将极坐标空间中取值大于阈值的字符点作为图像空间中备选线段的点,并将所述备选线段反转到所述图像空间中;

筛选单元,用于基于反转到所述图像空间中的所述备选线段,统计出所有所述备选线段的起止点位置、长度和倾斜角度,并根据所述备选线段的长度筛选线段;

计算单元,用于针对筛选出的线段,计算所述线段倾斜角度的中位数。

进一步地,所述分类模块具体包括:

第一构建单元,用于构建包括所述文本图像和所述非文本图像的图像集;

第二构建单元,用于针对所述图像集中的所述文本图像和所述非文本图像,分别提取基于所述文本行的个数和位置信息、所述各文本行含有的字符连通域的个数和位置信息、所述不符合第二预定要求的线段所占的比例、所述均值和所述方差的特征,并构建特征向量;

第三构建单元,用于基于所述特征向量,构建2类别的朴素贝叶斯分类模型;

分类单元,用于根据所述朴素贝叶斯分类模型,对原始图像进行所述文本图像与所述非文本图像的分类。

本发明实施例提供一种文本图像与非文本图像的分类方法和分类系统。其中,该方法可以包括获取原始图像的二值矩阵;统计二值矩阵中字符点所构成的连通域,并筛选出长度、宽度、长宽比符合第一预定要求的字符连通域,且获取符合第一预定要求的字符连通域的位置和大小;根据符合第一预定要求的字符连通域的位置和大小对文本行进行划分,得到文本行的个数和位置信息,以及文本行含有的字符连通域的个数和位置信息;对二值矩阵进行霍夫变换,提取原始图像中的线段,并计算线段的倾斜角度及倾斜角度的中位数;针对所有提取出的线段,根据线段的倾斜角度及倾斜角度的中位数,计算不符合第二预定要求的线段所占的比例;统计原始图像的灰度空间和HSV空间中S通道的均值和方差;根据文本行的个数和位置信息、每一文本行含有的字符连通域的个数和位置信息、不符合第二预定要求的线段所占的比例以及均值和方差,建立朴素贝叶斯分类模型,并利用朴素贝叶斯分类模型实现原始图像的文本图像与非文本图像的分类。由此,本发明实施例解决了如何准确地从海量图像中筛选出文本图像的技术问题,可以完成海量图像数据中对文本图像的筛选工作,对筛选出的文本图像,还可以再进行后续OCR识别等相关工作。

本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其它优点可通过在所写的说明书、权利要求书以及附图中所特别指出的方法来实现和获得。

附图说明

附图作为本发明的一部分,用来提供对本发明的进一步的理解,本发明的示意性实施例及其说明用于解释本发明,但不构成对本发明的不当限定。显然,下面描述中的附图仅仅是一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。在附图中:

图1为根据一示例性实施例示出的文本图像与非文本图像的分类方法的流程示意图;

图2为根据另一示例性实施例示出的文本图像与非文本图像的分类系统的结构示意图。

具体实施方式

下面结合附图以及具体实施例对本发明进行详细的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,并不是全部实施例。基于本申请中的实施例,本领域普通技术人员在不付出创造性劳动的前提下,所获的所有其它等同或明显变型的实施例均落在本发明的保护范围内。本发明实施例可以按照权利要求中限定和涵盖的多种不同方式来具体化。在下面的描述中,为了方便理解,给出了许多具体细节。但是很明显,本发明的实现可以没有这些具体细节。还需要说明的是,在没有明确限定或不冲突的情况下,本发明中的各个实施例及其中的技术特征可以相互组合而形成技术方案。

需要说明的是,虽然本文可提供包含特定值的参数的示例,但应了解,参数无需确切等于相应的值,而是在可接受的误差容限或设计约束内近似于相应的值。

本发明实施例的基本思想是:从数据源中随机抽取若干幅图像,构建成图像集,接着将抽取到的图像集进行人工分类,分为文本图像和非文本图像两类,再分别抽取这两类别图像的特征向量,并统计出各特征空间中的类条件概率分布,然后,利用贝叶斯公式,根据类别的先验概率,以及各特征空间中的类条件概率分布,可以计算出一个未知图像属于每一类的概率,最后取概率较大的一类作为对该图像类别的预测。

在实际应用中,为了从海量图像数据中筛选出文本图像,本发明实施例提出一种文本图像与非文本图像的分类方法。如图1所示,该方法可以通过步骤S100至步骤S160来实现。其中:

步骤S100:获取原始图像的二值矩阵。

具体地,本步骤可以进一步通过步骤S101至步骤S105来实现。

步骤S101:获取原始图像的灰度矩阵。

作为示例,原始图像灰度矩阵元素的取值范围通常可以为[0,255]。因此灰度矩阵元素的数据类型一般为8位无符号整数,即256灰度图像。其中,“0”表示纯黑色,“255”表示纯白色,中间的数字从小到大表示由黑到白的过渡色。

步骤S102:通过巴氏相似性系数滤波器对原始图像的灰度矩阵进行滤波得到巴氏相似性矩阵。

其中,巴氏相似性系数滤波器可以通过以下公式来实现:

其中,x0表示原始图像灰度矩阵中的像素坐标;y0表示原始图像灰度矩阵中的像素坐标;i表示高斯核的参数;j表示高斯核的参数;W表示巴氏相似性系数滤波器的宽度;H表示巴氏相似性系数滤波器的高度;BS(x0,y0)表示巴氏相似性系数矩阵;G(i,j)表示高斯核,且δ表示高斯分布的标准差;p(x0+i,y0+j)表示灰度矩阵中位于(x0+i,y0+j)的数值;L(i,j)表示背景模板

在实际应用中,可以将背景模板的大小配置为与滤波模板的大小一样。例如:背景模板的大小可以为5×5,并定义θmean-thres≤θ(i)≤θmean+thres即在灰度矩阵任意位置处,背景模板都用相同数值的非零常值矩阵来表示,其中,θmean表示倾斜角度的中位数,thres表示倾斜角度的阈值,θ(i)表示倾斜角度。这里,本发明实施例采用非零常值矩阵来对局部背景进行近似表示是因为:从整张图像来看,背景的变化可能比较大,用常值矩阵来近似表示并不合理,但是从大小为5×5的局部来看,背景变化在这么小的范围内时灰度变化并不会很大。

在一些实施例中,x0可以表示原始图像灰度矩阵中的像素横坐标;y0可以表示原始图像灰度矩阵中的像素纵坐标。

步骤S103:对巴氏相似性矩阵进行归一化处理。

例如:按比例将巴氏相似性矩阵中所有数值缩放到[0,1]之间。

步骤S104:将归一化后的巴氏相似性矩阵中的数值按照大小生成直方图。

在实际应用中,可以将归一化后的巴氏相似性矩阵中的数值按照大小生成一个1000通道的直方图。

步骤S105:在直方图上,利用OTSU方法进行二值划分,得到二值矩阵。

其中,OTSU方法为图像阈值分割方法。在二值矩阵上,1表示字符点,0表示背景点。

步骤S110:统计二值矩阵中字符点所构成的连通域,并筛选出长度、宽度、长宽比符合第一预定要求的字符连通域,且获取该符合第一预定要求的字符连通域的位置和大小。

本步骤统计二值矩阵中字符点的连通域,记录每一个字符点的连通域的高度和宽度,并计算出字符点的连通域的平均高度和平均宽度,筛选出长度、宽度、长宽比符合第一预定要求的字符连通域。

示例性地,第一预定要求可以设定为:

5≤height(i)≤50并且5≤width(i)≤50,并且

0.3×mean_height≤height(i)≤2×mean_height,并且

0.5×mean_width≤width(i)≤2×mean_width,并且

其中,height(i)表示字符点的连通域的高度;width(i)表示字符点的连通域的宽度;1≤i≤CN;CN表示字符点的连通域的个数;mean_height表示字符点的连通域的平均高度;mean_width表示字符点的连通域的平均宽度。

步骤S120:根据符合第一预定要求的字符连通域的位置和大小对文本行进行划分,得到文本行的个数和位置信息,以及每个文本行含有的字符连通域的个数和位置信息。

作为示例,本步骤可以根据字符连通域的起始纵坐标和结束纵坐标,来获取文本行的位置信息,该位置信息可以包括文本行的起始列和结束列的信息。

具体地,本步骤可以进一步通过步骤S121至步骤S122来实现。

步骤S121:基于符合第一预定要求的字符连通域的位置和大小,进行以下判断:

若任意两个字符连通域的纵坐标有重叠区域,则将该两个字符连通域划分为同一个文本行,否则,将该两个字符连通域划分为不同的文本行;

若任一个字符连通域与当前所有文本行在纵坐标上无重叠区域,则为该字符连通域创建一个新的文本行;

若任一个字符连通域与任一文本行的纵坐标有重叠区域,则将该字符连通域划分到该文本行;

若任一字符连通域与任两个文本行的纵坐标都有重叠区域,则将该任一字符连通域划分到重叠区域所占比重大的那个文本行。

步骤S122:遍历所有字符连通域,基于上述判断结果,得到文本行的个数和位置信息,以及文本行含有的字符连通域的个数和位置信息。

例如,在实际应用中,可以按照如下步骤a至步骤d的方式来处理每一个字符连通域:

步骤a:当字符连通域x(i)的纵坐标的范围[upRow(i),downRow(i)]不与任意一个文本行的纵坐标的范围[lineUpRow(j),lineDownRow(j)]相交时,即:则创建一个新的文本行k,且令lineUpRow(k)=upRow(i),lineDownRow(k)=downRow(i)。

步骤b:若当字符连通域x(i)的纵坐标的范围[upRow(i),downRow(i)]与某一文本行j相交,即:则将该字符连通域划入文本行j,且以下述方式更新文本行j的信息:

lineUpRow(j)=min(lineUpRow(j),upRow(i))

lineDownRow(j)=max(lineDownRow(j),downRow(i))。

步骤c:若字符连通域x(i)的纵坐标的范围[upRow(i),downRow(i)]与多个文本行相交,则将该字符连通域划分到相交范围最大的那个文本行中,并按方式(2)的方式更新该文本行的信息。

其中,i表示字符连通域的序号;j表示文本行的行号;x(i)表示字符连通域;upRow(i)表示字符连通域的起始纵坐标;downRow(i)表示字符连通域的结束纵坐标;line(j)表示文本行;lineUpRow(j)表示文本行的起始纵坐标;lineDownRow(j)表示文本行的结束纵坐标。

步骤d:统计得到所有文本行的信息,把包含字符数小于一定预定数量(例如:3)的文本行删除。

步骤S130:对二值矩阵进行霍夫变换,提取原始图像中的线段,并计算该线段的倾斜角度及倾斜角度的中位数。

具体地,本步骤可以进一步包括:

步骤S131:对二值矩阵中的字符点进行极坐标变换,将极坐标空间中取值大于阈值的字符点作为图像空间中备选线段的点,并将该备选线段反转到图像空间中。

例如:在二值矩阵中,仅对1的点(字符点)进行极坐标变换,将极坐标空间中取值大于10的点作为图像空间中备选线段的点,并反转到图像空间相应的位置中。

步骤S132:基于反转到图像空间中的备选线段,统计出所有备选线段的起止点位置、长度和倾斜角度,并根据备选线段的长度筛选线段。

在具体实施过程中,本步骤针对每一条反转到图像空间中的直线,找到穿过该直线的所有像素点,通过这些像素点的横坐标来找到线段的起止位置,进而可以计算该线段的长度,然后把长度小于长度阈值(例如:20)的线段删除。

步骤S133:针对筛选出的线段,计算该线段倾斜角度的中位数。

步骤S140:针对所有提取出的线段,根据该线段的倾斜角度及倾斜角度的中位数,计算不符合第二预定要求的线段所占的比例。

其中,第二预定要求可以设置为:

θmean-thres≤θ(i)≤θmean+thres

其中,θ(i)表示倾斜角度;θmean表示倾斜角度的中位数;thres表示倾斜角度的阈值。

在一些实施例中,可以根据下式来计算θ(i):

其中,(x_left,y_left)表示每一条线段左端点的位置信息;(x_right,y_right)表示每一条线段右端点的位置信息。

若满足θmean-thres≤θ(i)≤θmean+thres,则该线段为一条“符合预期”的线段;否则,其为一条“不符合预期”的线段。然后,统计出“不符合预期”(也即第二预定要求)的线段的比例。

本发明实施例采用不符合预期的线段所占的比例这一指标,主要是出于以下考虑:

在实际实施过程中,会考虑可接受范围,例如,该可接受范围为[θmean-10°,θmean+10°],倾斜角度处于该范围的为符合预期的线段,反之则为不符合预期的线段,于是可以统计出不符合预期的线段所占的比例。对文本图像而言,获取的线段大多数是平行线断,倾斜角度偏差不会很大,因此不符合预期的线段所占的比例会很小;而对于非文本图像,获取的线段方向比较有多样性,不同线段的倾斜角度差别比较大,因此不符合预期的线段所占的比例会很大。

步骤S150:统计原始图像的灰度空间和HSV空间中S通道的均值和方差。

步骤S160:根据,建立朴素贝叶斯分类模型,并利用该朴素贝叶斯分类模型实现原始图像的文本与非文本图像分类。

本步骤可以进一步包括:

步骤S161:构建包括文本图像和非文本图像的图像集。

在具体实施过程中,可以采用人工的方式将图像集分为文本图像和非文本图像。

步骤S162:针对图像集中的文本图像和非文本图像,分别提取基于文本行的个数和位置信息、每个文本行含有的字符连通域的个数和位置信息、不符合第二预定要求的线段所占的比例、均值和方差的特征,并构建特征向量。

根据文本行的个数和位置信息、每个文本行含有的字符连通域的个数和位置信息可以确定文字区域面积占原图的比例。

作为示例,还可以根据以下信息来构建特征向量:字符连通域个数、文字区域面积占原图的比例、文本行的个数、不符合第二预定要求的线段所占的比例、图像灰度空间和HSV空间中S通道的均值和方差。

这样,对于每张图片xi都可用特征向量表示,其中d表示特征维数。

步骤S163:基于特征向量,构建2类别的朴素贝叶斯分类模型。

其中,建立朴素贝叶斯分类模型的过程可以包括:

步骤S1631:建立训练样本。

例如:可以从图像数据源中随机抽取1000张图像,作为模型的训练样本。

步骤S1632:将训练样本分为文本图像类样本和非文本图像类样本。

可以从上述1000张图片中挑出文本图像作为文本图像类样本,剩余的为非文本图像类样本。

步骤S1633:计算文本图像类样本所占比例和非文本图像类样本所占比例。

例如:p(ω1)表示文本图像类样本所占比例,则非文本图像类样本所占比例为p(ω2)=1-p(ω1)。其中,ω1表示文本图像类样本,ω2表示非文本图像类样本。

步骤S1634:根据文本图像类样本所占比例和非文本图像类样本所占比例,估算特征向量中每一维特征的类条件概率分布。

具体地,估算过程可以通过以下方式实现:计算所有训练样本的特征向量,对特征向量的每一维都进行统计,并根据统计结果估算出每维特征的类条件概率分布p(xjk)。其中,k表示类别;j表示维度;xj表示样本在第j维上的分量;ωk表示第k个类别。

步骤S1635:根据每一维特征的类条件概率分布,计算每个训练样本的类条件概率分布。

具体地,可以根据以下公式来计算每个训练样本的类条件概率分布:

其中,p(xjk)表示每维特征的类条件概率分布;p(xik)表示每个训练样本的类条件概率分布;k表示类别;ωk表示第k个类别;j表示维度。

步骤S1636:根据以下公式建立朴素贝叶斯分类模型:

其中,xi表示训练样本;ω*表示推断出的训练样本所属的类别。

步骤S164:根据朴素贝叶斯分类模型,对原始图像进行文本图像与非文本图像的分类。

本步骤根据建立好的朴素贝叶斯分类模型对一幅图像做分类,从而判断其是否属于文本图像。

通过采用上述实施例,可以完成海量图像数据中对文本图像的筛选工作,对筛选出的文本图像,可以再进行后续OCR识别等相关工作。

这里需要说明的是,上述实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。

基于与方法实施例相同的技术构思,本发明实施例还提供一种文本图像与非文本图像的分类系统。如图2所示,该系统20可以包括:第一获取模块21、第二获取模块22、划分模块23、第一计算模块24、第二计算模块25、统计模块26和分类模块27。其中,第一获取模块21用于获取原始图像的二值矩阵。第二获取模块22与第一获取模块21相连,用于统计二值矩阵中字符点所构成的连通域,并筛选出长度、宽度、长宽比符合第一预定要求的字符连通域,且获取符合第一预定要求的字符连通域的位置和大小。划分模块23与第二获取模块22相连,用于根据符合第一预定要求的字符连通域的位置和大小对文本行进行划分,得到文本行的个数和位置信息,以及文本行含有的字符连通域的个数和位置信息。第一计算模块24与第一获取模块21相连,用于对二值矩阵进行霍夫变换,提取原始图像中的线段,并计算线段的倾斜角度及倾斜角度的中位数。第二计算模块25与第一计算模块24相连,用于针对所有提取出的线段,根据线段的倾斜角度及倾斜角度的中位数,计算不符合第二预定要求的线段所占的比例。统计模块26用于统计原始图像的灰度空间和HSV空间中S通道的均值和方差。分类模块27分别与划分模块23、第二计算模块25和统计模块26相连,用于根据文本行的个数和位置信息、每一文本行含有的字符连通域的个数和位置信息、不符合第二预定要求的线段所占的比例以及均值和方差,建立朴素贝叶斯分类模型,并利用朴素贝叶斯分类模型实现原始图像的文本图像与非文本图像的分类。

有关本实施例的说明可以参考方法实施例中的相关内容,在此不再赘述。

通过采用上述实施例,可以完成海量图像数据中对文本图像的筛选工作,对筛选出的文本图像,还可以再进行后续OCR识别等相关工作。

在一些实施例中,在图2所示实施例的基础上,上述第一获取模块还可以具体包括:获取单元、滤波单元、归一化单元和二值划分单元。其中,获取单元用于获取原始图像的灰度矩阵。滤波单元用于通过巴氏相似性系数滤波器对原始图像的灰度矩阵进行滤波得到巴氏相似性矩阵。归一化单元用于对巴氏相似性矩阵进行归一化处理。处理单元用于将归一化后的巴氏相似性矩阵中的数值按照大小生成直方图。二值划分单元用于在直方图上,利用OTSU方法进行二值划分,得到二值矩阵。

有关本实施例的说明可以参考方法实施例中的相关内容,在此不再赘述。

在一些实施例中,在图2所示实施例的基础上,上述第一计算模块还可以具体包括:变换单元、筛选单元和计算单元。其中,变换单元用于对二值矩阵中的字符点进行极坐标变换,将极坐标空间中取值大于阈值的字符点作为图像空间中备选线段的点,并将备选线段反转到图像空间中。筛选单元用于基于反转到图像空间中的备选线段,统计出所有备选线段的起止点位置、长度和倾斜角度,并根据备选线段的长度筛选线段。计算单元用于针对筛选出的线段,计算线段倾斜角度的中位数。

有关本实施例的说明可以参考方法实施例中的相关内容,在此不再赘述。

在一些实施例中,在图2所示实施例的基础上,上述分类模块还可以具体包括:第一构建单元、第二构建单元、第三构建单元和分类单元。其中,第一构建单元用于构建包括文本图像和非文本图像的图像集。第二构建单元用于针对图像集中的文本图像和非文本图像,分别提取基于文本行的个数和位置信息、各文本行含有的字符连通域的个数和位置信息、不符合第二预定要求的线段所占的比例、均值和方差的特征,并构建特征向量。第三构建单元用于基于特征向量,构建2类别的朴素贝叶斯分类模型。分类单元用于根据朴素贝叶斯分类模型,对原始图像进行文本图像与非文本图像的分类。

有关本实施例的说明可以参考方法实施例中的相关内容,在此不再赘述。

需要说明的是,上述实施例提供的文本图像与非文本图像的分类方法和分类系统在进行图像分类时,仅以上述各功能模块或步骤的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块或步骤来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的第一获取模块和第二获取模块可以合并为一个获取模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。

本领域技术人员可以理解,上述文本图像与非文本图像的分类系统还可以包括一些其他公知结构,例如处理器、控制器、存储器及总线等,其中,存储器包括但不限于随机存储器、闪存、只读存储器、可编程只读存储器、易失性存储器、非易失性存储器、串行存储器、并行存储器或寄存器等,处理器包括但不限于CPLD/FPGA、DSP、ARM处理器、MIPS处理器等;总线可以包括数据总线、地址总线和控制总线。为了不必要地模糊本公开的实施例,这些公知的结构未在图2中示出。

应该理解,图2中的各个模块的数量仅仅是示意性的。根据实际需要,各模块可以具有任意的数量。

上述系统实施例可以用于执行上述方法实施例,其技术原理、所解决的技术问题及产生的技术效果相似,所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。

应指出的是,上面分别对本发明的系统实施例和方法实施例进行了描述,但是对一个实施例描述的细节也可应用于另一个实施例。

以上对本发明实施例所提供的技术方案进行了详细的介绍。虽然本文应用了具体的个例对本发明的原理和实施方式进行了阐述,但是,上述实施例的说明仅适用于帮助理解本发明实施例的原理;同时,对于本领域技术人员来说,依据本发明实施例,在具体实施方式以及应用范围之内均会做出改变。

还需要说明的是:附图中的标记和文字只是为了更清楚地说明本发明,不视为对本发明保护范围的不当限定。

再需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。应该理解这样使用的数据在适当的情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

如本文中所使用的,术语“模块”、“单元”可以指代在计算系统上执行的软件对象或例程。可以将本文中所描述的不同模块实现为在计算系统上执行的对象或过程(例如,作为独立的线程)。虽然优选地以软件来实现本文中所描述的系统和方法,但是以硬件或者软件和硬件的组合的实现也是可以的并且是可以被设想的。

本发明的各个步骤可以用通用的计算装置来实现,例如,它们可以集中在单个的计算装置上,例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备或者多处理器装置,也可以分布在多个计算装置所组成的网络上,它们可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。因此,本发明不限于任何特定的硬件和软件或者其结合。

本发明提供的方法还可以使用可编程逻辑器件来实现,也可以实施为计算机程序软件或程序模块(其包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件或数据结构等等),例如根据本发明的实施例可以是一种计算机程序产品,运行该计算机程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可以从计算机主体上拆卸下来的可移动介质(例如:采用热插拔技术的存储设备)。所述内置介质包括但不限于可重写的非易失性存储器,例如:RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储介质(例如:CD-ROM和DVD)、磁光存储介质(例如:MO)、磁存储介质(例如:磁带或移动硬盘)、具有内置的可重写非易失性存储器的媒体(例如:存储卡)和具有内置ROM的媒体(例如:ROM盒)。

还应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号