法律状态公告日
法律状态信息
法律状态
2014-05-28
授权
授权
2012-07-18
实质审查的生效 IPC(主分类):G06K9/62 申请日:20111020
实质审查的生效
2012-06-20
公开
公开
技术领域
本发明涉及图像信息处理和图像识别领域,特别涉及我国藏族唐卡数字图像与非唐卡数字图像的区分方法。
背景技术
所谓唐卡图像与非唐卡图像的区分或识别,就是计算机通过一种数字化仪将待分类的图像进行预处理、特征提取等,然后对所得的数据进行自动识别,进而将该图像分到唐卡图像类或非唐卡图像类的一种技术。这是如何让计算机识别某一类图像或实现对数字图像自动分类的一个实际应用问题,具有重要的实际意义和理论价值。
唐卡具有鲜明的文化特色、浓厚的宗教色彩和独特的艺术风格,是藏学研究领域极为珍贵的形象资料和实物史料,在国内外具有很高的学术价值。对其收集、挖掘、整理、保护、开发和应用,从而满足有关博物馆、图书馆、寺院、宗教场所、唐卡电子商务,以及人们对唐卡艺术的欣赏、研究、教学和创作等具有重要的价值。而如何区分唐卡图像与非唐卡图像的方法对海量的图像管理具有重要的意义。截止目前,国内外还没有唐卡图像与非唐卡图像的区分方法的专门研究和文献报道。
发明内容
本发明的目的是利用计算机实现自动区分唐卡图像与其他图像,解决数字图像中的分类问题,提供一种唐卡图像与非唐卡图像的区分方法。
为实现上述目的,本发明的采取的技术方案是:一种唐卡图像与非唐卡图像的区分方法,在计算机上按下述步骤实现,整个实现过程包括训练阶段与识别阶段;训练阶段包括预处理、特征提取、相似性度量和分类器设计;识别阶段包括预处理、特征提取、相似性度量和分类器识别。
训练阶段首先是对训练集图像进行归一化、分块和灰度化等预处理;通过对图像信息熵、图像颜色变化率以及图像对称性等特征的提取,得到用于区分唐卡图像与非唐卡图像的鉴别特征;然后对图像信息熵特征、图像颜色变化率特征和图像对称性特征进行模板、阈值训练和相似性度量;最后采用间隔阈值渐进算法设计分类器。
识别阶段首先是对待识别图像进行归一化、分块和灰度化等预处理;通过对图像信息熵、图像颜色变化率以及图像对称性等特征的提取,得到用于区分唐卡图像与非唐卡图像的鉴别特征;然后对图像信息熵特征、图像颜色变化率特征和图像对称性特征,使用分类器进行唐卡图像与非唐卡图像的分类识别。所以,本发明的整个过程包括两大步骤:第一,对训练集图像实施的训练阶段,
第二,对待识别图像进行的识别阶段,具体步骤如下:
第一,对训练集图像实施的训练阶段
a.1归一化处理
将图像大小即宽度与长度归一化为:400×540。
a.2分块处理
按照每个像素块20×20的大小进行均匀分块,宽度上分为20块,高度上分为27块,把归一化后的图像分为540块。按照从左向右,从下往上的顺序进行编号,组成一个二维的分块矩阵。
a.3图像的灰度化处理
采用平均值法,即求出彩色图像中每个像素点的R、G、B三分量亮度的平均值,然后将这个平均值赋给该像素的三个分量。
b.1提取图像信息熵特征
图像信息熵特征提取的计算步骤:
b.1.1大小归一化和分块、灰度化图像,灰度级为 ;
b.1.2对图像中的每一个子块分别操作,在每个子块内部逐个像素点扫描,统计每个灰度级出现的概率;
b.1.3按照式(1)计算出每一个子块图像的信息熵,式(1):
540个子块计算完成之后,得到图像信息熵矩阵,也就是图像信息熵特征;
b.1.4采用直方图排序法将540个子块的信息熵按照从小到大的顺序进行排列,得到图像信息熵直方图。
b.2提取图像颜色变化率特征
使用颜色空间,图像相邻像素点的颜色变化率算法如下:
b.2.1以图像像素点矩阵的左下角的像素点作为原点建立坐标系;
b.2.2两像素点、之间的颜色变化用颜色值的欧氏距离式(2)计算,式(2):
其中,分别是像素点的坐标颜色值;
b.2.3横向和纵向两个方向的颜色变化分别用式(3)和式(4)计算;式(3)和式(4)分别是:
其中的和分别为图像的高和宽;
b.2.4将式(3)和式(4)计算结果求和再除以像素个数即得到式(5)所表示的颜色变化率参数,式(5):
按照上述的图像颜色变化率算法计算,在每一子块图像内部计算得到图像颜色变化率,540个子块都计算完成之后,组成图像颜色变化率矩阵;就是图像颜色变化率特征。
b.3提取图像对称性特征
b.3.1对图像的颜色变化率矩阵,每一子块设置一个标志为,如果该子块颜色变化率参数小于50,则的值为1,如果该子块颜色变化率参数大于或等于50,则的值为0;
b.3.2对图像的左半区域进行搜索,遍历每一子块,并将其与图像右半区域的对称位置的块进行比较,判断是否具有相同的标志,如果标志相同则对称性系数加1,否则对称性系数减1。位置对称关系是:颜色变化率矩阵中位置为的子块其对称像素块的位置为 ()。
c.1训练图像的信息熵直方图模板与获取信息熵低阈值边界与高阈值边界
c.1.1训练图像的信息熵直方图模板
分别对850幅唐卡图像和850幅非唐卡图像的训练集通过如下三步进行:
c.1.1.1计算图像信息熵矩阵,然后用直方图进行统计,横轴表示分块的标号,纵轴表示熵值;
c.1.1.2采用直方图排序法将540子块的信息熵按照从小到大的顺序进行排列;
c.1.1.3对统计的所有唐卡图像按照式(6)进行训练,式(6):
其中,表示训练所用的图像数,表示图像的灰度级;表示第幅图像的信息熵直方图中,经过排序后处于第 个位置上的子块的信息熵。式(6)每计算一遍,即求得一个位置上的信息熵平均值;对所有灰度级完成训练之后得到的即为训练集图像的信息熵直方图模板。
c.1.2 获取信息熵低阈值边界与高阈值边界
采用式(7)进行图像信息熵特征的相似性度量,式(7):
其中,是图像的信息熵直方图,为图像的信息熵直方图模板,为灰度等级。为之间的相似性距离,即图像信息熵特征的相似性度量结果。显然,相似性距离的值越小,表明图像的统计直方图与图像的信息熵直方图模板越接近。
将200幅图像信息熵直方图与c.1.1获得的唐卡图像的信息熵直方图模板、非唐卡图像的信息熵直方图模板分别进行相似性计算,并将求得的相似性结果进行统计,结果显示,唐卡图像信息熵直方图与唐卡图像的信息熵直方图模板的相似性更强。通过大量的统计与综合分析,获得图像相似的信息熵低阈值边界的数值为63,信息熵高阈值边界的数值为416,从而确定了图像信息熵特征相似性度量的范围,在相似性度量中以它们为标准进行信息熵比较计算。
c.2 训练颜色变化率特征的高阈值和低阈值
将图像颜色变化率矩阵中的每个子块数据予以统计和分析,把颜色变化率参数低于50的子块称为颜色变化率低值子块。分别对850幅唐卡图像和850幅非唐卡图像计算颜色变化率低值子块的个数,综合统计结果得到:图像颜色变化率参数下边界阈值的数值为100,图像颜色变化率参数上边界阈值的数值为157,从而确定了图像颜色变化率特征相似性度量的范围,在相似性度量中以它们为标准进行颜色变化率比较计算。
c.3训练对称性特征阈值
将图像颜色变化率矩阵中的每个子块数据加以统计,图像颜色变化率矩阵的对称性判断如下:对图像的颜色变化率矩阵每一子块设置一个标志为,如果该子块颜色变化率参数小于50,则为1;如果该子块颜色变化率参数大于或等于50,则为0;对图像的左半区域进行搜索,遍历每一子块,并将其与图像右半区域的位置对称位置的子块进行比较,判断是否具有相同的标志,如果标志相同则对称性系数加1,否则对称性系数减1,最后得到对称性特征阈值的数值为,位置对称关系是:颜色变化率矩阵中位置为的子块其对称像素块的位置为 ();
d.1图像信息熵特征的相似性度量
通过c.1.2的方法计算图像的信息熵直方图与训练得到的图像的信息熵直方图模板之间的距离参数 ,若,则图像为唐卡图像,若则图像判断为非唐卡图像,若,则需要进一步的判断。其中,。
d.2图像颜色变化率特征的相似性度量
用表示一幅图像的颜色变化率参数小于50的低值子块个数;低阈值下边界为、低阈值上边界为,低值子块相似度量方法是:若,则这幅图像为唐卡图像;若,则待分类图像为非唐卡图像;如果则需要进一步判断;,。
d.3图像对称性特征的相似性度量
将一幅图像的对称性特征与唐卡图像的对称性特征阈值进行比较,如果一幅图像的对称性特征大于或等于则为唐卡图像,对称性特征小于则为非唐卡图像,其中的。
用下述间隔阈值渐近算法,对唐卡与非唐卡图像进行分类识别:
f.1对归一化和灰度化处理的图像,用步骤b.1计算待识别图像的信息熵直方图,并与c.1所得的唐卡图像信息熵直方图模板进行相似性匹配,获得图像相似性距离参数;
f.2若,则图像为唐卡图像,若则图像判断为非唐卡图像,若,则转入:
f.3对大小归一化图像,用步骤b.2计算待识别图像的颜色变化率矩阵,统计颜色变化率参数小于50的低值子块的个数,记为,若,则判断为唐卡图像,若,则判断为非唐卡图像,若,则转入:
f.4应用对称性特征算法的步骤对待识别图像的对称性进行计算并得到对称性系数,若则判断为唐卡图像,若,则判断为非唐卡图像,算法结束。
第二,对待识别图像进行的识别阶段
a.预处理
与训练阶段的预处理相同;
b.提取特征
与训练阶段的提取特征相同;
c. 用第一阶段步骤f所得分类器对唐卡图像与非唐卡图像进行分类识别:
c.1对归一化和灰度化处理的图像,用步骤b.1计算待识别图像的信息熵直方图,并与第一阶段的步骤c.1所得的唐卡图像信息熵直方图模板进行相似性匹配,获得图像相似性距离参数;
c.2若,则图像为唐卡图像,若则图像为非唐卡图像,若,则转入:
c.3对大小归一化图像,用步骤b.2计算待识别图像的颜色变化率矩阵,统计颜色变化率参数小于50的低值子块的个数,记为,若,则判断为唐卡图像,若,则判断为非唐卡图像,若,则转入:
c.4应用对称性特征算法的步骤对待识别图像的对称性进行计算并得到对称性系数,若则判断为唐卡图像,若,则判断为非唐卡图像,算法结束。
本发明已经用于2000幅图像的区分,选800幅自然图像和1200幅唐卡图像用于测试实验。应用本发明唐卡与非唐卡图像判别的算法进行区别,对上述2000幅图像进行判别,最终判断正确的有1900幅图像,正确率达到95%。
附图说明
图1是图像分块编号格式的结构示意图;
图2(a)是唐卡图像的信息熵直方图与模板进行相似性计算的统计示意图,
图2(b)是非唐卡图像的信息熵直方图与模板进行相似性计算的统计示意图;
图3是唐卡图像和非唐卡图像低阈值子块个数示意图;
图4是唐卡图像和非唐卡图像的鉴别流程示意图。
图2、图3中:TK—唐卡图像,ZR—自然图像,即非唐卡图像。
具体实施方式
整个实现过程包括训练阶段与识别阶段;训练阶段包括预处理、特征提取、相似性度量和分类器设计;识别阶段包括预处理、特征提取、相似性度量和分类器识别。
训练阶段首先是对训练集图像进行归一化、分块和灰度化等预处理;通过对图像信息熵、图像颜色变化率以及图像对称性等特征的提取,得到用于区分唐卡图像与非唐卡图像的鉴别特征;然后对图像信息熵特征、图像颜色变化率特征和图像对称性特征进行模板、阈值训练和相似性度量;最后采用间隔阈值渐进算法设计分类器。
识别阶段首先是对待识别图像进行归一化、分块和灰度化等预处理;通过对图像信息熵、图像颜色变化率以及图像对称性等特征的提取,得到用于区分唐卡图像与非唐卡图像的鉴别特征;然后对图像信息熵特征、图像颜色变化率特征和图像对称性特征,使用分类器进行唐卡图像与非唐卡图像的分类识别。所以,本发明的整个过程包括两大步骤:第一,对训练集图像实施的训练阶段,
第二,对待识别图像进行的识别阶段,具体步骤如下:
第一,对训练集图像实施的训练阶段
按照现有的常规方法对图像进行大小归一化、分块和灰度化处理。
a.1归一化处理
通过对唐卡的数字图像实验统计,得出适合唐卡图像处理与识别的图像大小为:400×540,所以对训练集图像都将大小归一化为400×540。
a.2分块处理
为了体现图像的空间位置信息,按照每个像素块20×20的大小进行均匀分块,宽度上分为20块,高度上分为27块,把大小归一化后的图像分为540块。按照从左向右,从下往上的顺序进行编号,组成一个二维的分块矩阵,如图1所示的图像分块编号格式。
a.3图像的灰度化处理
采用平均值法,即求出每个像素点的R、G、B三分量亮度的平均值,然后将彩色图像中的这个平均值赋给这个像素的三个分量。
b.1提取图像信息熵特征
图像信息熵特征提取的计算步骤:
b.1.1大小归一化和分块、灰度化图像,灰度级为;
b.1.2对图像中的每一个子块分别操作,在每个子块内部逐个像素点扫描,统计每个灰度级出现的概率;
b.1.3按照式(1)计算出每一个子块图像的信息熵,式(1):
540个子块计算完成之后,得到图像信息熵矩阵,也就是图像信息熵特征;
b.1.4采用直方图排序法将540个子块的信息熵按照从小到大的顺序进行排列,得到图像信息熵直方图;
b.2提取图像颜色变化率特征
使用颜色空间,对图像相邻像素点的颜色变化率算法如下:
b.2.1以图像像素点矩阵的左下角的像素点作为原点建立坐标系;
b.2.2两像素点之间的颜色变化用颜色值的欧氏距离式(2)计算,式(2):
其中,分别是像素点的颜色坐标值;
b.2.3横向和纵向两个方向的颜色变化分别用式(3)和式(4)计算;式(3)和式(4)分别是:
其中的和分别为图像的高和宽;
b.2.4将式(3)和式(4)计算结果求和再除以像素个数即得到式(5)所表示的颜色变化率参数,式(5):
颜色变化率的计算是在归一化和分块预处理后,按照上述的图像颜色变化率算法计算,在每一子块图像内部计算得到图像颜色变化率,540个子块都计算完成之后,组成图像颜色变化率矩阵;就是图像颜色变化率特征。
b.3提取图像对称性特征
b.3.1对图像的颜色变化率矩阵,每一子块设置一个标志为,如果该子块颜色变化率参数小于50,则的值为1,如果该子块颜色变化率参数大于或等于50,的值为0;
b.3.2对图像的左半区域进行搜索,遍历每一子块,并将其与图像右半区域的对称位置的块进行比较,判断是否具有相同的标志,如果标志相同则对称性系数加1,否则对称性系数减1。位置对称关系的是:颜色变化率矩阵中位置为的子块其对称像素块的位置为 ()。
通过实验检验可知:具有视觉上对称性的唐卡图像对称性系数普遍大于不具有视觉对称性的图像;唐卡图像具有视觉对称性的比率远大于自然图像。
同时,唐卡图像中有相当比例的图像具有视觉上的对称性,因此把颜色变化率矩阵中的低阈值子块统计并与一幅图像颜色变化率矩阵中的低阈值子块进行对比,对一幅视觉上对称的唐卡图像,经过分块计算后颜色变化率矩阵的低阈值子块也较为对称。从而得出在视觉上有对称性的图像,其对应的颜色变化率矩阵也具有对称性。
c.1训练图像的信息熵直方图模板与获取信息熵低阈值边界与高阈值边界
c.1.1训练图像的信息熵直方图模板
分别对850幅唐卡图像和850幅非唐卡图像的训练集通过如下三步进行:
c.1.1.1计算分块熵矩阵,然后用直方图进行统计,横轴表示分块的标号,纵轴表示熵值;
c.1.1.2采用直方图排序法将540个子块的信息熵按照从小到大的顺序进行排列;
c.1.1.3对统计的所有唐卡图像按照式(6)进行训练,式(6):
其中,表示训练所用的图像数,表示图像的灰度级;表示第幅图像的信息熵直方图中,经过排序后处于第 个位置上的子块的信息熵。式(6)每计算一遍,即求得一个位置上的信息熵平均值;对所有灰度级完成训练之后得到的即为训练集图像的信息熵直方图模板;
c.1.2 获取信息熵低阈值边界与高阈值边界
采用直方图相交距相似性进行图像信息熵特征的度量。
传统的直方图相交距定义为:
其中,两幅图像的统计直方图,灰度等级为。由于唐卡图像的信息熵直方图模板是每幅图像在同一位置上信息熵的平均值的集合,所以在相似性度量的过程中,每一位置上只求取最小值熵是不合理的,会丢失度量信息。本发明采用式(7)进行图像信息熵特征的相似性度量,式(7):
其中,是图像的统计直方图,为c.1训练得到的信息熵直方图模板,为灰度等级。为之间的相似性距离,即图像信息熵特征的相似性度量结果。显然,相似性距离的值越小,表明图像的统计直方图与信息熵模板值直方图越接近。
将200幅图像信息熵直方图与c.1.1获得的唐卡图像的信息熵直方图模板、非唐卡图像的信息熵直方图模板分别进行相似性计算,并将求得的相似性结果进行统计,如图2(a)为100幅唐卡图像与唐卡图像的信息熵直方图模板的相似性计算结果,图2(b)为100幅非唐卡图像与非唐卡图像信息熵直方图模板的相似性计算结果。其中,横轴为图像编号,纵轴为相似距离。统计结果显示,唐卡图像信息熵直方图与模板的相似性更强。通过大量的统计与综合分析,获得图像相似的信息熵低阈值边界的数值为63,信息熵高阈值边界的数值为416,从而确定了图像信息熵特征相似性度量的范围,在相似性度量中以它们为标准进行信息熵特征的比较计算;
c.2 训练颜色变化率特征的高阈值和低阈值
将图像颜色变化率参数矩阵中的每个分块数据予以统计与分析,把颜色变化率参数低于50的称为颜色变化率低值子块。分别对850幅唐卡图像和850幅非唐卡图像计算颜色变化率低值子块的个数,综合统计结果得到:图像颜色变化率参数下边界阈值的数值为100,图像颜色变化率参数上边界阈值的数值为157,从而确定了图像颜色变化率特征相似性度量的范围,在相似性度量中以它们为标准进行颜色变化率特征的比较计算。
如图3是对100幅唐卡图像和100幅非唐卡图像分别计算颜色变化率低值个数的示意图,其中,横轴表示图像标号,纵轴表示颜色变化率低值个数,将颜色变化率低值子块的个数表示为,且。菱形块折线TK表示唐卡图像,正方形折线ZR表示非唐卡图像。从统计示意图看出,唐卡图像的颜色变化率低值子块个数较少,而非唐卡图像的颜色变化率低值子块个数较多。本发明中对图像颜色变化率参数确定下边界阈值和上边界阈值,由此判断图像颜色变化率特征的相似性。
c.3训练对称性特征阈值
可以发现,唐卡图像的颜色变化率低值子块个数较少,而自然图像的颜色变化率低值子块个数较多。原因是,在唐卡图像整体空间信息都比较复杂,而自然图像相对简单且容易存在大面积的相近色区域。实验检验也表明:(1)具有视觉上对称性的图像,对称性系数普遍大于不具有视觉对称性的其他图像;(2)唐卡图像具有视觉对称性的比率远大于非唐卡图像。通过对训练集的图像颜色变化率参数矩阵中每个子块数据的统计,图像颜色变化率矩阵的对称性判断如下:对图像的颜色变化率矩阵每一子块设置一个标志为,如果该子块颜色变化率参数小于50,则为1;如果该子块颜色变化率参数大于或等于50,则为0;对图像的左半区域进行搜索,遍历每一子块,并将其与图像右半区域的位置对称块进行比较,判断是否具有相同的标志,如果标志相同则对称性系数加1,否则对称性系数减1,最后得到对称性特征阈值的数值为,在相似性度量中以它为标准进行对称性比较计算。颜色变化率矩阵中位置为的子块其对称像素块的位置为 ()。
d.1图像信息熵特征的相似性度量
使用c.1.2的方法计算图像的信息熵直方图与信息熵直方图模板之间的距离参数 ,若,则图像为唐卡图像,若则图像判断为非唐卡图像,若,则需要进一步的判断。其中,。
d.2图像颜色变化率特征的相似性度量
用表示一幅图像的颜色变化率参数小于50的低值子块个数;低阈值下边界为、低阈值上边界为,低值子块相似度量方法是:若,则这幅图像为唐卡图像;若,则待分类图像为非唐卡图像;如果则需要进一步判断;,。
d.3图像对称性特征的相似性度量
将待分类图像的对称性特征与唐卡图像的对称性特征阈值进行比较,如果待分类图像的对称性特征大于或等于则为唐卡图像,对称性特征小于则为非唐卡图像,其中。
用下述间隔阈值渐近算法,对唐卡与非唐卡图像进行分类识别:
f.1对归一化和灰度化处理的图像,用步骤b.1计算待识别图像的信息熵直方图,并与c.1所得的唐卡图像信息熵直方图模板进行相似性匹配,获得图像相似性距离参数;
f.2若,则图像为唐卡图像,若则图像判断为非唐卡图像,若,则转入:
f.3对大小归一化图像,用步骤b.2计算待识别图像的颜色变化率矩阵,统计颜色变化率参数小于50的低值子块的个数,记为,若,则判断为唐卡图像,若,则判断为非唐卡图像,若,则转入:
f.4应用对称性特征算法的步骤对待识别图像的对称性进行计算并得到对称性系数,若则判断为唐卡图像,若,则为非唐卡图像,算法结束。
第二,对待识别图像进行的识别阶段
a. 预处理
与训练阶段的预处理相同;
b.提取特征
与训练阶段的提取特征相同;
c. 用第一阶段步骤f所得分类器对唐卡与非唐卡图像进行分类识别:
c.1对归一化和灰度化处理的图像,用步骤b.1计算待识别图像的信息熵直方图,并与第一阶段步骤c.1所得的唐卡图像信息熵直方图模板进行相似性匹配,获得图像相似性距离参数;
c.2若,则图像为唐卡图像,若则图像判断为非唐卡图像,若,则转入:
c.3对大小归一化图像,用步骤b.2计算待识别图像的颜色变化率矩阵,统计颜色变化率参数小于50的低值子块的个数,记为,若,则判断为唐卡图像,若,则判断为非唐卡图像,若,则转入:
c.4应用对称性特征算法的步骤对待识别图像的对称性进行计算并得到对称性系数,若则判断为唐卡图像,若,则判断为非唐卡图像,算法结束。
本发明提供的方法其鉴别流程如图4所示,首先要通过唐卡与非唐卡图像训练集统计图像信息熵低阈值边界和高阈值边界、图像颜色变化率特征低阈值边界和高阈值边界,以及图像对称性特征参数。然后对待识别图像进行大小归一化和分块、以及灰度化处理,通过以下三层对待分类的图像进行判定实现唐卡与非唐卡图像的分类:第一,对待分类图像预处理后,进行信息熵特征提取及统计信息熵直方图,并与唐卡图像信息熵直方图模板进行直方图相交矩的相似度量,如果所得度量参数满足分类的条件则予以判定,否则采用第二层方法判定。第二,对大小归一化和分块的图像,进行颜色变化率特征提取,采用颜色变化率低值子块相似度量方法,如果相似度量的结果满足分类的条件则予以判定,否则采用第三层方法判定。第三,提取图像对称性特征,根据阈值判断条件予以判定。
机译: 一种存储存储卡的系统,该存储卡将数据存储为视频图像或音乐(如常规CD或DVD),并使用由半导体元件组成的非挥发性存储作为一次性程序存储(OTP-ROM)或内置存储卡光盘
机译: 用方法生产涡轮叶片复合材料和叶片根部的唐卡德
机译: 用成年卡达弗·唐纳的眼睛生产有机文化的类脉络膜色素的方法