首页> 中国专利> 一种基于弹性HOG特征和DDTW匹配的中国书法图像检索方法

一种基于弹性HOG特征和DDTW匹配的中国书法图像检索方法

摘要

一种基于弹性HOG特征和DDTW匹配的中国书法图像检索方法,属于信息处理技术领域。所述方法步骤如下:针对中国书法图像,先进行预处理操作,以得到单个字符图像;采用弹性网格技术,根据图像文字的像素密度分布,将输入图像划分为不同大小的网格块;在每个网格块内计算HOG特征;将每个网格块内的HOG特征以重叠技术重构成整个字符图像的EHOG特征;将字符图像特征作为字符标引结果存入数据库;在检索时,对输入的字符图像提取EHOG特征,然后基于DDTW匹配算法,在标引数据库中进行匹配查找,基于一个特定的相似度阈值返回检索结果。本方法无需利用OCR,拥有较高的准确率、很好的鲁棒性,并且有方法简单、成本低廉等优点。

著录项

  • 公开/公告号CN103268363A

    专利类型发明专利

  • 公开/公告日2013-08-28

    原文格式PDF

  • 申请/专利权人 哈尔滨工业大学;

    申请/专利号CN201310234803.9

  • 申请日2013-06-06

  • 分类号G06F17/30;

  • 代理机构

  • 代理人

  • 地址 150001 黑龙江省哈尔滨市南岗区西大直街92号

  • 入库时间 2024-02-19 19:54:51

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-06-22

    授权

    授权

  • 2013-09-25

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130606

    实质审查的生效

  • 2013-08-28

    公开

    公开

说明书

技术领域

本发明属于信息处理技术领域,涉及一种中国书法图像的检索方 法,尤其涉及一种基于弹性HOG特征和DDTW匹配的中国书法图 像检索方法。

背景技术

中国书法是一种留传了3000年的写作艺术和宝贵的文化遗产, 主要被收藏在博物馆和图书馆。他们中的大多数都具有很高的价值, 但由于不能被随意的进行翻阅,所以不能被公众所熟知。为了便于查 阅该类书法文档,许多机构提供了这些书法样本的扫描版本,如图1 所示。因此,高效的索引和检索技术是不可或缺的。中国书法非常特 殊,主要具有以下几个方面的特性:

1)变化:书法是用毛笔和墨水写的,从而导致其比用钢笔或铅 笔写的字有更大的笔迹粗细变化。书法在不同的朝代有不同的写作风 格,它们中的大多数现在已经不被采用了。

2)退化:书法样本常常由于墨水褪色、纸张污染和其他不利的 自然因素而退化,以至于无法辨识。

3)形变:书法体现了书法家的个性,书法家往往故意以一种不 寻常的方式书写文字,如飞白。

对于文档图像,一种传统的文字检索方法就是先对文档图像进行 字符识别,然后基于识别的结果进行检索。但对于书法文档图像而言, 由于书法文字的书写非常随意,并且还可能存在各种形式的图像退 化,所以字符识别率很低,难以基于识别构建高效的检索系统。一种 可行的方法就是不对字符图像进行显式的识别,而是直接从书法字符 中提取特征,然后基于特征进行匹配。该方法可以免去繁琐且复杂的 字符训练与识别过程,使得检索系统的构建简单且高效。该方法的两 个关键技术就是如何提取有效特征及如何进行特征间的匹配。现有的 针对手写汉字检索的特征提取方法并不能很好的直接应用于书法图 像的检索中,且特征匹配方法一般都采用了DTW的动态匹配方法, 但该方法性能也很有限。

发明内容

针对中国书法图像的检索问题,本发明提出了一种新的基于弹性 网格和局部梯度直方图特征合成的特征提取方法,即EHOG特征; 然后基于DDTW匹配方法对字符特征进行在线匹配。

本发明的基于弹性HOG特征和DDTW匹配的中国书法图像检 索方法步骤如下:

(1)针对中国书法图像,先进行预处理操作,以得到单个字符 图像;

(2)采用弹性网格技术,根据图像文字的像素密度分布,将输 入图像划分为不同大小的网格块;

(3)在每个网格块内计算方向梯度直方图HOG特征;

(4)将每个网格块内的HOG特征进行串行连接就得到了整个 字符图像的EHOG特征;

(5)将字符图像特征作为字符标引结果存入数据库;

(6)在检索时,对输入的字符图像提取EHOG特征,然后基于 DDTW匹配算法,在标引数据库中进行匹配查找,基于一个特定的 相似度阈值返回检索结果。

本发明采用导数动态时间规整(DDTW)算法进行文字定位,由 于DDTW利用了匹配序列的形状特征,因此它能更好地应用在书法 字检索的任务中,带来了更高的检索准确率。

本发明的一个显著特点就是针对中国书法图像,完全抛弃字符识 别技术(OCR),直接利用字符图像的特征,创新性地将弹性网格技 术和传统的HOG特征结合,提出了更适合于中国书法汉字检索的一 种新型特征--弹性局部方向梯度直方图(EHOG),并且利用语音识别 中比较常用的DDTW匹配算法来完成文字的检索。本发明提出的直 接基于图像内容的检索方法,无需利用OCR,拥有较高的准确率、 很好的鲁棒性,并且有方法简单、成本低廉等优点。

附图说明

图1为图像格式中国书法文档示例;

图2为EHOG特征提取流程图;

图3为方向为q(x,y)的双线性插值示意图(12个方向柱);

图4为EHOG特征提取方法示例;

图5为以“之”作为查询字符的部分检索结果。

具体实施方式

具体实施方式一:本实施方式的基于弹性HOG特征和DDTW匹 配的中国书法图像检索方法,步骤如下:

(1)针对中国书法图像,先进行去除人工印章、消除噪声、字 符分割等预处理操作,以得到单个字符图像。

(2)采用弹性网格技术,根据图像文字的像素密度分布,将输 入图像划分为不同大小的网格块。

(3)定义网格基元,即其尺寸大小为小于一个网格块单元的网 格单元,最小的网格基元的尺寸大小为宽度和高度均为1个像素。网 格基元的大小可以由用户自行设定。

(4)对每一个网格块单元,从中找到所有满足网格基元定义的 网格,这些网格之间可以交叠。如图4所示,具体的查找方法为:从 网格单元的左上角开始,先沿水平方向向右进行逐个像素的滑动,直 到到达网格单元的边界,从而得到一系列的网格基元;然后回到左上 角的位置,沿垂直方向向下滑动一个像素,接着又沿水平方向向右进 行逐个像素的滑动,直到到达网格单元的边界,从而又得到一系列的 网格基元;按照上面的步骤,直到到达网格块的下边界和右边界的交 界处就停止滑动。将上述得到的网格基元按照先后顺序进行排列,对 每个网格基元提取HOG特征,然后将所有网格基元的特征进行串行 连接就构成了网格块的HOG特征描述。

(5)将所有网格块的HOG特征进行串行连接,就构成了该字 符图像的特征描述。

(6)将字符图像特征作为字符标引结果存入数据库。

(7)在检索时,对输入的字符图像提取EHOG特征,然后基于 DDTW匹配算法,在标引数据库中进行匹配查找,基于一个特定的 相似度阈值返回检索结果。

(8)DDTW匹配的基本流程如下:

(a)假定检索的字符图像特征序列为Q=q1,q2,…,ql,…qn,其特征 序列长度为n,标引数据库中的某个字符图像特征序列为 S=s1,s2,L,sj,L,sm,其特征序列长度为m。

(b)由于检索输入的字符图像特征序列长度与标引数据库中的 字符图像特征长度不一定是相等,这样会存在多种对应关系。假定某 条对应的特征路径为W,则可以用下式来进行表示:

wk=(i,j)kW=w1,w2,···wk,···,wKmax(n,m)K<n+m-1.

(c)对于Q和S而言,我们定义匹配距离的大小为匹配成功与否 的标准。基于DTW的匹配距离的定义如下:

D(ij)=d(qi,sj)+min{D(i-1,j-1),D(i-1,j)D(i,j-1)}

这里,d(qisj)=(qi-sj)2,i,j分别表示的是Q和S的某一维。

在本发明中,我们使用d(q′i,sj)代替d(qisj),其中

具体实施方式二:对中国书法图像进行标引之前,首先需先进行 去除人工印章、图像二值化、消除噪声、字符分割等预处理操作,以 得到单个字符图像。在标引阶段,对一个分割好的书法字符图像,首 先提取EHOG特征,然后将该特征作为该字符特征的标引信息进行 存储。在实际检索时,对用户输入的某个检索字图像,首先提取EHOG 特征,然后基于DDTW匹配算法对标引数据库中的所有字符图像进 行匹配查找。将标引数据库中所有图像匹配相似度大于某个特定阈值 的字符图像作为检索结果返回给用户。该流程中的两个关键技术 EHOG特征提取和DDTW动态匹配的具体流程及方法如下:

1、EHOG:

为了适应中国书法文字的特点,本发明提出了一个新的特征描述 算子:EHOG,它是HOG特征描述算子的改进版本。图2给出了关 于EHOG特征提取过程的流程图。Gx和Gy分别代表水平梯度和垂直 梯度。

如图2所示,和原始的HOG不同是,本发明使用弹性网格化技 术将预处理后的图像划分成非均匀的网格。弹性网格的优点是根据笔 画强度将输入的字符图像分割为虚网格。由于存在多种类型的书法 字,如位置、大小和倾斜度的变化,因此较之将输入图像分割为大小 均匀的网格,弹性网格划分是更为合理的特征提取方法。这样,两个 相同的字符相同的笔画,更可能有相同的顺序区域,从而也有类似的 特征描述。弹性网格的划分方法如下:

1)、对输入图像中的每一个点p(i,j),计算当前点到最近的黑点 的城市街区距离c(i,j)。对于每一个点的加权点密度d(i,j)被定义为 这里i,j表示图像中点的横纵坐标,假定图像宽度 为I,高度为J,则i=1,2,...,I,j=1,2,...,J。

2)、将加权的点密度分别投影到水平方向和垂直方向。水平与垂 直方向特征投影函数分别为H(i)=Σj=1Jd(i,j)V(j)=Σi=1Id(i,j).

3)、坐标映射关系如下:

x(i)=L×Σk=1iH(i)/Σk=1IH(i)y(j)=L×Σk=1jV(j)/Σk=1JV(j);

这里L表示拟生成的虚拟图像的尺寸大小,即长和宽均为L个像 素。

基于上述变换,原始图像就对应到一个L×L的虚拟网格图像上, 虚拟网格上按一个特定的统一尺度进行网格的划分对应到原图像就 是一个非线性网格的划分效果。

HOG根据像素点的梯度值,统计网格内落在不同方向柱上的像 素点的“得票数”(数量),用以构成方向直方图。假设有图像I(x,y), Gx和Gy分别代表水平梯度和垂直梯度,则有:

那么,我们就可以得到像素点(x,y)的梯度值m和方向θ:

m(x,y)=Gx2+Gy2---(2)

q(x,y)=R(Gx,Gy)   (3)。

式(3)中,R表示取向量Gx、Gy之间的夹角。最后,为了减少混淆情 况,将像素点的“得票数”对该点相邻的方向柱进行双线性插值。也就 是说,每个像素点(x,y)都为其最近的两个方向柱共添加m(x,y)张票, 如图3所示。其中,方向柱1的得票数为而方向柱0 的得票数为这里T表示方向柱的个数。

方向柱的划分可以在0°到180°的区间上进行“无符号”划分,或 者是在0°到360°的区间上进行“有符号”划分。在SIFT和HOG中, “无符号”划分比“有符号”划分的实验效果更好,这是因为其目标 图像中前景和背景的对比度差异不带有区分信息。而在本发明的实验 中,使用“有符号”的划分方式,因为在字符图像中,前景和背景一 般不会混淆,带有比较强的区分性。假设有我们利用弹性网格将输入 图像划分为M′N个网格,并有T个方向柱,那么我们就能得到一个 有M创NT个方向柱的直方图。

本发明以网格基元为单位,进行特征提取,并将所有网格基元特 征描述算子串行连接起来,作为网格块HOG特征描述算子。网格基 元是由m′n个空间上相邻的网格所组成的,因此网格基元特征是一个 m创nT维的向量。这些网格基元使用相互重叠一个网格的宽度或高度 的方法(如图4所示,每个网格基元由2×2个网格格组成,于是对于 每个字符图像,就能得到(7-2+1)×(7-2+1)个网格基元)。因此,对 于每个字符图像,共划分(M-m+1)?(Nn+1)个网格基元。最终,得到一 个维数为(M-m+1)?(Nn+1)创m n□T的EHOG特征描述算子。

2、DDTW

当书法图像的特征序列通过上述特征描述算子提取出来以后,则 进入特征匹配阶段。图5给出了一个匹配结果示例。最为经典的匹配 方法是DTW,但本发明采用了一种改进方法DDTW,实验结果表明 该方法在书法图像检索中更有效。

DTW的基本原理:

假设有两个时间序列Q和S,它们的长度分别为n和m,有:

Q=q1,q2,…,qi,…qn       (4)

S=s1,s2,L,sj,L,sm       (5)

DTW构造了一个m′n的转换矩阵,(i,j)元素包含了点qi和点sj之间 的距离d(qisj)(这里我们通常使用欧氏距离,即d(qi,sj)=(qi-sj)2), 并且代表qi和sj之间的校准关系。校准路径W是由转换矩阵中若干个 连续的元素构成,它在序列Q和S之间建立了一个映射关系。校准路 径的定义如下:

wk=(i,j)kW=w1,w2,···wk,···,wKmax(n,m)K<n+m-1---(6)

其中W从w1=(1,1)开始,到wk=(n,m)结束。该路径的“代价”如下定义:

换句话说,DTW是基于动态规划(DP)的方式来确定其最佳校准路 径:

D(i,j)=d(qi,sj)+min{D(i-1,j-1),D(i-1,j),D(i,j-1)}        (8)

虽然DTW在寻找相似序列方面取得了巨大的成功,但是它有时 可能会产生非预期的结果。在我们的实验中,DTW通过校准X-轴(时 间序列)来匹配Y-轴上的二维的字符图片。DTW可能会在这种情况 下出现偏差:一个相同的字在出现多次,其中一个字的序列图像的某 个“波谷”要比另一个字相对应的“波谷”要低,并且其中一个的上升速 度比另一个要小。假设我们取序列Q和S中的两个点qi和sj,它们的 值相同。但是qi是处于一个上升趋势,而sj是处在一个下降的趋势中, 尽管我们直观地可以判断此时不应该将将该两点建立映射关系,然而 DTW却会错误的认为该两点是完全对应的。为了解决这个问题,我 们使用了DTW的改进算法——DDTW。DDTW不直接取序列的值作 为匹配依据,而是考虑序列的走势。通过对Y-轴上的序列进行一次 求导,就可以获得该序列的走势。于是在DDTW中,使用d(q′i,sj)代 替d(qi,sj),其中这样,校准方式就不是简单地 基于序列值,而是序列的形状特征(斜率和极值)。

为了验证本发明方法的有效性,著名书法家“赵孟频”的书法作品 被扫描为图像格式,一共有17幅字画。进行字符分割后,该数据集 共包含14,302个字。实验结果表明,本发明方法在该数据集上能达 到90%以上的单字检索平均准确率(mean Average Precision)。进一 步,本发明提出的EHOG特征相比传统的HOG特征,检索平均准确 率能提高8%以上;基于EHOG特征,利用DDTW进行匹配比利用 DTW进行匹配的检索平均准确率能提高1%以上。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号