首页> 中国专利> 无上下文的手写形似汉字极速准确识别方法

无上下文的手写形似汉字极速准确识别方法

摘要

本申请采用特征笔画空间距离构建一个初阶的静态形似汉字集,大幅减少备选字的数量,以特征笔画空间的距离远近作为汉字之间的形似程度;将初阶形似汉字集精简化,构建二级分类器得到形似汉字组;利用平移不变聚束学习的输出置信因子对备选字排序,计算首选字与备选字之间的置信因子熵作为近似度,选择近似度高的作为形似汉字组,输出置信因子的计算兼顾频度计算,考虑偏离样本中心的特殊样本;将汉字识别目标层级特征与平移不变聚束学习相结合,目标层级特征作为先验知识,混合梯级特征作为输入提升识别率;实验表明,本申请的稳定性、可移植性、可扩展性和可维护性好,形似汉字识别快速准确,具有巨大的技术优势和广阔的运用前景。

著录项

  • 公开/公告号CN114863445A

    专利类型发明专利

  • 公开/公告日2022-08-05

    原文格式PDF

  • 申请/专利权人 郭江华;

    申请/专利号CN202210565115.X

  • 发明设计人 郭江华;

    申请日2022-05-23

  • 分类号G06V30/226(2022.01);G06V10/74(2022.01);G06V10/774(2022.01);G06V10/764(2022.01);G06K9/62(2022.01);

  • 代理机构

  • 代理人

  • 地址 518100 广东省深圳市龙岗区贝尔路华为坂田园区H区2座

  • 入库时间 2023-06-19 16:17:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-23

    实质审查的生效 IPC(主分类):G06V30/226 专利申请号:202210565115X 申请日:20220523

    实质审查的生效

  • 2022-08-05

    公开

    发明专利申请公布

说明书

技术领域

本申请涉及一种手写形似汉字极速识别方法,特别涉及一种无上下文的手写形似汉字极速准确识别方法,属于手写中文输入识别技术领域。

背景技术

信息的传播与记录有文字、图像、语音、视频等各种形式,其中以文字形式记载的信息占绝大多数,如各类书籍、档案文件、收据凭证等。数字化时代的到来,如何快速准确的将这些信息录入到计算机中是一个巨大的挑战。仅仅依靠人工处理低效且耗费巨大的人力物力,利用机器来识别并录入文字的想法应运而生。

汉字识别以汉字规范程度的不同分为手写体汉字识别和印刷体汉字识别两大类。其中印刷体汉字由于单字的大小和形态较规范,字与字之间不会存在粘连、重叠及过分等情况,识别相对简单。手写汉字识别以汉字样本信息量的不同又可分为联机识别和脱机识别。其中联机手写汉字是指汉字通过触摸板等类似媒介输入到计算机中,计算机得知汉字输入的笔画顺序,这大大减少了识别难度。而脱机手写汉字识别却仍然面对着很多的困难和挑战,由于缺少书写顺序和上下文支撑,其性能还是需要进一步提升。脱机手写汉字单字字形大小都不规范,不同的人有不同的书写风格,书写环境的不同也会造成汉字字形的变化,再加上汉字本身结构复杂,笔画数、种类数较之英文和数字多很多,汉字之间的形似程度较高等,使得脱机手写体汉字的识别非常困难。其中形似汉字的大量存在是影响识别正确率的一个重要原因,形似汉字是指字与字之间的差别非常微小,如“己”和“已”、“竟”和“竞”等。大量形似汉字的存在使得识别率受到限制,因此如果能够改善形似汉字的识别率,对于整体汉字识别率将会有明显的提升。

汉字识别目前的主要难点归纳为以下四个方面:(1)汉字数量众多,远远高于英语、拉丁语等其它西方语言,庞大的类别数使得一个完整的汉字识别系统体格庞大,构建过程工程量大且耗时长。(2)字形结构复杂,汉字最简单的汉字只有一笔,而最复杂的汉字有36笔,由于笔画繁多,许多汉字的结构较为复杂,再加上个人书写风格迥异导致识别起来较为困难。(3)书写随意不规范,在手写体中,原本规范的笔画如横、竖、撤、点、捺等容易变形,笔画的角度、长度变化;另外由于不同人的书写风格不一样且相互之间差异明显,相同汉字的不同书写者所写的字形结构都可能千差万别。(4)相似字多,汉字中有很多字形结构非常形似和易混淆的汉字,如“人入”、“士土”、“干千”、“暑署”、“酒洒”、“崇祟”等等,这些汉字之间的差别非常微小,高度形似的字在无约束的手写情况下由于变形、不规范等原因会导致字与字之间分辨非常困难。

综上,现有技术的无上下文的手写形似汉字识别仍然存在难题,本申请的难点和待解决的问题集中在以下方面:

(1)脱机手写汉字识别由于缺少书写顺序和上下文支撑,普遍性能较差,单字字形大小都不规范,不同的人有不同的书写风格,书写环境的不同也会造成汉字字形的变化,再加上汉字本身结构复杂,笔画数、种类数较之英文和数字多很多,汉字之间的形似程度较高等,脱机手写体汉字的识别非常困难,其中形似汉字的大量存在是影响识别正确率最重要的原因,现有技术缺少一个优秀的脱机手写汉字识别方法,缺少特征笔画空间距离构建初阶静态形似汉字集,无法减少备选字的数量,缺少以特征笔画空间距离远近作为汉字之间的形似程度,无法将初阶形似汉字集精简化,缺少构建二级分类器得到形似汉字组;缺少利用平移不变聚束学习的输出置信因子对备选字排序,缺少计算首选字与备选字之间的置信因子熵作为近似度,输出置信因子的计算没有兼顾频度计算,未考虑偏离样本中心的特殊样本,缺少将汉字识别目标层级特征与平移不变聚束学习相结合,脱机手写汉字的效果较差。

(2)手写汉字脱机识别完全就是对一张汉字图片的识别,没有其它额外信息,现有技术中形似汉字是限制汉字识别正确率的一个关键原因;一是字形结构近似度高,手写过程的不规范导致的笔画变形,很多不同的笔画容易变得很形似导致误识;二是特征提取不够精确,无法辨认出形似汉字之间的微小差别,形似汉字之间的特征差异很小,如果特征提取中忽略了关键的差异特征,那么会导致某个类别很多样本被分为其形似类;三是由一些不可控因素造成的误识,如预处理过程不小心将目标像素当成噪声删除,字体写得不规范造成的笔画之间的连接或丢失,误将噪声当成目标像素等;四是分类器对于形似汉字的分类不够细致,导致分类器对于形似汉字之间区分能力不够大,导致形似汉字识别困难;上述问题现有技术也没有好的解决方案。

(3)针对形似汉字判定问题,现有技术没有很好的解决方法,缺少基于特征笔画空间距离近似度的方法进行形似汉字的初阶判定,无法选择距离近似度排名前十的作为形似汉字备选集;缺少利用平移不变聚束学习输出置信因子,未将频度计算与特征信息综合考虑,无法利用置信因子熵作为近似度的度量,缺少选择近似度高的作为形似汉字,近似度低的则剔除,无法进一步精简形似汉字集;手写形似汉字识别稳定性、可靠性、准确性无法满足要求。

(4)针对形似汉字识别问题,现有技术没有很好的解决方法,无法用伸缩形变法扩充样本数量,提升模型泛化力,缺少采用平移不变聚束学习方法实现对形似汉字的识别,缺少将人工提取的特征与平移不变聚束学习相结合,无法利用先验知识有助于平移不变聚束学习的性能提升;缺少利用粗分类实现形似汉字的判定,获取近似度足够高的形似汉字组,然后用细分类实现对形似汉字的识别的技术路线:手写形似汉字识别的速度、可移植性、可扩展性和可维护性的较差,实际应用中存在诸多弊端。

发明内容

针对手写汉字识别中形似汉字的存在导致识别率严重受到限制的问题,本申请基于深度学习提出平移不变聚束学习模型,应用在形似汉字的判定以及识别上:针对汉字类别庞大的特征,采用基于特征笔画空间距离近似度的形似汉字集生成技术,减少了下一步的工作量;对形似汉字集合的精简处理,构建平移不变聚束学习得到本集合内汉字对于真实标签的置信因子排名,然后利用置信因子熵确认备选者与待识别汉字的近似度,剔除了近似度低的汉字;提升模型的泛化能力,与传统手写汉字识别方法对比具有强大的优势;与传统手写汉字识别技术相结合,将人工提取的特征应用在平移不变聚束学习中,可以有效提升识别性能。

为实现以上技术特征,本申请所采用的技术方案如下:

无上下文的手写形似汉字极速准确识别方法,采用特征笔画空间距离构建一个初阶的静态形似汉字集,减少备选字的数量,以特征笔画空间的距离远近作为汉字之间的形似程度;将初阶形似汉字集精简化,构建二级分类器得到形似程度有一定标准的形似汉字组;利用平移不变聚束学习的输出置信因子对备选字排序,计算首选字与备选字之间的置信因子熵作为近似度的度量,选择近似度高的作为形似汉字组,平移不变聚束学习的输出置信因子的计算兼顾频度计算,考虑偏离样本中心的特殊样本,并且置信因子熵作为近似度的度量考虑的是样本的各类特性的综合;将汉字识别目标层级特征与平移不变聚束学习相结合,目标层级特征作为一个先验知识,混合梯级特征作为输入提升聚束学习识别率;

本申请首先用粗分类实现形似汉字的判定,获取近似度足够高的形似汉字组,然后用细分类实现对形似汉字的识别:

针对形似汉字判定问题,首先通过基于特征笔画空间距离近似度的方法进行形似汉字的初阶判定,选择距离近似度排名前十的作为形似汉字备选集;然后利用平移不变聚束学习输出置信因子,将频度计算与特征信息综合考虑,利用置信因子熵作为近似度的度量,选择近似度高的作为形似汉字,近似度低的则剔除,进一步精简形似汉字集;

针对形似汉字识别问题,首先用伸缩形变法扩充样本数量,提升模型泛化力,然后采用平移不变聚束学习方法实现对形似汉字的识别,最后将人工提取的特征与平移不变聚束学习相结合,先验知识有助于平移不变聚束学习的性能提升。

进一步的,手写形似汉字集的生成方法:基于特征笔画空间距离近似度、平移不变聚束学习输出置信因子、置信因子熵逐步缩小形似汉字的范围,最终生成形似程度足够高的汉字集,以便于形似汉字的识别;

基于近似度生成形似汉字集:采用粗分类的方法减少备选类别数量,然后再用细分类实现对形似汉字的准确分类;对于粗分类,首先生成待识别汉字的若干形似汉字集,然后将这个汉字集作为细分类的备选类,减少备选字的数量,提取能够区分微小差异的特征,提升对于形似汉字的识别率,包括:基于笔画目标向量描述符的近似度计算、基于近似度生成形似汉字集。

进一步的,基于笔画目标向量描述符的近似度计算:首先采用距离近似度来获取一个初阶形似汉字集,对于距离形似汉字的计算,采用特征笔画空间中距离近的若干个汉字作为备选字的形似汉字,采用笔画目标向量描述符作为汉字的特征表达;

笔画目标向量描述符利用图像的局部目标中的表象信息和形态信息通过梯级目标或边缘目标描述特征,首先将图像分为一个个小的相连区域,然后提取每个相连区域里面的各个像素点的梯级目标或边缘目标分布图,这些分布图的聚合就是笔画目标向量描述符,笔画目标向量描述符能保持一个图像的几何和光学形变不变性;

笔画目标向量描述符的提取步骤,分为:

步骤一:灰度化手写汉字图像;

步骤二:采用Gamma校正法对图像颜色空间归一化,以调节图像的对比度,降低阴影及光照造成的影响,抑制噪声干扰;

步骤三:计算每个像素的梯级大小和目标,获取手写汉字图像轮廓信息;

步骤四:将图像分为若干个小的单元格,计算每个单元格的梯级分布图,得到每个单元格的特征描述;

步骤五:将若干个单元格组成一个聚类块,每个聚类块里面的所有单元格的特征描述组成一个聚类块的特征描述;

步骤六:将所有聚类块的特征描述聚合,便组成该图像的笔画目标向量描述符描述,即最终的笔画目标向量描述符向量;

本申请采用32*32图像,采用每8*8个像素组成一个单元格,每2*2个单元格组成一个聚类块,每个单元格有9个梯级特征,每个单元格在梯级目标上的360度分为9块,每个聚类块就总共包含9*2*2=36个特征,在图像的水平目标和竖直目标上,以每8个像素为补偿,则对应的目标上有3个扫描窗口,每个图像总共就会有36*3*3=324个特征,即每个笔画目标向量描述符维度为324,利用得到的笔画目标向量描述符,计算不同汉字之间的特征笔画空间距离,以特征笔画空间的距离作为不同汉字之间的近似度。

进一步的,基于近似度生成形似汉字集:计算两个汉字之间的近似度后,依据不同汉字之间的近似度来判定他们是否互为形似汉字,对于一个待识别汉字,首先计算它与其它3754个汉字之间的近似度,之后对这3754个近似度进行排序,选择排名前九的汉字作为待识别汉字的可能形似汉字集,对于不同的汉字都采用这种方法,通过这种方法便得到一个静态的形似汉字集表,再需要寻找待识别汉字的形似汉字集查表即可;

本申请采用手写汉字库HCL2000,总共有1000套一级汉字样本,每套有3755个一级汉字,选取100套汉字样本,然后每套中选择按拼音首字母排序的前300个汉字,这300个汉字将计算它们与其它3754个汉字的特征笔画空间距离,对于一套汉字样本,计算结果为一个300行3755列的距离矩阵,将300套样本的每个距离矩阵相加,得到最终的距离矩阵,然后对每一行进行排序,选取排名前9位所代表的汉字作为形似汉字。

进一步的,基于平移不变聚束学习输出置信因子生成形似汉字集:首先采用平移不变聚束学习来对形似汉字集进行基于频度计算的近似度排序,实现形似汉字集的进一步判定;

从前面得到的10个距离形似汉字中,再用平移不变聚束学习对其进行分类,对于类K,选择真实值为K的若干个样本,将其输入到平移不变聚束学习中进行分类,对于每一个样本,平移不变聚束学习将输出10个备选者和它与之相对应的置信因子,对于每一个备选者,选取在每个样本下的输出置信因子进行累积,最后通过对输出置信因子的累积排序,得到样本真实值对于这些备选者的形似排名,然后再取平均,得到归一化的置信因子排序;

给定一个手写字符作为输入,每个输出类别的置信因子反应这个分类器将输入识别成对应类别的可能性,归一化指数函数回归的输出在此定义为一个置信因子的度量,计算式如下:

其中x

形似汉字符的构建过程步骤包括:

第一步:对于给定的类别,选择真实标签的j个样本;

第二步:采用平移不变聚束学习对这j个样本分类,得到对应输出类别的置信因子;

第三步:将j个样本的每个输出类别的置信因子累加;

第四步:计算平均置信因子;

第五步:将输出类别的平均累加置信因子以降序方式排列成一个置信因子表,排在前面的类别与样本的形似程度高于排在后面的类别。

进一步的,基于置信因子熵的形似性判定:将用基于置信因子熵的方法计算子集中的类别与给定的类之间的近似度,用置信因子熵作为近似度的度量,对于类别k和他对应的形似汉字,计算他们两两之间的置信近似度;

其中,计算置信近似度的方法为:对于一个排好序的形似汉字子集,用

得到定义置信近似度:

其中,0<σ<1,

对于两两之间的近似度,表示为:

通过计算两两之间的近似度,将低近似度的类别去掉,保留高近似度的类别,得到不同数目的形似汉字组;

首先通过基于特征笔画空间距离近似度的方法找到汉字的大致形似汉字,然后通过平移不变聚束学习的输出置信因子,将距离近似度和频度计算近似度结合起来,这样得到的置信因子排序与近似度关联;最后,用置信因子的熵计算近似度,将低近似度的字剔除,得到近似度较高并且数目也不大的形似汉字子集,之后便只需要对这些形似汉字构建对应的二级分类器,识别率将得到提升。

进一步的,随机伸缩形变扩充样本:在训练时,通过对样本产生一些随机变换,提高模型的泛化性能,采用随机伸缩形变来扩充样本;

首先生成两个随机变换域△x(x,y)和△y(x,y),这两个变换域分别代表像素点(x,y)在x目标上的位移和y目标上的位移,然后生成一个均值为0,标准差为σ的高斯核k

随机伸缩形变作用下得到的图像相对于原图,形态在不同的目标上发生一定的扭曲,但主要特征保持,不影响识别效果。

进一步的,样本预处理方法:采用非线性规整化的方法,减少样本形变带来的误识;去噪点减小对目标像素造成的影响,提升识别率。

进一步的,与目标层级特征相结合的聚束学习:将汉字从各个目标分解,得到不同目标上的汉字特征表述,图像目标层级的分解,通过梯级算子对图像进行差分运算得到,提取图像的水平和垂直目标层级;

对于图像中的某一点(x,y),假设其像素值为f(x,y),梯级向量为:

g(x,y)=[grad

则其对应的水平目标上和垂直目标上的梯级计算公式如下:

G

G

将这个梯级向量在不同的目标上分解,得到各个目标上的梯级特征向量;

将梯级特征与聚束学习相结合,分别以原始图像、单一梯级特征、混合梯级特征输入到聚束学习中进行训练,具体步骤为:

第1步:对每张样本图像提取水平、垂直、45度、135度梯级特征,并分别分为训练样本和测试样本;

第2步:分别将原图像、单个梯级特征、混合梯级特征组成的训练样本训练聚束学习网络;

第3步:将测试样本输入到对应的训练好的聚束学习网络中进行测试;

以混合梯级作为输入取得的效果都比原始图像作为输入好,将先验知识跟平移不变聚束学习相结合,网络在学习特征时更加有效。

与现有技术相比,本申请的创新点和优势在于:

(1)针对手写汉字识别中形似汉字的存在导致识别率严重受到限制的问题,本申请基于深度学习提出平移不变聚束学习模型,应用在形似汉字的判定以及识别上:一是针对汉字类别庞大的特征,采用基于特征笔画空间距离近似度的形似汉字集生成技术,从一级汉字中生成若干形似汉字集合,作为待识别汉字的备选字集合,减少了下一步的工作量;二是对形似汉字集合的精简处理,构建平移不变聚束学习得到本集合内汉字对于真实标签的置信因子排名,然后利用置信因子熵确认备选者与待识别汉字的近似度,剔除了近似度低的汉字;三是提升了模型的泛化能力,采用伸缩形变对样本进行扩充,然后构建平移不变聚束学习实现对形似汉字的识别,将样本进行预处理得到了更好的识别效果,调整网络的结构以实现训练时间与准确率的最优化,与传统手写汉字识别方法对比具有强大的优势。四是与传统手写汉字识别技术相结合,将人工提取的特征应用在平移不变聚束学习中,与仅输入原图对比,人工提取的特征作为网络输入可以有效提升识别性能。

(2)针对形似汉字判定问题,本申请利用特征笔画空间距离构建一个初阶的静态形似汉字集,以特征笔画空间的距离远近作为汉字之间的形似程度,优势在于计算方便简洁,能够大幅减少备选字的数量;本申请首先用粗分类实现形似汉字的判定,获取近似度足够高的形似汉字组,然后用细分类实现对形似汉字的识别:将初阶形似汉字集精简化,得到形似程度有一定标准的形似汉字组,构建合适的二级分类器,利用平移不变聚束学习的输出置信因子对备选字进行排序,计算首选字与备选字之间的置信因子熵作为近似度的度量,选择近似度高的作为形似汉字组,输出置信因子的计算兼顾了频度计算,考虑偏离样本中心的特殊样本,更具有普适性,并且置信因子熵作为近似度的度量考虑了样本的各类特性的综合,前期工作的质量更高、速度更快。

(3)针对形似汉字识别问题,首先用伸缩形变法扩充样本数量,提升模型泛化力,然后采用平移不变聚束学习方法实现对形似汉字的识别,最后将人工提取的特征与平移不变聚束学习相结合,先验知识有助于平移不变聚束学习的性能提升。针对形似汉字的识别中人工提取特征容易丢失关键信息,本申请构建平移不变聚束学习进行对形似汉字的识别,图像预处理后可以凸显样本图像的目标像素,减少噪声对图像的不良影响,便于网络自适应学习特征。汉字识别方法中的目标层级特征与平移不变聚束学习相结合的方法,实验表明目标层级特征作为一个优秀的先验知识,相比于单纯的样本图像作为网络的输入,混合梯级特征作为输入显著提升网络的识别率。

(4)本申请采用特征笔画空间距离构建一个初阶的静态形似汉字集,大幅减少备选字的数量,以特征笔画空间的距离远近作为汉字之间的形似程度;将初阶形似汉字集精简化,构建二级分类器得到形似程度有一定标准的形似汉字组;利用平移不变聚束学习的输出置信因子对备选字排序,计算首选字与备选字之间的置信因子熵作为近似度的度量,选择近似度高的作为形似汉字组,输出置信因子的计算兼顾频度计算,考虑偏离样本中心的特殊样本,并且置信因子熵作为近似度的度量考虑的是样本的各类特性的综合;将汉字识别目标层级特征与平移不变聚束学习相结合,目标层级特征作为一个先验知识,混合梯级特征作为输入提升聚束学习识别率;实验表明,本申请的稳定性、可靠性、可移植性、可扩展性和可维护性好,形似汉字识别快速准确,具有巨大的技术优势和广阔的运用前景。

附图说明

图1是人工搜集了若干容易误识的形似汉字对示意图。

图2是笔画目标向量描述符的特征提取步骤示意图。

图3是距离近似度的形似汉字集生成过程示意图。

图4是形似汉字集的部分选取结果示意图。

图5是输入真实标签为“已”的形似汉字判别过程示意图。

图6是基于置信因子熵的形似性判定部分形似字示意图。

图7是随机伸缩形变扩充样本效果对比图。

图8是样本预处理方法效果对比图。

图9是各个目标上的梯级特征向量分解方式示意图。

图10是一个样本按照0、45、90、135度的目标分解结果图。

图11是混合梯级特征输入方式的网络结构示意图。

图12是本申请不同输入方式下的识别率对比图。

具体实施方法

下面结合附图,对本申请提供的无上下文的手写形似汉字极速准确识别方法的技术方案进行进一步的描述,使本领域的技术人员能够更好的理解本申请并能够予以实施。

手写汉字识别是人机交互中的一个重要组成部分,提高手写汉字的识别率对人机交互系统的发展有重大意义。由于汉字种类繁多、字形结构复杂、书写风格多变以及存在大量形似汉字等特征,手写汉字识别一直是模式识别中的热点和难点。大量形似汉字的存在是制约手写汉字识别率的一个重要原因,如何提高对形似汉字的识别率从而提高整体汉字识别率是一个亟待解决的问题。

本申请基于平移不变聚束学习解决脱机手写体汉字识别中形似汉字误识问题,基于粗分类和细分类的思想,本申请首先用粗分类实现形似汉字的判定,获取近似度足够高的形似汉字组,然后用细分类实现对形似汉字的识别。

针对形似汉字判定问题,本申请首先通过基于特征笔画空间距离近似度的方法进行形似汉字的初阶判定,选择距离近似度排名前十的作为形似汉字备选集;然后利用平移不变聚束学习输出置信因子,将频度计算与特征信息综合考虑,利用置信因子熵作为近似度的度量,选择近似度高的作为形似汉字,近似度低的则剔除,进一步精简形似汉字集;

针对形似汉字识别问题,本申请首先用伸缩形变的方法扩充样本数量,提升模型的泛化力,然后采用平移不变聚束学习方法实现对形似汉字的识别,实验表明平移不变聚束学习方法不仅可以避免复杂的显式特征提取,识别性能上也更加优异,最后将人工提取的特征与平移不变聚束学习相结合,实验结果表明与单纯的输入原始图像相比,人工提取的特征作为一个先验知识,有助于平移不变聚束学习的性能提升,识别率提高了6.9%左右。

一、手写形似汉字集的生成方法

针对汉字数目庞大且形似汉字多的特征,首先判定形似汉字然后再对形似汉字进行识别可提升对形似汉字的识别率。而对于形似汉字的判定,人工判定是不可取的,因为人工判定耗时耗力效率低下、各人判定标准不同没有权威性、人工判定与机器判定准则也不同。因此采用与分类器识别关联的算法来判定是否为形似汉字。

形似汉字的判定是否准确影响汉字的整体识别率,本申请基于特征笔画空间距离近似度、平移不变聚束学习输出置信因子、置信因子熵逐步缩小形似汉字的范围,最终生成形似程度足够高的汉字集,以便于形似汉字的识别。

(一)制约形似汉字识别率的原因分析

为了直观的看出形似汉字误识的原因,首先人工搜集了若干容易误识的形似汉字对,如图1所示:从识别错误的原因上看,形似汉字分为两种:一是字本身的字形结构非常形似;二是字形结构看起来不像,但是最终由于特征提取和分类识别的原因导致容易误识的字。详细分析后,归纳出以下造成误识的若干原因:

(1)字形结构近似度高。由于手写过程的不规范导致的笔画变形,很多不同的笔画容易变得很形似导致误识。如“干”和“千”,不论是“干”字最上面的那一横还是“千”字最上面一撇,在不规范的手写体汉字中二者都有可能互相混绢,导致误识。

(2)特征提取不够精确,无法辨认出形似汉字之间的微小差别。由于形似汉字之间的特征差异很小,如果特征提取中忽略了关键的差异特征,那么会导致某个类别很多样本被分为其形似类。如“己”和“已”,这两个字的差别仅仅在于中间的笔画是否出头,而在手写体中,这一点往往写得不够规范,若是特征提取没有将这个微小的差异提取出来,那么识别时将会有很多“已”被识别为“已”。

(3)由一些不可控因素造成的误识。如预处理过程不小心将目标像素当成噪声删除,字体写得不规范造成的笔画之间的连接或丢失,误将噪声当成目标像素等。例如“广”和“厂”,若“广”字上一点写得比较小,在预处理过程中不小心去掉,“广”将被误识为“厂”;若“厂”字上面的噪声过大,则容易将“厂”误识为“广”。

(4)分类器对于形似汉字的分类不够细致。这往往是由于分类器设计上是对于全局最优的,而形似汉字之间一般都是局部微小不同,这导致分类器对于形似汉字之间区分能力不够大,导致形似汉字识别困难。

(二)基于近似度生成形似汉字集

为了能够实现对形似汉字的准确分类,采用粗分类的方法减少备选类别数量,然后再用细分类实现对形似汉字的准确分类。对于粗分类,首先生成待识别汉字的若干形似汉字集,然后将这个汉字集作为细分类的备选类,这样极大的减少了备选字的数量(由3755类下降到个位数的类),有益于提取那些能够区分微小差异的特征,从而提升对于形似汉字的识别率。

1.基于笔画目标向量描述符的近似度计算

本申请首先采用距离近似度来获取一个初阶形似汉字集,对于距离形似汉字的计算,采用特征笔画空间中距离近的若干个汉字作为备选字的形似汉字,本申请采用笔画目标向量描述符作为汉字的特征表达。

笔画目标向量描述符利用图像的局部目标中的表象信息和形态信息通过梯级目标或边缘目标描述特征,首先将图像分为一个个小的相连区域,然后提取每个相连区域里面的各个像素点的梯级目标或边缘目标分布图,这些分布图的聚合就是笔画目标向量描述符。正是因为笔画目标向量描述符提取是在图像的局部区域上操作的,这使得笔画目标向量描述符能保持一个图像的几何和光学形变不变性。

笔画目标向量描述符的提取步骤,如图2,分为:

步骤一:灰度化手写汉字图像;

步骤二:采用Gamma校正法对图像颜色空间归一化,以调节图像的对比度,降低阴影及光照造成的影响,抑制噪声干扰;

步骤三:计算每个像素的梯级大小和目标,获取手写汉字图像轮廓信息;

步骤四:将图像分为若干个小的单元格,计算每个单元格的梯级分布图,得到每个单元格的特征描述;

步骤五:将若干个单元格组成一个聚类块,每个聚类块里面的所有单元格的特征描述组成一个聚类块的特征描述;

步骤六:将所有聚类块的特征描述聚合,便组成该图像的笔画目标向量描述符描述,即最终的笔画目标向量描述符向量;

本申请采用32*32图像,采用每8*8个像素组成一个单元格,每2*2个单元格组成一个聚类块,每个单元格有9个梯级特征,每个单元格在梯级目标上的360度分为9块,每个聚类块就总共包含9*2*2=36个特征,在图像的水平目标和竖直目标上,以每8个像素为补偿,则对应的目标上有3个扫描窗口,每个图像总共就会有36*3*3=324个特征,即每个笔画目标向量描述符维度为324,利用得到的笔画目标向量描述符,计算不同汉字之间的特征笔画空间距离,以特征笔画空间的距离作为不同汉字之间的近似度。

2.基于近似度生成形似汉字集

计算两个汉字之间的近似度后,依据不同汉字之间的近似度来判定他们是否互为形似汉字,对于一个待识别汉字,首先计算它与其它3754个汉字之间的近似度,之后对这3754个近似度进行排序,选择排名前九的汉字作为待识别汉字的可能形似汉字集,对于不同的汉字都采用这种方法,通过这种方法便得到一个静态的形似汉字集表,再需要寻找待识别汉字的形似汉字集查表即可。具体实现流程如图3。

本申请采用手写汉字库HCL2000,总共有1000套一级汉字样本,每套有3755个一级汉字,若对每一套的所有汉字都计算两两之间的近似度,这是一个非常浩大的工程,耗时极大。为减少计算时间,选取100套汉字样本,然后每套中选择按拼音首字母排序的前300个汉字,这300个汉字将计算它们与其它3754个汉字的特征笔画空间距离,对于一套汉字样本,计算结果为一个300行3755列的距离矩阵,将300套样本的每个距离矩阵相加,得到最终的距离矩阵,然后对每一行进行排序,选取排名前9位所代表的汉字作为形似汉字。所得到的部分结果如图4。

可以看到,对于目标汉字的这些备选字,有些是近似度很高的,但是有些却并没有那么像。主要原因在于如果是本身字形结构非常形似的汉字,其笔画目标向量描述符笔画空间的距离必然是很近的;但是笔画目标向量描述符笔画空间距离近的,可能其它特征笔画空间就不近了,只是在笔画目标向量描述符的表述下被认作是形似汉字,因此仅依赖笔画目标向量描述符笔画空间距离判定形似汉字可以得到相对正确的结果,但仍有一定的误差,需要进一步判断。

(三)基于平移不变聚束学习生成形似汉字

上文在计算汉字之间的近似度上采用笔画目标向量描述符的空间距离,而笔画目标向量描述符只是众多特征中的一种,这也许只能表达汉字图像的一部分特性,因此如何能够全面地描述汉字之间的形似程度是一个需要多方面考虑的问题。随着深度学习的兴起,很多研究都开始采用深度学习模型来代替传统的机器学习模型,本申请提出的平移不变,具有良好的特征提取和分类能力,其特征提取和分类集成到了一起,这使得我们不需要人工设计提取特征,也避免了人工特征提取的片面性,网络提取的特征综合了原始图像的各类信息。因此,考虑将平移不变聚束学习应用在形似汉字的判定中,这样在对形似汉字的判定上考虑了多方面的信息,使得对形似汉字的判定鲁棒性更强。

1.基于平移不变聚束学习输出置信因子生成形似汉字集

对于某些偏离样本中心的图像,采用距离近似度得不到正确的结果。因此,基于频度计算生成形似汉字更加符合实际样本差异性下形似汉字的判定方法。首先采用平移不变聚束学习来对形似汉字集进行基于频度计算的近似度排序,实现形似汉字集的进一步判定。

从前面得到的10个距离形似汉字中,再用平移不变聚束学习对其进行分类,对于类K,选择真实值为K的若干个样本,将其输入到平移不变聚束学习中进行分类,对于每一个样本,平移不变聚束学习将输出10个备选者和它与之相对应的置信因子,对于每一个备选者,选取在每个样本下的输出置信因子进行累积,最后通过对输出置信因子的累积排序,得到样本真实值对于这些备选者的形似排名,然后再取平均,得到归一化的置信因子排序。

给定一个手写字符作为输入,每个输出类别的置信因子反应这个分类器将输入识别成对应类别的可能性,归一化指数函数回归的输出在此定义为一个置信因子的度量,计算式如下:

其中x

如图5所示,形似汉字符的构建过程步骤包括:

第一步:对于给定的类别如“己”,选择真实标签为“己”的j个样本;

第二步:采用平移不变聚束学习对这j个样本分类,得到对应输出类别的置信因子;

第三步:将j个样本的每个输出类别的置信因子累加,比如第1、2、j个样本对于输出为“己”的置信因子分别为0.69,0.89,0.91,则“己”的累积置信因子为2.49;

第四步:计算平均置信因子,“己”的平均置信因子为0.83;

第五步:将输出类别的平均累加置信因子以降序方式排列成一个置信因子表,排在前面的类别与样本的形似程度高于排在后面的类别。

2.基于置信因子熵的形似性判定

得到一个以平均置信因子排序的形似汉字表后,由于平移不变聚束学习输出置信因子综合考虑了汉字的各类特性,并且兼顾了频度计算,这样的近似度更符合实际情况。但通过对比发现,有的类别集中的多个个汉字之间近似度较高的数目很多,而有的却相对来说少一点。如{哀衷衰袁薏泵表裹豪疤}和{棒捧樟摔榨椿梯律柱极},前者前4个字{哀衷衰袁}之间很形似,而后者就前2个字{棒捧}较为形似。这种情况下假设{哀衷袁衰}的置信因子排序为[0.7,0.1,0.1,0.1],而{棒捧}的置信因子排序为[0.8,0.2],这样假设完全是可能的(实际实验结果为[0.7381,0.0955,0.0885,0.0779]和[0.8213,0.1787])。如果以置信因子大于等于0.2的作为形似汉字的标准,则前者处理后形似汉字都被剔除;因此需要选择置信因子大于等于0.1的作为形似汉字的标准才能得到正确答案,而具体选择多大的置信因子在面对形似汉字数量不同的时候则成为了一个问题。在此,本申请将用基于置信因子熵的方法计算子集中的类别与给定的类之间的近似度,用置信因子熵作为近似度的度量,对于类别k和他对应的形似汉字,计算他们两两之间的置信近似度。

其中,计算置信近似度的方法为:对于一个排好序的形似汉字子集,用

得到定义置信近似度:

其中,0<σ<1,

对于两两之间的近似度,表示为:

通过计算两两之间的近似度,将低近似度的类别去掉,保留高近似度的类别,得到不同数目的形似汉字组,有的有多个形似汉字,有的一个都没有,选择500个作为训练样本,剩余500个作为测试样本,通过计算图4列出汉字近似度,得到结果如图6所示,其中空白表示该字无形似汉字,不需要进行下一步识别。

形似汉字的存在是制约手写汉字识别识别率的一个重要因素,因此如果能在识别之前将找到待识别汉字所有可能的形似汉字,然后制成对应的二级分类器,这对于手写汉字识别识别率的提升是很明显的。在本申请中,首先通过基于特征笔画空间距离近似度的方法找到汉字的大致形似汉字,这样的计算有一定的误差但是可以大幅减少备选数目,提高计算速度;然后通过平移不变聚束学习的输出置信因子,将距离近似度和频度计算近似度结合起来,这样得到的置信因子排序与近似度关联;最后,用置信因子的熵计算近似度,将低近似度的字剔除,得到了近似度较高并且数目也不大的形似汉字子集,这对于构建二级分类器有重大意义,之后便只需要对这些形似汉字构建对应的二级分类器,识别率将会得到提升。

二、多方向提升平移不变聚束学习手写形似汉字识别

针对本申请得到的形似汉字集,构建对应的平移不变聚束学习对其进行二次分类。

在传统的分类方法中,往往都包括预处理、特征提取和分类三个步骤,其分类效果严重依赖于预处理和特征提取。特征提取是其最为关键的一步,需要人工设计提取,而人工提取的特征很可能会丢失掉一些有用的信息。本申请平移不变聚束学习的优势明显,它将特征提取和分类集成联合,这样就不会出现因为人工提取特征所造成的信息丢失。在处理形似汉字中,其中的微小差别如果采用人工提取特征,恐怕很容易丢失信息。因此,采用平移不变聚束学习来对形似汉字进行分类的方法具有传统汉字识别方法所不具备的优势。

为验证平移不变聚束学习对于形似汉字识别任务的有效,本申请设计了以下若干个实验,包括传统汉字识别方法与平移不变聚束学习方法的对比,这是为了验证平移不变聚束学习在手写形似汉字识别中的优越之处;网络自身结构的优化调整,这是为了验证平移不变聚束学习自身结构上的不同对于识别效果及训练难度的影响;样本预处理方法与未经过预处理的对比、原始图像与目标层级特征的对比,这两项是为了验证平移不变聚束学习与传统汉字识别方法相结合给平移不变聚束学习带来的一些好处。

本申请所采用的样本图像是来自HCL2000手写汉字数据库,库中汉字样本的扫描分辨率为300DPI,是由经过样张处理、分割得到的点阵经过线性投影的归一化结果,样本图像的大小为64*64。为了减少了计算量和网络的层数,本申请将64*64大小的图像归一化为32*32的大小。

(一)随机伸缩形变扩充样本

由于每个人的书写风格不一样,对于一个相同的字其形态规格可能都大不一样,有些不规则的书写会导致分类错误。因此,对于手写汉字的识别,模型的泛化能力是一个非常重要的指标,高泛化能力的模型才能满足需求,在这种情况下,必须有大量的训练样本,在训练时,通过对样本产生一些随机变换,提高模型的泛化性能,采用随机伸缩形变来扩充样本。

首先生成两个随机变换域△x(x,y)和△y(x,y),这两个变换域分别代表像素点(x,y)在x目标上的位移和y目标上的位移,然后生成一个均值为0,标准差为σ的高斯核k

随机伸缩形变作用下得到的图像相对于原图,形态在不同的目标上发生一定的扭曲,但主要特征保持,不影响识别效果。

(二)样本预处理方法对比

本申请将进行一系列经过预处理之后再输入到网络中识别的实验和未经预处理直接将原图输入到网络中的实验的对比。样本图像是经过伸缩形变扩展后得到的6000张图像,实验的对象为6000张未经过预处理的图像和经过各种预处理方法后得到的图像。其中一组形似汉字“己”和“已”的实验结果如图8所示。

从上表可以看出,经过预处理之后,识别率有所提升,说明预处理过程中去除了一些对分类效果造成不利的因素。预处理方法中,非线性规整化的效果比线性规整化的效果要好,这是因为非线性规整化可以减少样本形变带来的误识;去噪也可以带来识别率的提升,这是因为噪声点的存在对目标像素造成了影响。

(三)与目标层级特征相结合的聚束学习

在传统的汉字识别方法中,特征提取是非常关键的一步,特别是针对形似汉字,如果特征提取不能提取形似汉字之间的微小差异,这将严重影响对形似汉字的识别正确率。因此,选择一个合适的特征对于形似汉字的识别是很关键的。

传统手写汉字识别中的特征提取从特征的类型上可以分为结构特征和计算特征,结构特征是早期汉字识别的主流方法,从汉字部件分析汉字的结构组成,直观上符合我们书写汉字的过程,但是提取过程过于困难,并且效果也没有计算特征好;计算特征是针对汉字整体的考量,将汉字图像样本通过各种变换将原数据映射到一个新的空间,变换后的数据便是计算特征。计算特征具有抗噪性能良好,高鲁棒性的优点。

汉字笔画的目标特性比较突出,因此基于汉字的目标性梯级特征在汉字识别中有很好的效果。将汉字从各个目标分解,便得到了不同目标上的汉字特征表述,图像目标层级的分解,通过梯级算子对图像进行差分运算得到,提取图像的水平和垂直目标层级;

对于图像中的某一点(x,y),假设其像素值为f(x,y),梯级向量为:

g(x,y)=[grad

则其对应的水平目标上和垂直目标上的梯级计算公式如下:

G

G

将这个梯级向量在不同的目标上分解,得到各个目标上的梯级特征向量,分解方式如图9。“厂”字的一个样本按照0、45、90、135度的目标分解,得到的结果如图10。

将梯级特征与聚束学习相结合,分别以原始图像、单一梯级特征、混合梯级特征输入到聚束学习中进行训练,其中混合梯级特征输入方式的网络结构如图11。具体步骤为:

第1步:对每张样本图像提取水平、垂直、45度、135度梯级特征,并分别分为训练样本和测试样本;

第2步:分别将原图像、单个梯级特征、混合梯级特征组成的训练样本训练聚束学习网络;

第3步:将测试样本输入到对应的训练好的聚束学习网络中进行测试;

对于一组形似汉字“千”和“干”,所得的训练结果如图12。

从图12中可以看到,以单一角度的梯级为网络输入所训练的网络性能比较差,没有以原始图像作为输入所训练的网络性能好,分析其原因,在于单一角度的梯级特征对图像信息表达不完整,丢失了原始图像的一部分信息,导致识别率偏低。原始图像中包含了图像的所有信息,但是囿于网络结构和数据量的大小,使得网络在自身学习特征时受到限制,不一定能够有效地学习到有利于识别的特征信息,因此导致以原始图像为输入的网络识别率受到限制。而将混合梯级特征同时输入到网络中的话,图像的特征信息得到了较为全面的表达,并且相对于原始图像,混合梯级特征已经提取了原始图像的部分隐含信息,这使得网络在提取特征时可以直接利用这些首先验信息,从而获取更高级的特征表达,提高网络分辨能力,因此识别率要比原始图像的高。为了更好地显示混合梯级和原始图像两者作为输入的差异,本申请选择20组形似汉字,对应的对比可以看到,以混合梯级作为输入取得的效果基本上都要比原始图像作为输入好,由此可见,提取特征是一个非常有用的先验知识,将这个首先验知识跟平移不变聚束学习相结合,可以让网络在学习特征时更加有效,网络性能得到有效提升。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号