首页> 中国专利> 一种基于卷积神经网络的东巴象形文字识别方法及装置

一种基于卷积神经网络的东巴象形文字识别方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本公开是关于一种基于卷积神经网络的东巴象形文字识别方法及装置。基于卷积神经网络的东巴象形文字识别方法包括：获取待识别图像，待识别图像中包括东巴象形文字；基于深度残差网络模型对待识别图像进行特征识别，得到东巴象形文字对应的文字释义，深度残差网络模型包括至少一个残差跳跃连接结构，残差跳跃连接结构包括多个相邻堆叠的卷积层。通过本公开实施例，能够提高东巴象形文字识别的准确率。

著录项

公开/公告号CN113837186A

专利类型发明专利
公开/公告日2021-12-24

原文格式PDF
申请/专利权人中央民族大学;
展开▼

申请/专利号CN202111427357.4
发明设计人毕晓君;骆彦龙;李霞丽;赵悦;
展开▼

申请日2021-11-29
分类号G06K9/32(20060101);G06K9/46(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11722 北京钲霖知识产权代理有限公司;
代理人李志新;杨继成
地址 100081 北京市海淀区中关村南大街27号
入库时间 2023-06-19 13:49:36

法律信息

法律状态公告日

法律状态信息

法律状态
2023-01-13

发明专利申请公布后的驳回 IPC(主分类):G06K 9/32 专利申请号:2021114273574 申请公布日:20211224

发明专利申请公布后的驳回

说明书

技术领域

本公开涉及图像识别技术领域，尤其涉及一种基于卷积神经网络的东巴象形文字识别方法及装置。

背景技术

东巴象形文字由纳西族祖先创造，至今已有两千多年的历史，可以用来写信、记账、写诗作文，至今仍被使用，因此被称为世界上“唯一活着的象形文字”。目前流传于世的东巴经典多达三万余卷，共一千四百多种，但是这些珍贵的经典大部分还无法破译，被人们称为“沉睡的宝藏”。东巴经典自古以来都由东巴口耳相传记在心中，离开东巴就无法释读东巴经典，他们现都年事已高，人类这一文明瑰宝即将面临无人释读的濒危状况。

东巴象形文字具有书写随意性大、部分文字相似度高、异体字多等特点，对其进行识别研究有很大的难度。深度学习模型是目前公认的识别效果最好的方法，如何根据东巴象形文字的图画特点，合理设计深度学习模型结构，提取更多东巴象形文字图像特征，取得优异的识别效果成为亟需解决的问题。

发明内容

为克服相关技术中存在的问题，本公开提供一种基于卷积神经网络的东巴象形文字识别方法及装置。

根据本公开实施例的第一方面，提供一种基于卷积神经网络的东巴象形文字识别方法，所述基于卷积神经网络的东巴象形文字识别方法包括：获取待识别图像，所述待识别图像中包括象形文字；基于深度残差网络模型对所述待识别图像进行特征识别，得到所述东巴象形文字对应的文字释义，所述深度残差网络模型包括至少一个残差跳跃连接结构，所述残差跳跃连接结构包括多个相邻堆叠的卷积层。

在一些实施例中，所述深度残差网络模型包括多个卷积层以及多个最大池化层，所述深度残差网络模型包括多个卷积层以及多个最大池化层，所述多个卷积层用于提取所述待识别图像的第一特征图像；所述最大池化层用于对所述待识别图像的第一特征图像进行下采样。

在一些实施例中，所述深度残差网络模型还包括平均池化层以及全连接层，基于深度残差网络模型对所述待识别图像进行特征识别，得到所述东巴象形文字对应的文字释义，包括：基于所述平均池化层整合相邻所述卷积层输出的第一特征图像中的特征信息，得到第二特征图像；通过所述全连接层对所述第二特征图像进行特征转换，得到第三特征图像；基于所述第三特征图像，得到所述东巴象形文字对应的文字释义。

在一些实施例中，所述深度残差网络模型的输入为多个所述东巴象形文字图像，所述深度残差网络模型的输出为多个所述东巴象形文字图像分别对应的文字释义，所述深度残差网络模型采用如下方式训练得到：获取训练样本与测试样本，其中，所述训练样本与所述测试样本中包括多个东巴象形文字图像；利用所述训练样本对所述深度残差网络模型进行多次迭代训练，并利用所述测试样本对所述深度残差网络模型进行评估，得到所述深度残差网络模型。

在一些实施例中，所述获取训练样本与测试样本，包括：基于所述东巴象形文字的书写规律，创建所述东巴象形文字对应的同属异体字，其中，具有相同文字释义的所述东巴象形文字对应至少一个所述同属异体字；将多个所述同属异体字确定为所述训练样本与所述测试样本。

在一些实施例中，所述利用训练样本对所述深度残差网络模型进行多次迭代训练，并利用所述测试样本对所述深度残差网络模型进行评估，得到所述深度残差网络模型，包括：基于梯度优化函数，利用所述训练样本对所述深度残差网络模型进行多次迭代训练，所述梯度优化函数包括适应性矩估计函数；以及基于损失函数，利用所述测试样本对所述深度残差网络模型进行评估，所述损失函数包括交叉熵函数。

在一些实施例中，所述残差跳跃连接结构还包括：批量归一化层以及修正线性单元层，所述批量归一化层用于对所述卷积层执行批量归一化操作，所述修正线性单元用于作为所述残差跳跃连接结构的激活函数。

在一些实施例中，所述方法还包括：对所述待识别图像进行预处理，所述预处理包括以下至少一种方式：对所述待识别图像进行灰度化处理、进行所述待识别图像的二值化处理、所述待识别图像的尺寸归一化处理以及对所述待识别图像的编码标注。

根据本公开实施例的第二方面，提供一种基于卷积神经网络的东巴象形文字识别装置，基于卷积神经网络的东巴象形文字识别装置包括：获取单元，用于获取待识别图像，所述待识别图像中包括象形文字；确定单元，用于基于深度残差网络模型对所述待识别图像进行特征识别，得到所述东巴象形文字对应的文字释义，所述深度残差网络模型包括至少一个残差跳跃连接结构，所述残差跳跃连接结构包括多个相邻堆叠的卷积层。

在一些实施例中，所述深度残差网络模型包括多个卷积层以及多个最大池化层，所述多个卷积层用于提取所述待识别图像的第一特征图像；所述最大池化层用于对所述待识别图像的第一特征图像进行下采样。

在一些实施例中，所述深度残差网络模型还包括平均池化层以及全连接层，所述确定单元采用如下方式基于深度残差网络模型对所述待识别图像进行特征识别，得到所述东巴象形文字对应的文字释义：基于所述平均池化层整合相邻所述卷积层输出的第一特征图像中的特征信息，得到第二特征图像；通过所述全连接层对所述第二特征图像进行特征转换，得到第三特征图像；基于所述第三特征图像，得到所述东巴象形文字对应的文字释义。

在一些实施例中，所述基于卷积神经网络的东巴象形文字识别装置还包括：预处理单元，用于对所述待识别图像进行预处理，所述预处理包括以下至少一种方式：对所述待识别图像进行灰度化处理、进行所述待识别图像的二值化处理、所述待识别图像的尺寸归一化处理以及对所述待识别图像的编码标注。

根据本公开实施例的第三方面，提供一种基于卷积神经网络的东巴象形文字识别装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，处理器被配置为：执行前述任意一项所述的基于卷积神经网络的东巴象形文字识别方法。

根据本公开实施例的第四方面，提供一种非临时性计算机可读存储介质，当存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行前述任意一项所述的基于卷积神经网络的东巴象形文字识别方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过获取包括东巴象形文字的待识别图像，基于深度残差网络模型对待识别图像进行特征识别，并确定东巴象形文字对应的文字释义，深度残差网络模型包括至少一个残差跳跃连接结构，残差跳跃连接结构包括多个相邻堆叠的卷积层，有效利用特征图，降低网络参数量和复杂度，提高东巴象形文字识别的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别方法的流程图。

图2是根据本公开一示例性实施例示出的东巴象形文字识别网络框架图。

图3是根据本公开一示例性实施例示出的残差跳跃连接结构示意图。

图4是根据本公开一示例性实施例示出的一种训练深度残差网络模型方法的流程图。

图5是根据本公开一示例性实施例示出的一种获取训练样本与测试样本方法的流程图。

图6是根据本公开一示例性实施例示出的创建同一东巴象形文字对应的多个异体字示意图。

图7是根据本公开一示例性实施例示出的利用训练样本对深度残差网络模型进行多次迭代训练，并利用测试样本对深度残差网络模型进行评估，得到深度残差网络模型方法的流程图。

图8是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别方法的流程图。

图9a-图9b示出了移动终端中识别东巴象形文字的应用示意图。

图10是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别装置框图。

图11是根据本公开又一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别装置框图。

图12根据本公开一示例性实施例示出的一种用于基于卷积神经网络的东巴象形文字识别的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

东巴文作为一种复杂的象形文字，由纳西族祖先创造，其书写符号属于象形文字，2003年，东巴古籍文献被联合国教科文组织列为“世界记忆遗产”名录，在世界语言文字研究中的重要地位和巨大影响力，是人类共同拥有的宝贵财富。东巴象形文字的识别一直是研究的热点和重点，然而，仅有少数相关领域的专家才能读懂其文字释义。

东巴象形文字内容广泛、字数多，可分为天文、地理、建筑等；相似度高，结构相似的东巴象形文字因其细节部分不同，其字义亦不同；书写随意性较大，不同人书写的东巴象形文字会有不规则的形变。当前技术中，东巴象形文字识别存在识别字数少且识别准确率低等问题。

由此，本公开提供一种东巴象形文字识别方法，基于深度残差网络模型进行东巴象形文字的识别，确定东巴象形文字对应的文字释义，提高东巴象形文字识别的准确率。

图1是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字方法的流程图，如图1所示，该方法包括以下步骤。

在步骤S101中，获取待识别图像，待识别图像中包括东巴象形文字。

在步骤S102中，基于深度残差网络模型对待识别图像进行特征识别，得到东巴象形文字对应的文字释义，深度残差网络模型包括至少一个残差跳跃连接结构，残差跳跃连接结构包括多个相邻堆叠的卷积层。

在本公开实施例中，获取东巴象形文字的待识别图像，可以是通过终端中的图像采集装置拍摄包括东巴象形文字的图片，还可以是获取来自网络或者终端图库中东巴象形文字的图片。

在本公开实施例中，基于深度残差网络模型对待识别图像进行特征识别，从而确定东巴象形文字对应的文字释义。在本公开实施例中，采用ResNet模型作为基准模型，ResNet模型包含残差连接（Residual Connection）结构，能够改善网络加深带来的梯度消失，有效提取更多的图像细节特征。

根据本公开实施例，采用改进的ResNet模型，获取包括东巴象形文字的待识别图像，基于改进的ResNet模型对待识别图像进行特征识别，改进的ResNet模型包括至少一个残差跳跃连接结构，能够有效利用特征图像，降低网络参数量和复杂度，确定东巴象形文字对应的文字释义，提高东巴象形文字识别的准确率。

图2是根据本公开一示例性实施例示出的东巴象形文字识别网络框架图，改进的ResNet模型中包括输入层、特征提取层、下采样层、以及全连接层。

在本公开实施例中，改进的ResNet模型输入层输入图像的分辨率可以是64×64，也可以是其它分辨率的图像，例如，80×80、112×112等。可以理解地，输入图像可以是单通道图像，也可以是多通道图像。特征提取层，由残差跳跃连接结构堆叠而成，能够解决神经网络随着深度增加出现性能退化的问题。将神经网络的恒等映射H(x)=x设计为H(x)=F(x)+x，能够将神经网络难学习的恒等映射转化为容易学习的残差映射F(x)= H(x)-x，并且F(x)对输出变化更加敏感，参数的调整幅度更大，从而加快学习速度，提高网络的优化性能。

在本公开实施例中，改进的ResNet模型将最大池化层作为下采样层，能够使输入的特征图经过最大池化层后尺寸缩减。最大池化层的大小可以是2×2，也可以为其它大小，例如3×3、4×4等。例如，最大池化层大小为2×2，步长为2时，经过该最大池化层的特征图尺寸缩减为输入的特征图尺寸的二分之一。最大池化层大小为4×4，步长为4时，其可将输入的特征图大小缩减为原来的四分之一。可以理解地，下采样层也可以选择平均池化、混合池化等。

在本公开实施例中，全连接层用于将下采样后的特征图像进行特征转换，以识别东巴象形文字的中文释义。

参照图2，本公开实施例中的改进的ResNet模型在进行东巴象形文字的识别时，输入的待识别东巴象形文字图像为64×64×1，即图像大小为64×64，通道数为1。最大池化层大小为2×2，步长为2。输入的待识别东巴象形文字图像经过特征提取层进行特征提取，特征提取层由2个残差跳跃连接组成，得到第一特征图像为64×64×64。第一特征图像经过最大池化层进行下采样，得到特征图像32×32×64。经过特征提取层进行特征提取，特征提取层由2个残差跳跃连接组成，得到第一特征图像为32×32×128。经过最大池化层进行下采样，得到特征图像16×16×128。再经过特征提取层进行特征提取，特征提取层由4个残差跳跃连接组成，得到第一特征图像16×16×256，再经过最大池化层进行下采样，得到特征图像8×8×256。经过特征提取层进行特征提取，特征提取层由4个残差跳跃连接组成，得到第一特征图像8×8×512。经过最大池化层进行下采样，得到特征图像4×4×512。经过特征提取层进行特征提取，特征提取层由4个残差跳跃连接组成，得到第一特征图像4×4×1024。再经过平均池化层整合该第一特征图像（4×4×1024），得到第二特征图像1×1×1024，这里选用的平均池化层大小为4×4，步长为4，最后通过全连接层对第二特征图像进行特征转换，得到第三特征图像，并基于第三特征图像得到东巴象形文字的中文释义。

在本公开实施例中，采用最大池化层来获得丰富的纹理特征。最大池化层的公式可以表示为：

其中，y

根据本公开实施例，通过改进的ResNet模型中采用最大池化层实现下采样，提取特征图局部区域内的像素最大值，降低特征图维度，减少网络模型的参数量，防止过拟合现象的发生，降低特征图背景的无关信息，使网络模型提取更多有用的前景特征，降低背景特征干扰。

在本公开实施例中，改进的ResNet模型基于多个卷积层分别提取待识别图像的第一特征图像，通过最大池化层对第一特征图像进行下采样。基于平均池化层，整合相邻卷积层输出的第一特征图像中的特征信息，得到第二特征图像。平均池化层的公式可以表示为：

其中，y

图3是根据本公开一示例性实施例示出的残差跳跃连接结构示意图，参照图3，残差映射F(x)的公式可以表示为F(x)= W

根据本公开实施例，残差跳跃连接结构包括多个相邻堆叠的卷积层，在有效重复利用特征图的同时，降低网络参数量和复杂度。

在本公开实施例中，残差跳跃连接结构中选用的卷积核可以包括多个3×3卷积核，东巴象形文字字数多、字形相似，单个3×3卷积核能够捕获特征图像素四周的信息，多个3×3卷积核的叠加能够降低计算量，增加ResNet模型网络深度，增强特征提取能力，改善对东巴象形文字的识别效果。并且对卷积层执行批量归一化（Batch Normalization）操作，并使用修正线性单元ReLU（Rectified Linear Units）f(x)=max(0,x)作为激活函数，增强网络的非线性表达能力，在x>0时保持梯度不衰减，缓解网络出现的梯度消失问题，防止网络过拟合，加快网络训练速度。

图4是根据本公开一示例性实施例示出的一种训练深度残差网络模型方法的流程图，如图4所示，该方法包括以下步骤。

在步骤S201中，获取训练样本与测试样本，其中，训练样本与测试样本中包括多个东巴象形文字图像。

在步骤S202中，利用训练样本对深度残差网络模型进行多次迭代训练，并利用测试样本对深度残差网络模型进行评估，得到深度残差网络模型。

在本公开实施例中，基于训练样本训练改进的ResNet模型，改进的ResNet模型的输入为多个东巴象形文字的图像，模型的输出为多个东巴象形文字的图像分别对应的文字释义。在数据集中随机选取多个图像计算其均值和方差，然后将图像分辨率归一化处理后输入网络。随机选取数据集图片总数的80%作为训练样本，其余20%的图片作为测试样本。

根据本公开实施例，利用训练样本对改进的ResNet模型进行多次迭代训练，并利用测试样本对改进的ResNet模型进行评估，得到最优网络模型，有效提高模型识别质量。

图5是根据本公开一示例性实施例示出的一种获取训练样本与测试样本方法的流程图，如图5所示，该方法包括以下步骤。

在步骤S301中，基于东巴象形文字的书写规律，创建东巴象形文字对应的同属异体字，其中，具有相同文字释义的东巴象形文字对应至少一个同属异体字。

在步骤S302中，将多个同属异体字确定为训练样本与测试样本。

在本公开实施例中，根据东巴象形文字字典中象形文字的书写规律，采用人工仿写等方法创建具有相同文字释义的东巴象形文字对应的至少一个同属异体字，将多个东巴象形文字及其分别对应的至少一个异体字确定为训练样本以及测试样本。

图6是根据本公开一示例性实施例示出的创建同一东巴象形文字对应的多个异体字示意图，如图6所示，每一行中包括图片同属异体字，共有相同的释义，例如，第一行图片中的东巴象形文字对应的文字释义为“云”，第二行图片中的东巴象形文字对应的文字释义为“石头”，第三行图片中的东巴象形文字对应的文字释义为“背靠”。

根据本公开实施例，基于训练样本训练深度残差网络模型，创建具有相同文字释义的同一东巴象形文字对应的多个同属异体字，将东巴象形文字及其对应的多个异体字确定为训练样本，有效扩充了训练数据集的规模，解决了东巴象形文字的异体字问题，增加了可识别东巴象形文字的数量。

图7是根据本公开一示例性实施例示出的利用训练样本对深度残差网络模型进行多次迭代训练，并利用测试样本对深度残差网络模型进行评估，得到深度残差网络模型方法的流程图，如图7所示，该方法包括以下步骤。

在步骤S401中，基于梯度优化函数，利用训练样本对深度残差网络模型进行多次迭代训练，梯度优化函数包括适应性矩估计函数。

在步骤S402中，基于损失函数，利用测试样本对深度残差网络模型进行评估，损失函数包括交叉熵函数。

在本公开实施例中，梯度优化函数选择适应性矩估计（Adaptive momentestimation，Adam）函数，公式如下：

其中，g

在本公开实施例中，损失函数使用交叉熵函数，可以如下式所示：

其中，x

图8是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别方法的流程图，如图8所示，该方法包括以下步骤。

在步骤S501中，获取待识别图像，待识别图像中包括东巴象形文字。

在步骤S502中，对待识别图像进行预处理。

在步骤S503中，基于深度残差网络模型对待识别图像进行特征识别，得到东巴象形文字对应的文字释义，深度残差网络模型包括至少一个残差跳跃连接结构，残差跳跃连接结构包括多个相邻堆叠的卷积层。

在本公开实施例中，基于ResNet模型对包括东巴象形文字的待识别图像进行特征识别，确定东巴象形文字对应的文字释义。对待处理图像进行预处理，以在模型训练时，提高东巴象形文字数据集的质量，从而提高东巴象形文字识别的准确率。

对待识别图像进行预处理包括对待识别图像的灰度化处理，黑白两种颜色反差较大，使用加权平均值法进行图像灰度化处理，能够去除图像的颜色信息，将三通道的彩色图像转换成单通道的灰度图像，提高东巴象形文字识别的效果。灰度化公式可以如下式所示。

其中，R

对待识别图像进行预处理包括对待识别图像的二值化处理，二值化公式如下所示。

其中，b

对待识别图像进行预处理包括对待识别图像尺寸的归一化处理，在本公开实施例中，基于像素区域关系重采样法进行尺寸归一化操作，首先计算下式：

其中，Y

对待识别图像进行预处理包括对待识别图像的编码标注，编码标注具体可以理解用于标注目标文字图像含义的信息，可以是计算机可直接识别的二进制数，也可以是阿拉伯数字或文字等类型的信息。根据目标文字图像的实际含义，对目标文字图像进行标注，生成各目标文字图像的标注信息，实现对待识别图像的编码标注。

表1示出了本公开实施例的ResNet网络模型与残差加传统池化、无残差加最大池化网络模型进行识别效果对比。

表1

从表1可以看出，本公开实施例的ResNet网络模型的识别准确率相较于残差连接加传统池化的网络模型提高了0.54%，相较于无残差连接加最大池化下采样的网络模型提高了1.01%，提高了对于东巴象形文字的识别准确率。

表2示出了本公开实施例的ResNet网络模型与ResNet18网络模型、VGGNet网络模型、20层ResNet网络模型以及ResNet34网络模型识别效果对比。

表2

从表2中可以看出，本公开实施例的ResNet网络模型识别准确率最高，相较于ResNet18网络模型提高了0.43%，相较于VGGNet网络模型提高了0.31%，相较于20层ResNet网络模型提高了0.95%，34层网络模型的识别准确率低于本公开实施例的ResNet网络模型。

根据本公开实施例，采用ResNet模型作为改进的网络结构，获取包括东巴象形文字的待识别图像，基于深度残差网络模型对待识别图像进行特征识别，深度残差网络模型包括至少一个残差跳跃连接结构，能够有效利用特征图，降低网络参数量和复杂度，并确定东巴象形文字对应的文字释义，提高东巴象形文字识别的准确率。

在一些实施例中，将本公开实施例的ResNet模型封装成安卓系统中应用，实现通过终端利用应用拍照或导入识别东巴象形文字，增强了模型使用的应用广泛性和便捷性。

图9a-图9b示出了移动终端中识别东巴象形文字的应用示意图，应用界面可以是以东巴象形文字作为背景，可以有“拍照”和“导入”按钮，点击“拍照”按钮可以调用手机相机拍摄东巴象形文字并识别，点击“导入”按钮可以导入手机相册中的东巴象形文字图片并识别。图9a显示通过“拍照”方式得到“太阳”的识别结果，图9b显示通过“导入”方式得到“太阳”的识别结果。

根据本公开实施例，利用ResNet模型进行东巴象形文字识别准确率高，识别速度非常快。

基于相同的构思，本公开实施例还提供一种基于卷积神经网络的东巴象形文字识别装置。

可以理解的是，本公开实施例提供的装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图10是根据本公开一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别装置框图。参照图10，基于卷积神经网络的东巴象形文字识别装置100包括：获取单元101和确定单元102。

获取单元101，用于获取待识别图像，待识别图像中包括东巴象形文字。

确定单元102，用于基于深度残差网络模型对待识别图像进行特征识别，得到东巴象形文字对应的文字释义，深度残差网络模型包括至少一个残差跳跃连接结构，残差跳跃连接结构包括多个相邻堆叠的卷积层。

在一些实施例中，深度残差网络模型包括多个卷积层以及多个最大池化层，多个卷积层用于提取待识别图像的第一特征图像；最大池化层用于对待识别图像的第一特征图像进行下采样。

在一些实施例中，深度残差网络模型还包括平均池化层以及全连接层，确定单元采用如下方式基于深度残差网络模型对待识别图像进行特征识别，得到东巴象形文字对应的文字释义：基于平均池化层整合相邻卷积层输出的第一特征图像中的特征信息，得到第二特征图像；通过全连接层对第二特征图像进行特征转换，得到第三特征图像；基于第三特征图像，得到东巴象形文字对应的文字释义。

在一些实施例中，深度残差网络模型的输入为多个东巴象形文字图像，深度残差网络模型的输出为多个东巴象形文字图像分别对应的文字释义，深度残差网络模型采用如下方式训练得到：获取训练样本与测试样本，其中，训练样本与测试样本中包括多个东巴象形文字图像；利用训练样本对深度残差网络模型进行多次迭代训练，并利用测试样本对深度残差网络模型进行评估，得到深度残差网络模型。

在一些实施例中，获取训练样本与测试样本，包括：基于东巴象形文字的书写规律，创建东巴象形文字对应的同属异体字，其中，具有相同文字释义的东巴象形文字对应至少一个同属异体字；将多个同属异体字确定为训练样本与测试样本。

在一些实施例中，利用训练样本对深度残差网络模型进行多次迭代训练，并利用测试样本对深度残差网络模型进行评估，得到深度残差网络模型，包括：基于梯度优化函数，利用训练样本对深度残差网络模型进行多次迭代训练，梯度优化函数包括适应性矩估计函数；以及基于损失函数，利用测试样本对深度残差网络模型进行评估，损失函数包括交叉熵函数。

在一些实施例中，残差跳跃连接结构还包括：批量归一化层以及修正线性单元层，批量归一化层用于对卷积层执行批量归一化操作，修正线性单元用于作为残差跳跃连接结构的激活函数。

图11是根据本公开又一示例性实施例示出的一种基于卷积神经网络的东巴象形文字识别装置框图，基于卷积神经网络的东巴象形文字识别装置100还包括：预处理单元103。

预处理单元103，用于对待识别图像进行预处理，预处理包括以下至少一种方式：对待识别图像中包括的文字进行字符裁剪、进行待识别图像的灰度化处理、进行待识别图像的二值化处理、待识别图像的尺寸归一化处理以及对所述待识别图像的编码标注。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图12是根据本公开一示例性实施例示出的一种用于基于卷积神经网络的东巴象形文字识别的装置200的框图。例如，装置200可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图12，装置200可以包括以下一个或多个组件：处理组件202，存储器204，电力组件206，多媒体组件208，音频组件210，输入/输出（I/O）的接口212，传感器组件214，以及通信组件216。

处理组件202通常控制装置200的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件202可以包括一个或多个处理器220来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件202可以包括一个或多个模块，便于处理组件202和其他组件之间的交互。例如，处理组件202可以包括多媒体模块，以方便多媒体组件208和处理组件202之间的交互。

存储器204被配置为存储各种类型的数据以支持在装置200的操作。这些数据的示例包括用于在装置200上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器204可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电力组件206为装置200的各种组件提供电力。电力组件206可以包括电源管理系统，一个或多个电源，及其他与为装置200生成、管理和分配电力相关联的组件。

多媒体组件208包括在所述装置200和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件208包括一个前置摄像头和/或后置摄像头。当装置200处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件210被配置为输出和/或输入音频信号。例如，音频组件210包括一个麦克风（MIC），当装置200处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器204或经由通信组件216发送。在一些实施例中，音频组件210还包括一个扬声器，用于输出音频信号。

I/O接口212为处理组件202和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件214包括一个或多个传感器，用于为装置200提供各个方面的状态评估。例如，传感器组件214可以检测到装置200的打开/关闭状态，组件的相对定位，例如所述组件为装置200的显示器和小键盘，传感器组件214还可以检测装置200或装置200一个组件的位置改变，用户与装置200接触的存在或不存在，装置200方位或加速/减速和装置200的温度变化。传感器组件214可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件214还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件214还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件216被配置为便于装置200和其他设备之间有线或无线方式的通信。装置200可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件216经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件216还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，装置200可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器204，上述指令可由装置200的处理器220执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，除非有特殊说明，“连接”包括两者之间不存在其他构件的直接连接，也包括两者之间存在其他元件的间接连接。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利范围指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利范围来限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于卷积神经网络的东巴象形文字识别方法及装置 [P] . 中国专利： CN113837186A . 2021-12-24
2. 一种基于三维卷积神经网络的驾驶员动作识别方法及装置 [P] . 中国专利： CN110543848B . 2022.02.15
3. Pictogram recognition apparatus, pictogram recognition system, and pictogram recognition method [P] . 美国专利： US10521690B2 . 2019-12-31

机译：象形文字识别装置，象形文字识别系统和象形文字识别方法
4. CONVOLUTIONAL NEURAL NETWORK-BASED INTENTION RECOGNITION METHOD, APPARATUS, DEVICE, AND MEDIUM [P] . 世界知识产权组织专利： WO2020140612A1 . 2020-07-09

机译：基于卷积神经网络的意图识别方法，装置，装置和介质
5. Method and apparatus for motion identification based on 3D convolution neural network [P] . JP6920771B2 . 2021-08-18

机译：基于3D卷积神经网络的运动识别方法和装置