首页> 中国专利> 基于超参数搜索和二阶段训练的场景文字识别方法及系统

基于超参数搜索和二阶段训练的场景文字识别方法及系统

摘要

本发明公布了一种基于超参数搜索和二阶段训练的场景文字识别方法及系统,包括最佳训练超参数搜索、二阶段训练和场景文字识别;基于对场景文字识别训练涉及的因素和超参数进行分析,建立搜索空间;基于该搜索空间,使用进化算法和代理任务建立最佳训练超参数搜索算法,搜索得到最优训练参数;再采用二阶段训练方式:通过使用辅助解码器指导编码器的学习过程增强编码器的图像特征提取能力,在模型训练过程中先后经过两种监督,提高场景文字的识别精度。本发明方法简单方便,且场景文字识别精度高。

著录项

  • 公开/公告号CN112990196A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 北京大学;

    申请/专利号CN202110279301.2

  • 发明设计人 王勇涛;褚孝杰;汤帜;

    申请日2021-03-16

  • 分类号G06K9/32(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11360 北京万象新悦知识产权代理有限公司;

  • 代理人黄凤茹

  • 地址 100871 北京市海淀区颐和园路5号

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明属于文本识别技术领域,涉及计算机视觉及深度学习技术,尤其涉及一种基于训练超参数搜索和二阶段训练策略的场景文本识别方法及其系统。

背景技术

从日常生活场景中读取文本对于场景理解具有重要意义,可以为多种应用提供服务,例如车牌号识别,多语言文本翻译和自动驾驶。这些年来,基于深度神经网络的飞速发展,场景文字识别取得了很大的进展,大多数最新的场景文字识别方法都使用深度学习算法。

大多数最新的场景文本识别方法都建立在通用编码器-解码器框架的深度神经网络上。更具体地说,该框架的编码器从输入图像中提取特征向量序列,然后利用基于连接时序分类解码器或基于带注意力机制的循环卷积网络的解码器基于提取的视觉特征向量序列来预测字符序列。根据解码器的种类,它们大致可分为两类。一类是基于连接时序分类的方法,例如CRNN(An end-to-end trainable neural network for image-based sequencerecognition and its application to scene text recognition)、STAR-Net(STAR-Net:A spatial attention residue network for scene text recognition)、RARE(Robustscene text recognition with automatic rectification)、GTC(GTC:Guided Trainingof CTC towards Efficient and Accurate Scene Text Recognition)。另一类是基于注意力机制的方法,例如ASTER(ASTER:an attentional scene text recognizer withflexible rectification)、SAR(Show,attend and read:A simple and strong baselinefor irregular text recognition)、RobustScanner(RobustScanner:DynamicallyEnhancing Positional Clues for Robust Text Recognition)。由于基于注意力的解码是非并行解码,基于该解码器的方法的识别过程较慢。而基于连接时序分类的方法的解码是并行解码,因而识别速度较快。

训练方法对于基于深度学习的方法的最终性能来说至关重要。现有的基于连接时序分类的场景文字识别方法大多基于一阶段训练流程并直接使用连接时序分类损失函数进行监督训练,但该损失函数会误导模型的特征对齐和特征表示的训练,从而影响方法的识别精度。当前基于深度学习的场景文本识别方法都是通过人工手动尝试的可能组合来调整训练方法中的超参数。通过的手动调整来找到最佳的训练方法是效率低下的,并很大程度上取决于人类的经验。受限于机器算力和人力资源,手动调整的超参数难以穷举所有可能,手动找到的训练方法通常不是最优的,因而最终方法的识别准确率仍有提升空间。

因此,现有的基于连接时序分类的方法对于场景文字识别,技术上还存在一定瓶颈,识别准确率受限。

发明内容

为了克服上述现有技术的不足,本发明提供一种基于训练超参数搜索和二阶段训练策略的场景文字的识别方法及其系统,提高场景文字的识别精度。

本发明首先提出了一种最佳训练超参数的搜索算法:基于对场景文字识别算法中训练涉及的各种因素和超参数进行分析,建立一个搜索空间。基于该搜索空间,使用进化算法和代理任务来找到最佳训练方法。通过该搜索算法可以减少实现场景文字识别算法所需的机器算力和人力资源,并通过寻找更优参数的训练方法以提高场景文字识别算法的识别精度。在搜索得到的最优训练参数的基础上,采用二阶段训练方式:通过使用辅助解码器指导编码器的学习过程增强编码器的图像特征提取能力,在模型训练过程中先后经过两种监督,克服了现有方法中使用单一的连接时序分类损失函数监督编码器更新自身权重的不足,从而提高场景文字的识别精度。

本发明的技术方案是:

一种基于训练超参数搜索和二阶段训练策略的场景文字识别方法,包括以下步骤:

1)收集训练所需的由场景文字图片和对应的文字标签组成的训练数据集。

其中数据集的一部分是依据少量真实图像仿真生成获得;而另一部分则是自然场景下的实际拍摄图像,通过人工标注的形式获得图像中的文本标签。

2)构建训练参数搜索空间,搜索空间中包含训练场景文字识别模型所涉及的各种超参数(如来自不同数据集的数据比例、输入图片的色彩格式、图像预处理方式、模型预测所使用的字符集种类、初始学习率、学习率变化规律、优化器等)

3)使用进化算法和代理任务搜索得到最优训练超参数;包括如下步骤:

3.1)搭建基于连接时序分类和编码器-解码器结构的神经网络代理模型;

与步骤4)搭建的模型相比,该代理模型参数量更少,训练速度更快。

3.2)构建超参数验证代理任务:即使用3.1)中构建的代理模型在代理训练集上进行少量迭代训练(迭代轮次为正常训练的1/6),并使用代理测试集进行测试,得到识别准确率并作为评判超参数优劣的指标;

与步骤5)所使用的训练流程相比,该代理任务将步骤1)中获得的训练集分成两部分:代理训练集和代理测试集;代理训练集用于代理任务训练,代理测试集用于评估训练超参数的效果;并且该代理任务缩短了训练所需的迭代次数。

3.3)使用随机算法生成候选训练超参数。

3.4)对于候选中的每一个训练超参数,用3.1)构建的神经网络代理模型在3.2)的代理任务上进行训练并测试。

3.5)使用代理模型在代理测试集上的识别准确率来衡量训练超参数的优劣,对所有候选训练超参数根据识别准确率进行排序。

3.6)若搜索轮数并未达到设置的阈值,则从排序靠前的候选超参数中随机抽选一个超参数进行随机变化或随机抽选两个超参数进行组合,得到新的候选训练超参数并转至步骤3.4);否则执行步骤3.7)。

3.7)使用步骤3.5)的评价指标取排序最高的候选超参数作为搜索结果,得到最优训练超参数。

4)搭建基于连接时序分类和编码器-解码器结构的神经网络模型;

5)使用步骤1)中获得的训练集,对步骤4)搭建的模型分两阶段进行训练,得到训练好的模型;除损失函数外,每一阶段的训练超参数均使用步骤3)搜索得到的最优训练超参数。

具体而言,训练过程如下:将训练集中的图片和标签输入模型中,数据在模型的神经网络层间进行前向传播得到预测的字符序列,使用损失函数对预测的字符序列和标签计算损失值,并利用该损失值进行反向传播得到梯度,模型基于梯度不断更新自身权重。

特别的,对于步骤5),本方法对该模型训练分为两个阶段:

5.1)在第一阶段,采用基于注意力机制的解码器和使用交叉熵损失函数进行监督训练;

本方法在步骤4)中搭建的模型的解码器采用基于注意力机制的解码器,使用交叉熵损失函数进行监督训练,得到第一阶段训练好的模型。

5.2)保留在步骤4)中搭建模型的编码器的权重,模型的解码器改为采用基于连接时序分类的解码器;

对于第一阶段训练好的模型,将其编码器的权重保留,并将基于注意力机制的解码器改为采用基于连接时序分类的解码器,得到的模型用于第二阶段训练。

5.3)在第二阶段,对步骤5.2)得到的模型使用连接时序分类损失函数进行监督训练,得到训练好的模型。

6)将场景文字图像送入步骤5)中得到的训练好的模型,模型中的编码器将图像编码成向量序列,模型中的解码器基于该向量序列预测出字符序列,得到识别结果。

本发明具体实施时,根据上述方法实现了一种基于训练超参数搜索和二阶段训练策略的场景文本识别器,该识别器包含三个部分:(1)训练超参数搜索部分;(2)二阶段训练部分;(3)场景文字识别部分。其中,训练超参数搜索部分用于得到最优训练超参数,二阶段训练部分部分使用最优训练超参数对神经网络模型进行训练得到可用于识别的场景文本识别器,场景文字识别部分使用已识别器进行图像文本字符预测。特别的,在执行完第一、第二部分得到场景文本识别器之后,执行场景文字识别任务时无需再次执行第一第二部分的步骤,可以直接使用第三部分进行文本字符预测。

训练超参数搜索部分包含三个主要模块:训练参数搜索空间构建模块、候选训练超参数生成模块和训练超参数评价模块。训练参数搜索空间构建模块用于构建包含训练场景文字识别模型各种超参数的搜索空间;候选训练超参数生成模块用于在超参数的搜索空间范围内生成训练超参数候选项;训练超参数评价模块用于评价训练超参数候选项的优劣。特别的,训练超参数评价模块还包含三个子模块:(1)代理神经网络模型构建块用于构建待训练的代理模型;(2)代理数据集构建快用于构建代理训练集和测试集合;(3)超参数验证代理任务执行模块使用代理训练集训练代理模型并使用代理测试集测试该模型得到文本识别准确率,并以此作为评价训练超参数候选项优劣的指标。

二阶段训练部分包含五个主要模块:基于连接时序分类和编码器-解码器结构的神经网络模型搭建模块、神经网络模型解码器变换模块、交叉熵损失函数监督训练模块、第一阶段代理模型转换模块、连接时序分类损失函数监督训练模块、连接时序分类损失函数监督训练模块。

基于连接时序分类和编码器-解码器结构的神经网络模型搭建模块用于搭建可用于最终场景文字字符预测的基于连接时序分类和编码器-解码器结构的神经网络模型架构;神经网络模型解码器变换模块用于将基于连接时序分类和编码器-解码器结构的神经网络模型架构转换为第一阶段代理模型;交叉熵损失函数监督训练模块用于训练第一阶段代理模型并得到训练后的编码器权重。第一阶段代理模型转换模块用于将训练后的第一阶段代理模型转化为基于连接时序分类和编码器-解码器结构的神经网络模型。连接时序分类损失函数监督训练模块用于进一步训练基于连接时序分类和编码器-解码器结构的神经网络模型。

场景文字识别部分的只包含场景文字图像字符预测模块,该模块使用已训练的基于连接时序分类和编码器-解码器结构的神经网络模型对输入图像进行文本字符预测。

与现有技术相比,本发明的有益效果是:

本发明提供一种基于训练超参数搜索和二阶段训练策略的场景文字的识别方法:训练超参数搜索算法能够高效的搜索到最优训练超参数,二阶段训练则借助辅助解码器指导编码器的学习过程,从而增强编码器的图像特征提取能力,从而提高场景文字的识别精度。

本发明方法改变了常规采用手动调整训练超参数、单阶段的训练方法。首先使用训练超参数搜索算法能够高效的搜索到最优训练超参数,搜索空间可扩展性强,代理任务及搜索算法执行时间相对较短,可以减少调整训练超参数所需的人力和机器算力资源。并使用二阶段训练流程,在模型训练的第一阶段引入基于注意力的机制的解码器进行辅助训练,在第二阶段保持原本网络模型的架构,可以应用于多种基于连接时序分类的场景文字识别器。本发明方法简单方便,且场景文字识别精度高。在场景文字识别的多个测试集上的实施结果表明,对于RARE模型,在模型结构不变的情况下,使用本发明提供的训练方法可以将场景文字识别精度由85.97%提升至90.98%。

附图说明

图1为现有的场景文字识别方法的流程框图。

图2为本发明实施例中第一阶段训练所使用的识别网络结构示意图。

图3为本发明实施例中第二阶段训练所使用的识别网络结构示意图。

图4为本发明实施例中第一阶段的训练模型转换为第二阶段模型的操作框图。

图5为本发明实施例提供的基于训练超参数搜索和二阶段训练策略的场景文本识别器中训练超参数搜索部分的结构框图。

图6为场景文本识别器中训练超参数搜索部分的训练超参数评价模块的结构框图。

图7为本发明实施例提供的基于训练超参数搜索和二阶段训练策略的场景文本识别器中二阶段训练部分的结构框图。

具体实施方式

下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。

本发明提出了一种基于训练超参数搜索和二阶段训练策略的场景文字的识别方法,对用于基于连接时序分类的场景文本识别器采用两阶段训练方式。本发明实例所使用的编码器-解码器框架的网络结构如图1所示。

1)本发明实例使用的用于场景文本识别的训练图像数据集(包括真实图像数据集和仿真图像数据集)与SAR论文(https://ojs.aaai.org/index.php/AAAI/article/download/4881/4754)一致。其中,真实图像数据集为:IIIT5K-Words训练集、Street ViewText训练集、ICDAR2013训练集、ICDAR2015训练集;仿真图像数据集为:Syn90k数据集、SynthText数据集和SynthAdd数据集。

2)本发明实例所使用的训练超参数搜索空间如下:

2.1)表示来自真实图像数据集的数据的比例:取值从0以0.03125步长增长到0.5。

2.2)图片的颜色类型:灰度图或红绿蓝彩色图。

2.3)在调整输入图像大小时是否保持宽高比。

2.4)模型解码器预测所使用的字符集:数字及小写字母集;数字及大小写字母集;数字及小写字母及标点符号集;数字及大小写字母及标点符号集。

2.5)学习率变化策略:随余弦曲线衰减或多步衰减;多步衰减有3个选择:在训练至60%时、或分别在60%和90%时,或分别在30%、60%、90%的迭代次数时将学习率缩小十倍。

2.6)初始训练时学习率线性递增的迭代次数:取值为总训练迭代次数的1%、2%、5%和10%。

2.7)优化器:Adadelta优化器或Adam优化器。

2.8)初始学习率:对于Adadelta优化器,初始学习率的可选值为2、1.5、1和0.5;对于Adam优化器,初始学习率的可选值为0.005、0.002、0.001、0.0005、0.0002和0.0001。

3)使用进化算法和代理任务搜索得到最优训练超参数。

3.1)搭建基于连接时序分类和编码器-解码器结构的神经网络代理模型。具体而言,我们搭建了论文(https://arxiv.org/pdf/1904.01906.pdf)中编号为15的模型,并将编码器和解码器的隐含层维度设为256。

3.2)构建代理任务。将步骤1)中的得到的训练数据集中,随机取一半数据作为代理训练集,而来自于自然场景实际拍摄的另一半数据则作为代理测试集;代理训练集用于代理任务训练,代理测试集用于评估训练超参数的效果;该代理任务训练所需的迭代次数设置为60000。

3.3)使用随机算法生成10个候选训练超参数。

3.4)对于候选中的每一个训练超参数,让3.1)构建的代理模型在3.2)的代理任务上进行训练并测试。

3.5)使用代理模型在代理测试集上的识别准确率来衡量训练超参数的优劣,对所有候选训练超参数进行排序。

3.6)若搜索轮数未达到10轮,则选择候选超参数中较好的前5个选项进行随机变化和随机组合,得到新的候选训练超参数并转至步骤3.4);否则转至3.7)。

3.7)取候选训练超参数中最好的候选项作为搜索结果,得到最优训练超参数。最优训练超参数细节如下:训练单批次大小为256;总迭代次数为300000;真实数据集比例为0.15625;输入图像为红绿蓝彩色图像并直接缩放至32x100大小;模型预测所使用的字符集为数字及小写字母集;使用Adam优化器在训练过程中进行模型优化;学习率在初始的1500迭代轮次内由0线性增长至0.001,并在第180000次迭代后降至0.0001。

4)搭建基于连接时序分类和编码器-解码器结构的神经网络模型。具体而言,我们搭建了论文(https://arxiv.org/pdf/1904.01906.pdf)中编号为23的模型,并将编码器和解码器的隐含层维度设为512。

5)使用步骤1)中获得的训练集,对搭建的模型分两阶段进行训练,得到训练好的模型;

该步骤的具体细节如下:

训练过程如下:将训练集中的图片和标签输入模型中,数据在模型的神经网络层间进行前向传播得到预测的字符序列,使用损失函数对预测的字符序列和标签计算损失值,并利用该损失值进行反向传播得到梯度,模型基于梯度不断更新自身权重。除损失函数外,每一阶段的训练超参数均使用步骤3)搜索得到的最优训练超参数。

由于基于连接时序分类的方法所使用的损失函数会误导模型的特征对齐和特征表示训练的问题,本发明采用将模型训练分为两阶段,并在第一阶段引入基于注意力机制的解码器辅助编码器并使用交叉熵损失函数进行监督训练,增强编码器的图像特征提取能力。具体而言,本方法将步骤4)搭建的模型中的基于连接时序分类的解码器换成基于注意力机制的解码器,使用交叉熵损失函数进行监督训练,其结构如图2所示。

通过第一阶段训练,本发明得到了训练好的基于注意力机制的模型(为了叙述方便也将其称作“第一阶段代理模型”)。

在第二阶段开始前,本发明先将“第一阶段代理模型”通过图4所示的两个操作转换为原始基于连接时序分类的模型,具体操作为:

1)将“第一阶段代理模型”中的编码器的权重保留;

2)将“第一阶段代理模型”中基于注意力的解码器结构采用基于连接时序分类的解码器结构。

转换后的模型结构如图3所示。之后在第二阶段,本发明方法使用连接时序分类损失函数进行监督训练,得到训练好的模型。训练好的识别器模型可用于场景文字识别。具体而言,识别器模型的输入为包含单行场景文字的图像,模型中的编码器将图像编码成向量序列,解码器基于该编码后的向量序列预测出图像中的字符序列。

6)将场景文字图像送入步骤5)中得到的训练好的模型,模型中的编码器将图像编码成向量序列,模型中的解码器基于该向量序列预测出字符序列,得到识别结果。

本发明具体实施时,根据上述方法实现了一种基于训练超参数搜索和二阶段训练策略的场景文本识别系统(识别器),该识别器包含三个部分:(1)训练超参数搜索部分;(2)二阶段训练部分;(3)场景文字识别部分。其中,训练超参数搜索部分用于得到最优训练超参数,二阶段训练部分部分使用最优训练超参数对神经网络模型进行训练得到可用于识别的场景文本识别器,场景文字识别部分使用已识别器进行图像文本字符预测。特别的,在执行完第一、第二部分得到场景文本识别器之后,执行场景文字识别任务时无需再次执行第一第二部分的步骤,可以直接使用第三部分进行文本字符预测。

图5所示为本发明实施例提供的基于训练超参数搜索和二阶段训练策略的场景文本识别器中训练超参数搜索部分的结构。训练超参数搜索部分包含三个主要模块:训练参数搜索空间构建模块、候选训练超参数生成模块和训练超参数评价模块。训练参数搜索空间构建模块用于构建包含训练场景文字识别模型各种超参数的搜索空间;候选训练超参数生成模块用于在超参数的搜索空间范围内生成训练超参数候选项;训练超参数评价模块用于评价训练超参数候选项的优劣。特别的,训练超参数评价模块还包含三个子模块:(1)代理神经网络模型构建块用于构建待训练的代理模型;(2)代理数据集构建块用于构建代理训练集和测试集合;(3)超参数验证代理任务执行模块使用代理训练集训练代理模型并使用代理测试集测试该模型得到文本识别准确率,并以此作为评价训练超参数候选项优劣的指标。图6为场景文本识别器中训练超参数搜索部分的训练超参数评价模块的结构框图。

图7所示为本发明实施例提供的基于训练超参数搜索和二阶段训练策略的场景文本识别器中二阶段训练部分的结构。二阶段训练部分包含五个主要模块:基于连接时序分类和编码器-解码器结构的神经网络模型搭建模块、神经网络模型解码器变换模块、交叉熵损失函数监督训练模块、第一阶段代理模型转换模块、连接时序分类损失函数监督训练模块、连接时序分类损失函数监督训练模块。

基于连接时序分类和编码器-解码器结构的神经网络模型搭建模块用于搭建可用于最终场景文字字符预测的基于连接时序分类和编码器-解码器结构的神经网络模型架构;神经网络模型解码器变换模块用于将基于连接时序分类和编码器-解码器结构的神经网络模型架构转换为第一阶段代理模型;交叉熵损失函数监督训练模块用于训练第一阶段代理模型并得到训练后的编码器权重。第一阶段代理模型转换模块用于将训练后的第一阶段代理模型转化为基于连接时序分类和编码器-解码器结构的神经网络模型。连接时序分类损失函数监督训练模块用于进一步训练基于连接时序分类和编码器-解码器结构的神经网络模型。

场景文字识别部分的只包含场景文字图像字符预测模块,该模块使用已训练的基于连接时序分类和编码器-解码器结构的神经网络模型对输入图像进行文本字符预测。

我们使用正确识别单张图片中所有字符序列的图片数与总图片数的比值作为衡量识别准确率的指标。使用本发明所提出的训练方法,场景文字识别的精度在多个场景文字识别测试集上均有提升。

具体的,在场景文字识别的多个测试集上的实施结果表明,在模型结构不变的情况下,使用本发明提供的训练方法可以将识别器模型在IIIT5K-Words(IIIT)测试集(

需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号