首页> 中国专利> 一种针对文本中单个字符目标的检测方法

一种针对文本中单个字符目标的检测方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种针对文本中单个字符目标的检测方法，涉及人工智能技术领域。本发明方法包括：S1、获取待检测的图像；S2、判断文本区域是否存在；S3、判断文本实例区域是否存在；S4、对一个或多个文本实例区域进行竖直投影；S5、采用基于深度学习的文本识别模型依次识别S4步骤中处理后的一个或多个文本文本实例区域；获取文本识别结果；S6、遍历按行、列划分后的文本识别结果，根据关键字进行文本匹配，提取所需的关键信息；并对关键信息进行后续的规则审判；S7、对整个过程的动作结果进行统计分析。本发明主要针对文本中单个字符目标的检测，该方法结合了深度学习方法和传统图像方法，避免漏检，满足复杂场景下的文本检测。

著录项

公开/公告号CN112541504A

专利类型发明专利
公开/公告日2021-03-23

原文格式PDF
申请/专利权人上海品览数据科技有限公司;
展开▼

申请/专利号CN202011457944.3
发明设计人谷维鑫;彭靖田;
展开▼

申请日2020-12-11
分类号G06K9/34(20060101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构31374 上海创开专利代理事务所(普通合伙);
代理人吴海燕
地址 201800 上海市嘉定区叶城路1288号6幢J638室
入库时间 2023-06-19 10:21:15

说明书

技术领域

本发明涉及人工智能技术领域领域，特别是涉及一种针对文本中单个字符目标的检测方法。

背景技术

现有的文本识别方法主要是通过基于深度学习的OCR技术来实现的，具体包括下列步骤：(1)对图片进行去噪、倾斜矫正等预处理操作，该步骤为可选操作；(2)采用基于深度学习的文本检测模型对图片进行检测；(3)根据步骤2检测到的文本区域对图片进行裁剪，得到一个或多个字符区域；(4)采用基于深度学习的文本识别模型对字符区域进行识别，得到文字识别结果。

由于现有技术的实现主要是通过基于深度学习的OCR技术，这种基于深度卷积神经网络等方法，需要对图像进行卷积、池化等下采样处理，以便进行特征提取。然而在大量的下采样过程中，随着图片尺度的逐渐变小，在图片中本就占比很小的单个字符目标可能会有“丢掉”的风险，导致字符漏检。然而，在实际的工程应用中，这些单个的字符目标可能往往是所需要识别的关键目标。如何避免单个字符目标漏检成为急需解决的技术问题。因此，针对以上问题，提供一种针对文本中单个字符目标的检测方法具有重要意义。

发明内容

本发明提供了一种针对文本中单个字符目标的检测方法，解决了以上问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明的一种针对文本中单个字符目标的检测方法，包括如下步骤：

S1、获取待检测的图像；

S2、采用基于深度学习的目标检测模型检测图像，判断文本区域是否存在，若存在则记录此条标志为1，提取图像文本区域；若不存在则记录此条标志为0，并保存相关图片，进入统计分析流程；

S3、采用基于深度学习的文本检测模型检测图片文本区域图像，判断文本实例区域是否存在，若存在则记录此条标志为1，提取一个或多个文本实例区域，以及文本实例的目标检测框的信息；若不存在则记录此条标志为0，并保存相关图片，进入统计分析流程；

S4、对一个或多个文本实例区域进行竖直投影，若存在字符间距超过一定阈值时，则对文本实例区域进行裁剪，得到更为切合的多个文本实例区域；

S5、采用基于深度学习的文本识别模型依次识别S4步骤中处理后的一个或多个文本文本实例区域；获取文本识别结果；

S6、遍历按行、列划分后的文本识别结果，根据关键字进行文本匹配，提取所需的关键信息；并对关键信息进行后续的规则审判；若满足相关规则，则记录此条标志为1；若不满足则记录此条标志为0，进入统计分析流程；

S7、对整个过程的动作结果进行统计分析，记录标志位全部为1，则审核通过，若存在标志0，则审核不通过；同时，根据标志0出现的位置获取校验不通过的原因及问题图片。

进一步地，所述S2步骤具体包括：

S21、获取不同角度、光照和图像质量的图像；

S22、采用矩形框标记文本区域所在位置；

S23、使用所述目标区域图像训练目标检测深度神经网络模型，获得目标检测模型。

进一步地，所述S3步骤具体包括：

S31、获取不同角度、光照和图像质量的文本区域图像；

S32、采用四边形标记文本实例区域所在位置；

S33、使用目标区域图像训练文本检测深度神经网络模型，获得文本检测模型。

进一步地，所述S5步骤具体包括：

S51、获取不同角度、光照和图像质量的文本实例区域图像；

S52、文本实例区域内的文本信息进行标注；

S53、使用标注的文本实例区域图像训练文本识别深度神经网络模型，获得文本识别模型。

本发明相对于现有技术包括有以下有益效果：

本发明的一种针对文本中单个字符目标的检测方法主要针对文本中单个字符目标的检测，该方法结合了深度学习方法和传统图像方法，避免漏检，满足复杂场景下的文本检测。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种针对文本中单个字符目标的检测方法的整体步骤图；

图2为本发明的一种针对文本中单个字符目标的检测方法应用的系统的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1所示，本发明的一种针对文本中单个字符目标的检测方法，包括如下步骤：

S1、获取待检测的图像；

S4、对一个或多个文本实例区域进行竖直投影，若存在字符间距超过一定阈值时，则对文本实例区域进行裁剪，得到更为切合的多个文本实例区域；

S5、采用基于深度学习的文本识别模型依次识别S4步骤中处理后的一个或多个文本文本实例区域；获取文本识别结果；

S6、遍历按行、列划分后的文本识别结果，根据关键字进行文本匹配，提取所需的关键信息。并对关键信息进行后续的规则审判。若满足相关规则，则记录此条标志为1；若不满足则记录此条标志为0，进入统计分析流程；

其中，S2步骤具体包括：

S21、获取不同角度、光照和图像质量的图像；

S22、采用矩形框标记文本区域所在位置；

S23、使用所述目标区域图像训练目标检测深度神经网络模型，获得目标检测模型。

其中，S3步骤具体包括：

S31、获取不同角度、光照和图像质量的文本区域图像；

S32、采用四边形标记文本实例区域所在位置；

S33、使用目标区域图像训练文本检测深度神经网络模型，获得文本检测模型。

其中，S5步骤具体包括：

S51、获取不同角度、光照和图像质量的文本实例区域图像；

S52、文本实例区域内的文本信息进行标注；

S53、使用标注的文本实例区域图像训练文本识别深度神经网络模型，获得文本识别模型。

如图2所示，其中，本发明主要基于检测模块、识别模块、审核模块。结构示意图。

检测模块有目标检测单元、文本检测单元、文本矫正单元构成。其中，目标检测单元的具体检测方法包括：检测模块首先将图像输入到目标检测模型，得到N个一维数组[class，score，x，y，width，height]，数组第一个元素代表对象类别，是文本区域则为1，不是则为0，数组第二个元素代表分数，数组后四个元素表征目标对象所在矩形区域，x,y代表矩形左上角点坐标，width代表矩形宽度，height代表矩形高度。每个数组均对应一个文本区域目标，以分数最大的数组作为目标检测单元的输出，然后通过矩形框位置信息从图像中提取文本区域图像，通过这样的处理有效避免了多余背景信息的干扰，提升文本实例检测和文本识别的准确率。

目标检测模型获取方法如下：

S21、训练数据准备：获取不同自然光照、不同角度拍摄的图像。

S22、数据标注：采用矩形框将文本区域在图像中标出；

S23、模型训练：采用标注好的训练数据，训练基于深度学习网络的目标检测模型(公知常识,兹不赘述)；

文本检测单元的具体检测方法包括：将文本区域图像输入到文本检测模型，得到N个一维数组，每个数组均对应一个文本实例目标，然后通过目标位置信息从文本区域图像中提取文本实例区域图像。

文本检测模型获取方法如下：

S31、训练数据准备：获取不同角度、光照和图像质量的文本区域图像；

S32、数据标注：采用四边形标记文本实例区域所在位置，特别注意的是在标注单个字符目标的时候，应当尽量将单个字符目标与其相邻的文本目标标注为一个文本实例；

S33、模型训练：采用标注好的训练数据，训练基于深度学习网络的文本检测模型；可知低维度的特征图包含低层次的语义信息，但是对于小目标的有着更精确坐标信息；高维度的特征图包含更高层次的语义信息，对于大目标有着更好的响应。故模型使用PSENet网络结构，其采用的类似特征金字塔结构能够将低层次的语义信息和高层次的语义信息联合起来，对于大目标、小目标都有不错的检测效果。初始参数设定如下：学习率为0.001，使用Adam优化策略。

文本区域矫正单元的具体矫正方法包括：对获取到的一个或多个文本实例区域进行二值化，将二值化后的文本实例区域进行竖直投影，计算根据投影结果，若存在字符间距超过一定阈值，则对文本实例区域进行裁剪，得到更为切合的多个文本实例区域；

识别模块有文本识别单元构成，其中文本识别单元的具体识别方法包括：将文本实例区域图像输入到文本识别模型，得到文本实例识别结果。

有益效果：

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种针对文本中单个字符目标的检测方法 [P] . 中国专利： CN112541504A . 2021-03-23
2. 一种用于获取失序文本中的目标字符串的方法与设备 [P] . 中国专利： CN102982012B . 2017.03.22
3. System and method for evaluating characters in an inputted search string against a character table bank comprising a predetermined number of columns that correspond to a plurality of pre-determined candidate character sets in order to provide enhanced full text search [P] . 美国专利： US7039637B2 . 2006-05-02

机译：用于针对包括预定数量的列的字符表库评估输入的搜索字符串中的字符的系统和方法，该列对应于多个预定的候选字符集，以便提供增强的全文本搜索
4. pencicillin-binding protein, nucleic acid, antibody or antibody fragment, medicament, pharmaceutical composition, uses of at least one penicillin-binding protein or fragment or variant or fragment thereof, of at least one nucleic acid and of at least one antibody or antibody fragment, in vitro antibody detection methods directed against neisseria meningitidis infection from a penicillin-binding protein, nucleic acid, antibody or an antibody fragment, pharmaceutical composition of at least one penicillin-binding protein or fragment or variant or variant thereof, of at least one nucleic acid and at least one antibody directed against neisseria meningitidis infection from a biological sample of a mammal and in vitro diagnosis of neisseria miningitidis infection from a biological sample from a mammal and monoclonal antibody [P] . BRPI0610802A2 . 2016-11-16

机译：青霉素结合蛋白，核酸，抗体或抗体片段，药物，药物组合物，至少一种青霉素结合蛋白或其片段或变异体或片段，至少一种核酸和至少一种抗体或抗体片段的用途，针对脑膜炎奈瑟菌的青霉素结合蛋白，核酸，抗体或抗体片段感染的体外抗体检测方法，至少一种青霉素结合蛋白或其片段或变异体或变异体，至少一种核酸的药物组合物酸和至少一种针对哺乳动物生物样品中脑膜炎奈瑟氏菌感染的抗体以及来自哺乳动物生物样品中的矿业性奈瑟氏球菌感染的体外诊断和单克隆抗体
5. Internet portal, and, method for providing summary information on websites (57) "internet portal, and, method for providing summary information on websites". the portal server includes the program agent configured to perform summary searches for subscribers based on internet destinations provided by subscribers, to retrieve information from such destinations based on information from the pre-programmed website (107), and to download summary information to the subscriber (119, 115). the destinations and nature of the information to be retrieved are pre-programmed. there is also a configuration and initialization interface for the subscriber to establish and initiate a summary search. in some cases, summary searches are configured for individual clients as stored templates (101) and retrieved from the server connected to the internet. also in some cases (109) the retrieved information is immediately sent to the subscriber, and in other situations such information is saved on the portal t [P] . BR0011015A . 2002-02-19

机译：因特网门户以及在网站上提供概要信息的方法（57）“因特网门户以及在网站上提供概要信息的方法”。门户网站服务器包括程序代理，该程序代理配置为根据订户提供的互联网目标对订户进行摘要搜索，并根据来自预编程网站的信息从此类目标中检索信息（107），并将摘要信息下载到订户（ 119，115）。已对要检索的信息的目的地和性质进行了预编程。还有一个配置和初始化接口，供订户建立和启动摘要搜索。在某些情况下，摘要搜索针对单个客户端配置为存储的模板（101），并从连接到Internet的服务器中检索。同样在某些情况下（109），检索到的信息会立即发送给订户，而在其他情况下，此类信息会保存在门户网站t