首页> 中国专利> 行业类别判断方法、装置、电子设备及存储介质

行业类别判断方法、装置、电子设备及存储介质

摘要

本公开提供一种行业类别判断方法及装置、电子设备、存储介质;涉及互联网技术领域。所述方法包括:获取业务主体的经营许可文本信息以及营业场所图像信息;根据经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对业务主体进行行业类别判别,得到第一行业类别;根据营业场所图像信息以及营业场所图像信息与行业类别之间的映射模型,对业务主体进行行业类别判别,得到第二行业类别;在第一行业类别与第二行业类别一致时,将第一行业类别或第二行业类别确定为业务主体的行业类别。所述方法能够解决网络业务主体在入驻认证中存在的行业类别滥选问题,从而准确判定入驻商户的行业类别,提高行业类别审核的准确率及审核效率。

著录项

  • 公开/公告号CN112183152A

    专利类型发明专利

  • 公开/公告日2021-01-05

    原文格式PDF

  • 申请/专利权人 财付通支付科技有限公司;

    申请/专利号CN201910585612.4

  • 发明设计人 邹文;

    申请日2019-07-01

  • 分类号G06K9/00(20060101);G06K9/62(20060101);G06N3/08(20060101);G06N20/00(20190101);

  • 代理机构44232 深圳市隆天联鼎知识产权代理有限公司;

  • 代理人刘抗美

  • 地址 518000 广东省深圳市南山区高新科技园科技中一路腾讯大厦8层

  • 入库时间 2023-06-19 09:24:30

说明书

技术领域

本公开涉及互联网技术领域,具体而言,涉及一种行业类别判断方法、行业类别判断装置、电子设备以及计算机可读存储介质。

背景技术

随着互联网技术的发展,基于第三方支付机构的网络交易技术得到了广泛的普及和应用。

现有的网络交易技术中,由于各种因素的影响,商户可能在入驻信息中填写的行业类别与实际所属的行业类别并不相同,例如在各行业类别的入驻费用不相同的情况下,商户为了支付较少的入驻费用而滥选类别,这严重加大了第三方支付机构对入驻信息进行人工审核的工作量和审核难度,并可能导致后续的统计、营销等相关工作产生错误数据,从而影响相关的决策判断。

因此,有必要提供一种行业类别判断方法及装置,以解决现有技术中存在的上述问题。

需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种行业类别判断方法及装置,进而在一定程度上克服由于相关技术的限制和缺陷而导致的行业类别判断不准确的问题。

根据本公开的第一方面,提供一种行业类别判断方法,包括:

获取业务主体的经营许可文本信息以及营业场所图像信息;

根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第一行业类别;

根据所述营业场所图像信息以及营业场所图像信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第二行业类别;

在所述第一行业类别与所述第二行业类别一致时,将所述第一行业类别或第二行业类别确定为所述业务主体的行业类别。

在本公开的一个实施例中,在所述根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别之前,还包括:

根据已知经营许可文本信息及对应的行业类别对神经网络模型进行训练,得到所述经营许可文本信息与行业类别之间的映射模型。

在本公开的一个实施例中,所述根据已知的经营许可文本信息及对应的行业类别对神经网络模型进行训练,得到所述经营许可文本信息与行业类别之间的映射模型,包括:

通过卷积层提取所述已知经营许可文本信息的特征点信息作为所述神经网络模型的输入;

通过卷积层提取所述行业类别的特征点信息作为所述神经网络模型的输出;

通过隐含层调整所述神经网络模型的权重值;以及

通过全连接层对各特征点信息进行分类,得到所述经营许可文本信息与行业类别之间的映射模型。

在本公开的一个实施例中,所述神经网络模型至少包括以下一种:fasttext算法模型、CNN深度学习模型和RNN深度学习模型。

在本公开的一个实施例中,在所述根据所述营业场所图像信息以及营业场所图像信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别之前,还包括:

根据已知营业场所图像信息及对应的行业类别对神经网络模型进行训练,得到所述营业场所图像信息与行业类别之间的映射模型。

在本公开的一个实施例中,所述根据已知的图像营业场所图像信息及对应的行业类别对神经网络模型进行训练,得到所述营业场所图像信息与行业类别之间的映射模型,包括:

通过卷积运算提取所述已知营业场所图像信息的特征点信息作为所述神经网络模型的输入;

通过卷积运算提取所述行业类别的特征点信息作为所述神经网络模型的输出;

通过隐含层调整所述神经网络模型的权重值;以及

通过全连接层对各特征点信息进行分类,得到所述营业场所图像信息与行业类别之间的映射模型。

在本公开的一个实施例中,所述获取业务主体的经营许可文本信息包括:

对所述业务主体的营业执照图像进行文本识别,得到所述经营许可文本信息。

在本公开的一个实施例中,所述根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第一行业类别,包括:

根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,判别所述业务主体属于各行业类别的概率值;以及

根据所述各行业类别的概率值确定所述第一行业类别。

在本公开的一个实施例中,所述行业类别判断方法还包括:

在所述第一行业类别包括所述第二行业类别时,将第二行业类别确定为所述业务主体的行业类别。

在本公开的一个实施例中,所述经营许可文本信息与行业类别之间的映射模型包括经营许可文本信息与行业类别之间的多级映射模型,则所述根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第一行业类别,包括:

根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行多级行业类别判别,得到第一行业类别。

在本公开的一个实施例中,所述根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第一行业类别,包括:

根据所述经营许可文本信息以及所述一级映射模型,对所述业务主体进行行业类别判别,得到一级行业类别;以及

根据所述经营许可文本信息以及所述二级映射模型,对所述一级行业类别进行判别,得到所述第一行业类别。

在本公开的一个实施例中,在所述第一行业类别与所述第二行业类别不一致时,根据所述经营许可文本信息与所述第二行业类别对所述经营许可文本信息与行业类别之间的映射模型进行优化。

根据本公开的第二方面,提供一种行业类别判断装置,包括:

信息获取模块,用于获取业务主体的经营许可文本信息以及营业场所图像信息;

第一行业类别获取模块,用于根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第一行业类别;

第二行业类别获取模块,用于根据所述营业场所图像信息以及营业场所图像信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第二行业类别;

行业类别确定模块,用于在所述第一行业类别与所述第二行业类别一致时,将所述第一行业类别或第二行业类别确定为所述业务主体的行业类别。

根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开示例性实施例可以具有以下部分或全部有益效果:

在本公开示例性实施方式所提供的行业类别判断方法中,首先分别根据营业执照的文本信息及店铺图像信息确定对应的行业类别,再通过比较两个行业类型的关联关系确定最终的行业类别。一方面,所述行业类别判断方法直接根据营业执照的文本信息和店铺图像信息确定对应的行业类别,解决了相关技术中商户自助选择行业类别不准确的问题,降低了第三方支付机构对商户的入驻信息进行审核的工作难度,并提高了行业类别判定的准确性;另一方面,所述行业类别判断方法中通过智能识别技术确定行业类别,解决了相关技术中确定商户的行业类别时需要进行人工审核的问题,在节省人力成本资源的同时也提高了第三方支付机构对入驻商户进行审核认证的工作效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1示出了可以应用本公开实施例的一种图像融合方法及装置的示例性系统架构的示意图;

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图;

图3示意性示出了本公开实施方式中一种行业类别判断方法的流程图;

图4示意性示出了本公开实施方式中一种经营许可文件的示意图;

图5示意性示出了本公开实施例中一种算法模型的框架结构图;

图6示意性示出了本公开实施例中一种神经网络模型训练方法的流程图;

图7示意性示出了本公开实施例中一种二级行业类别判断方法的流程图;

图8示意性示出了本公开实施方式中一种营业场所图像的示意图;

图9示意性示出了本公开实施例中另一种神经网络模型训练方法的流程图;

图10示意性示出了本公开实施方式中一种行业类别判断装置的结构图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的一种行业类别判断方法及装置的示例性应用环境的系统架构的示意图。

如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。

本公开实施例所提供的行业类别判断方法一般由服务器105执行,相应地,行业类别判断装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的行业类别判断方法也可以由终端设备101、102、103执行,相应的,行业类别判断装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是用户通过终端设备101、102、103将经营许可文本信息以及营业场所图像信息上传至服务器105,服务器通过本公开实施例所提供的行业类别判断方法对业务主体的行业类型进行判断。

图2示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是,图2示出的电子设备的计算机系统200仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图2所示,计算机系统200包括中央处理单元(CPU)201,其可以根据存储在只读存储器(ROM)202中的程序或者从存储部分208加载到随机访问存储器(RAM)203中的程序而执行各种适当的动作和处理。在RAM 203中,还存储有系统操作所需的各种程序和数据。CPU201、ROM 202以及RAM 203通过总线204彼此相连。输入/输出(I/O)接口205也连接至总线204。

以下部件连接至I/O接口205:包括键盘、鼠标等的输入部分206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分207;包括硬盘等的存储部分208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分209。通信部分209经由诸如因特网的网络执行通信处理。驱动器210也根据需要连接至I/O接口205。可拆卸介质211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器210上,以便于从其上读出的计算机程序根据需要被安装入存储部分208。

特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分209从网络上被下载和安装,和/或从可拆卸介质211被安装。在该计算机程序被中央处理单元(CPU)201执行时,执行本申请的方法和装置中限定的各种功能。在一些实施例中,计算机系统200还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。

需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现各流程图所示的各个步骤等。

以下对本公开实施例的技术方案进行详细阐述:

随着互联网技术的发展,基于第三方支付机构的网络交易技术得到了广泛的普及和应用。其中,第三方支付技术指符合特定要求(例如经济实力和信誉保障)的独立机构,通过提供与银行支付结算系统接口的交易支付平台的网络支付模式。在网络交易技术中,用户在选购商品时首先付款至第三方支付机构,第三方支付机构向对应商户发送交易信息,通知商户进行发货;在用户收到货物并进行确认后,第三方支付机构将货款转至商户账户,从而完成本次交易。其中,第三方支付机构在于商户进行入驻签约时,需要根据该商户的入驻信息判断该商户的行业类别,相关技术中的一种做法是商户自行填写所属行业类型并由第三方支付机构进行人工审核。但在实际应用中,由于各种因素的影响,商户往往入驻信息中填写的行业类别与实际所属的行业类别并不相同,例如在各行业类别的入驻费用不相同的情况下,商户为了支付较少的入驻费用而滥选类别,这严重加大了第三方支付机构对入驻信息进行人工审核的工作量和审核难度,并可能导致后续的统计、营销等相关工作产生错误数据,从而影响相关的决策判断。

基于上述问题的存在,相关技术中的一些方案已经难以满足网络交易技术中第三方支付机构对快速准确判断商户行业类别的需求。因此,本公开实施例提供了一种行业类别判断方法,参考图3所示,所述行业类别判断方法包括以下步骤:

步骤S31:获取业务主体的经营许可文本信息以及营业场所图像信息;

步骤S33:根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第一行业类别;

步骤S35:根据所述营业场所图像信息以及营业场所图像信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第二行业类别;

步骤S37:在所述第一行业类别与所述第二行业类别一致时,将所述第一行业类别或第二行业类别确定为所述业务主体的行业类别。

在本公开示例性实施方式所提供的行业类别判断方法中,首先分别根据营业执照的文本信息及店铺图像信息确定对应的行业类别,再通过比较两个行业类型的关联关系确定最终的行业类别。一方面,所述行业类别判断方法直接根据营业执照的文本信息和店铺图像信息确定对应的行业类别,解决了相关技术中商户自助选择行业类别不准确的问题,降低了第三方支付机构对商户的入驻信息进行审核的工作难度,并提高了行业类别判定的准确性;另一方面,所述行业类别判断方法中通过智能识别技术确定行业类别,解决了相关技术中确定商户的行业类别时需要进行人工审核的问题,在节省人力成本资源的同时也提高了第三方支付机构对入驻商户进行审核认证的工作效率。

本公开的实施方式首先提供一种行业类别判断方法,图3是本公开示例性实施方式中一种行业类别判断方法的流程图。参考图3所示,所述行业类别判断方法包括以下步骤:

步骤S31:获取业务主体的经营许可文本信息以及营业场所图像信息。

其中,所述业务主体指在第三方支付机构进行认证后进行签约入驻的商家,即为普通消费者用户提供交易资源(如商品、服务等)的提供者。所述经营许可文本信息可以是对商户的营业执照图像进行文本识别,得到所述文本信息。参考图4所示,为商户的营业执照图像示意图;在营业执照图像中,通常包括企业名称、企业类型、企业住所、法定代表人、注册资本、成立日期、营业日期以及经营范围等信息。一般而言,营业执照中的经营范围信息可以在一定程度上反映商户的行业类别。例如,如果商户的户经营范围为:吸收公众存款,发放短期、中期和长期贷款,办理国内结算,办理票据贴现,发行金融债券,代理发行、兑付、承销政府债券,买卖政府债券等,则可以初步认为该商户属于金融类企业。可选地,所述对商户的营业执照图像进行文本识别可以是对营业执照的完整页面进行文本识别,在获取所有文本信息后再从中选取用于行业类别判断的文本信息。此外,由于营业执照的格式较为固定,例如经营范围信息一般在完整页面的中下部位置(当然,对于其他格式的营业执照,经营范围信息也可以在其他区域);因此,在本公开的部分示例性实施例中,所述对商户的营业执照图像进行文本识别也可以是对营业执照图像中用于进行行业类别判断的区域进行文本识别,获取该特定区域的文本信息进行行业类别判断。

本示例实施方式中,所述文本识别可以基于OCR技术实现,OCR(OpticalCharacter Recognition,光学字符识别)技术是利用电子设备(例如扫描仪或数码相机)对待识别对象进行检测,通过检测光线暗、亮的模式确定其形状,然后用字符识别方法将该形状翻译成计算机文字的过程;即针对印刷体字符采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。示例性地,在获取所述文本信息时,可以由商户利用终端设备对营业执照进行OCR识别,并将获取的文本信息发送至服务器,也可以通过商户的终端设备将营业执照的图像信息发送至服务器,服务器对所述图像信息进行OCR识别,以获取文本信息;应当理解,所述步骤也可以通过其他能够实施的步骤实现,本申请对此不做特别限定。此外,所述营业执照图像可以是拍摄所述商户的营业执照获取的图像信息,也可以是从网页(例如工商信息类网页)中获取的营业执照图像信息,本申请对此不做特别限定。

此后进入步骤S33:根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第一行业类别;

其中,所述映射模型可以根据已知经营许可文本信息及对应的行业类别对神经网络模型进行训练得到,所述经营许可文本信息为根据入驻第三方支付机构的商户营业执照记载的经营范围得到的行业特征信息,所述神经网络模型至少包括以下一种:fasttext算法模型、CNN深度学习模型和RNN深度学习模型。在商户签约入驻第三方支付机构时,可以根据经训练得到的模型对文本信息进行识别,以确定该商户所属的行业类别。所述文本信息可以由审核入驻第三方支付平台的商户端的终端设备对营业执照进行识别获取,也可以通过商户端的移动终端将营业执照的图像上传至服务器中,由服务器对其识别而获取所述文本信息。

其中,所述行业类别指从事国民经济中同性质的生产或其他经济社会的经营单位或者个体的组织结构体系的详细划分,可以用于解释行业本身所处的发展阶段及其在国民经济中的地位。行业类别分类可以包括多个级别,例如包括但不限于一级行业类别和二级行业类别,举例而言,一级行业类别可以包括:互联网科技、医疗器械、本地生活、广告文化、游戏、餐饮、金融服务、商贸、电影休闲娱乐、职业人才中介、注册进出口公司类公司、建筑、旅游、教育等。在各一级行业类别中,还可以包括多个二级行业类别,例如:在电影休闲娱乐类目中可以包括音像制品制作、电子出版物制作、电子出版物复制、广播电视节目制作、电影摄制、电影发行、电影放映、文艺表演、演出经纪等二级行业类别;在金融服务类目中可以包括银行、保险、期货、股票等二级行业类别。图5示例性示出本公开实施例中一种fasttext模型的构架图,fasttext算法模型具有训练速度高、支持多语言表达的特点,其专注于文本分类,在实际应用中能够准确高效地进行文本分类。参考图6所示,根据已知经营许可文本信息及对应的行业类别对神经网络模型进行训练可以包括以下步骤:

步骤S61:通过卷积层提取所述已知经营许可文本信息的特征点信息作为所述神经网络模型的输入;

步骤S63:通过卷积层提取所述行业类别的特征点信息作为所述神经网络模型的输出;

步骤S65:通过隐含层调整所述神经网络模型的权重值;以及

步骤S67:通过全连接层对各特征点信息进行分类,得到所述经营许可文本信息与行业类别之间的映射模型。

举例而言,利用已知文本信息与对应的行业类别对神经网络进行训练可以包括:对已知的商户经营范围的文本信息进行打标,确定其对应的行业类别,根据该文本信息和行业类别建立训练样本集。示例性地,商户经营范围例如可以是:吸收公众存款,发放短期、中期和长期贷款,办理国内结算,办理票据贴现,发行金融债券,代理发行、兑付、承销政府债券,买卖政府债券,从事同业拆借,提供信用证服务及担保,代理收付款项及代理保险业务,参与银团贷款,提供保险箱服务,办理地方财政周转使用资金的委托贷款业务,外汇存款,外汇贷款、外汇汇款,外汇兑换,国际结算,外汇票据的承兑及贴现,外汇借款,外汇担保,自营外汇买卖或代客外汇买卖,外汇业务资信调查、资询、见证业务,同业外汇拆借等。根据该经营范围可以将该商户的一级行业类别确定为金融类目可选地,在一级行业类别金融包含银行、保险、期货、股票等类目的情况下,还以可以进一步将该商户的二级行业类别确定为银行类目,从而得到所述文本信息对应的一级样本集和二级样本集。

在一个实施例中,步骤S33可以包括:根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,判别所述业务主体属于各行业类别的概率值;以及根据所述各行业类别的概率值确定所述第一行业类别。

本示例实施方式中可以是,根据文本识别模型对文本信息进行识别,确定所述文本信息属于各个行业类别的概率值,确定所述最大概率值对应的行业类别为所述第一行业类别;也可以是,根据文本识别模型对文本信息进行识别,确定所述文本信息属于各个行业类别的概率值,选择各概率值中大于预设数值的概率值对应的行业类别为所述第一行业类别;应当理解,还可以通过其他方式确定所述商户的第一行业类别,本申请对此不做特别限定。

在一个实施例中,所述经营许可文本信息与行业类别之间的映射模型包括经营许可文本信息与行业类别之间的多级映射模型,则所述根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第一行业类别,包括:

根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行多级行业类别判别,得到第一行业类别。

例如在如图7所示的行业类别判断方法中,所述文本识别模型包括一级文本识别模型和二级文本识别模型(即一级分类器和二级分类器),所述根据文本识别模型对文本信息进行判断,得到第一行业类别,所述根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第一行业类别,包括:

根据所述经营许可文本信息以及所述一级映射模型,对所述业务主体进行行业类别判别,得到一级行业类别;以及根据所述经营许可文本信息以及所述二级映射模型,对所述一级行业类别进行判别,得到所述第一行业类别。本示例实施方式中,根据已经得到的一级行业类别,可以在很多程度上缩小二级映射模型需要识别的行业类别的范围,排除大量干扰信息,因此可以确保最终得到的第一行业类别更加准确。

步骤S35:根据所述营业场所图像信息以及营业场所图像信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第二行业类别。

一般而言,不同行业的业务主体的营业场所会存在一定的差别;例如,如图8所示,为一银行类商户的营业场所;在银行类商户的营业场所,一般会设有业务柜台、自动柜员机等;在其他类别的业务主体的营业场所则可能相应具有其他布置,例如,在餐饮类商户的营业场所,一般会设有餐桌、餐椅以及后厨等。因此,业务主体的营业场所图像在一定程度上与其行业类别存在对应关系,进而,本示例实施方式中可以根据所述营业场所图像信息以及营业场所图像信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第二行业类别。

其中,所述营业场所图像信息与行业类别之间的映射模型可以根据已知营业场所图像信息及对应的行业类别对神经网络模型进行训练得到。示例性地,所述神经网络模型也可以是fasttext算法模型、CNN深度学习模型或者RNN深度学习模型中的一种,也可以是其他类型的神经网络模型,本公开对此不做特别限制。参考图9所示,对神经网络模型进行训练可以包括:

步骤S91:通过卷积运算提取所述已知营业场所图像信息的特征点信息作为所述神经网络模型的输入;

步骤S93:通过卷积运算提取所述行业类别的特征点信息作为所述神经网络模型的输出;

步骤S95:通过隐含层调整所述神经网络模型的权重值;以及

步骤S97:通过全连接层对各特征点信息进行分类,得到所述营业场所图像信息与行业类别之间的映射模型。

在对神经网络模型进行训练时,首先利用已知的店铺图像信息作为神经网络模型的输入,与该店铺图像信息对应的行业类别作为神经网络模型的输出,根据已知的输入数据及对应的输出数据不断修正神经网络模型的过程参数,以获得能够准确对未知图像进行识别并确定其行业类别的图像识别模型;其次利用所述图像识别模型对该待识别的商户实体店铺图片进行识别,以确定该店铺的行业类别。

本示例实施方式中,在获取到营业场所图像信息之后,可以将营业场所图像信息输入至上述步骤中训练得到的神经网络模型,通过神经网络模型中的卷积层对营业场所图像信息(如各色彩通过的灰度信息等)进行一次或多次的卷积操作以及池化操作,并结合隐含层的激活函数,完成对于营业场所图像信息的特征点提取。然后,将特征点信息输入至全连接层,以通过全连接层基于特征点信息实现多分类运算;全连接层经过运算之后,可以输出一个多维向量,该多维向量中的每个分量可以用于表示业务主体属于一种行业类别的概率值;进而,可以将概率值最大的行业类别确定为所述业务主体的第二行业类别。当然,基于所训练的模型的不同,在本公开的其他示例性实施例中,也可以采用其他方式确定所述第二行业类别;本示例性实施例中对此不做特殊限定。

此后进入步骤S37:在所述第一行业类别与所述第二行业类别一致时,将所述第一行业类别或第二行业类别确定为所述业务主体的行业类别。

在一个实施例中,所述行业类别判断方法还可以包括:

在所述第一行业类别包括所述第二行业类别时,将第二行业类别确定为所述业务主体的行业类别。

在所述步骤S33和步骤S35中,分别根据商户营业执照的经营范围和店铺图像判断商户的行业类别,为确保最终确定的行业类别的准确性,在步骤S33和步骤S35之后可以判别第一行业类别与第二行业类别之间的关联关系,并根据预设条件确定该商户最终的行业类型。举例而言,根据第一行业类别与第二行业类别之间的关联关系确定该商户最终的行业类型可以包括以下多种不同的情况:

在第一行业类别与第二行业类别的层级相同的情况下,当判断所述第一行业类别与所述第二行业类别相同时,可以将所述第一行业类别或第二行业类别确定为所述商户的行业类别;

在第二行业类别属于第一行业类别的子层级的情况下,可以在判断第二行业类别的上一层级与第一行业类别相同时将所述第一行业类别确定为所述文本信息对应的行业类别;举例而言,一级行业类别金融可以包含多个二级行业类别,例如银行、保险、期货、股票等类别,银行也可以包含多个三级行业类别,例如储蓄业务、借贷业务和基金业务等类别,在一个示例性实施例中,在步骤S33中确定的第一行业类别为银行类别,在步骤S35中确定的第二行业类别是储蓄业务,则在步骤S35之后中可以根据第二行业类别的上一级行业类别与第一行业类别相同而将所述商户的行业类别确定为银行类别。可以理解,在步骤S35之后还可以根据其他预设条件来确定所述商户的行业类别,本申请对此不做特别限定。

在一个实施例中,所述行业类别判断方法还可以包括:

根据所述经营许可文本信息与所述第二行业类别对所述经营许可文本信息与行业类别之间的映射模型进行优化。

在判断所述第一行业类别与所述第二行业类别不满足预设条件时,可以通过人工审核的方式确定所述商户的行业类别;可选地,在确定行业类别之后还可以根据该行业类别对所述文本识别模型进行优化,以使所述文本识别模型在后续的行业类别判断应用中更加准确有效。例如,在判断所述第一行业类别与所述第二行业类别不相同,且第一行业类别与第二行业类别之间不存在级别包含关系时,可以选择通过人工审核的方式确定所述商户的行业类别;可选地,也可以在根据所述文本识别模型无法确定第一行业类别的情况下选择通过人工审核的方式确定所述商户的行业类别;应当理解,上述列举仅是对本实施例作出的示例性说明,本公开对比不作特别限定。

本公开的另一实施方式提供一种行业类别判断装置,参考图10所示,行业类别判断装置100包括:

信息获取模块101,用于获取业务主体的经营许可文本信息以及营业场所图像信息;

第一行业类别获取模块102,用于根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第一行业类别;

第二行业类别获取模块103,用于根据所述营业场所图像信息以及营业场所图像信息与行业类别之间的映射模型,对所述业务主体进行行业类别判别,得到第二行业类别;

行业类别确定模块104,用于在所述第一行业类别与所述第二行业类别一致时,将所述第一行业类别或第二行业类别确定为所述业务主体的行业类别。

在一个实施例中,所述行业类别判断装置100还可以包括:

第一神经网络模型训练模块,用于根据已知经营许可文本信息及对应的行业类别对神经网络模型进行训练,得到所述经营许可文本信息与行业类别之间的映射模型。

在一个实施例中,第一神经网络模型训练模块可以包括:

用于通过卷积层提取所述已知经营许可文本信息的特征点信息作为所述神经网络模型的输入的子模块;

用于通过卷积层提取所述行业类别的特征点信息作为所述神经网络模型的输出的子模块;

用于通过隐含层调整所述神经网络模型的权重值的子模块;以及

用于通过全连接层对各特征点信息进行分类,得到所述经营许可文本信息与行业类别之间的映射模型的子模块。

第一神经网络模型训练模块,所述神经网络模型至少包括以下一种:fasttext算法模型、CNN深度学习模型和RNN深度学习模型。

在一个实施例中,行业类别判断装置100还可以包括:

第二神经网络模型训练模块,用于根据已知营业场所图像信息及对应的行业类别对神经网络模型进行训练,得到所述营业场所图像信息与行业类别之间的映射模型。

在一个实施例中,第二神经网络模型训练模块可以包括:

用于通过卷积运算提取所述已知营业场所图像信息的特征点信息作为所述神经网络模型的输入的子模块;

用于通过卷积运算提取所述行业类别的特征点信息作为所述神经网络模型的输出的子模块;

用于通过隐含层调整所述神经网络模型的权重值的子模块;以及

用于通过全连接层对各特征点信息进行分类,得到所述营业场所图像信息与行业类别之间的映射模型的子模块。

在一个实施例中,信息获取模块101可以包括:

用于对所述业务主体的营业执照图像进行文本识别,得到所述经营许可文本信息的子模块。

在一个实施例中,第一行业类别获取模块102可以包括:

用于根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,判别所述业务主体属于各行业类别的概率值的子模块;以及

用于根据所述各行业类别的概率值确定所述第一行业类别的子模块。

在一个实施例中,行业类别判断装置100还可以包括:

用于在所述第一行业类别包括所述第二行业类别时,将第二行业类别确定为所述业务主体的行业类别的子模块。

在一个实施例中,所述经营许可文本信息与行业类别之间的映射模型包括经营许可文本信息与行业类别之间的多级映射模型,则第一行业类别获取模块102可以包括:

用于根据所述经营许可文本信息以及经营许可文本信息与行业类别之间的映射模型,对所述业务主体进行多级行业类别判别,得到第一行业类别的子模块。

在一个实施例中,第一行业类别获取模块102可以包括:

用于根据所述经营许可文本信息以及所述一级映射模型,对所述业务主体进行行业类别判别,得到一级行业类别的子模块;以及

用于根据所述经营许可文本信息以及所述二级映射模型,对所述一级行业类别进行判别,得到所述第一行业类别的子模块。

在一个实施例中,行业类别判断装置100还可以包括:

用于在所述第一行业类别与所述第二行业类别不一致时,根据所述经营许可文本信息与所述第二行业类别对所述经营许可文本信息与行业类别之间的映射模型进行优化的子模块。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号