首页> 中国专利> 一种非法交易主动探测方法及系统

一种非法交易主动探测方法及系统

摘要

本申请提供了一种非法交易主动探测方法及系统,所述方法包括:筛选非法网站,通过计算所述非法网站的文本信息与预先标记的模板之间的相似度来匹配模板,并选择匹配到的模板的程序脚本对非法网站进行模拟注册、登录、交易渠道的探测,将非法网站返回的交易订单的相关信息通过文本分析挖掘、和/或图像识别分析提取出来,作为判断该交易行为是合法还是非法的判别依据。本申请可有效在日常监控中识别、预警交易风险,实现对违法犯罪平台的快速预警,做到尽早发现、及时处置,避免损失进一步扩大,提升了金融风险整体防控水平。

著录项

  • 公开/公告号CN112199573A

    专利类型发明专利

  • 公开/公告日2021-01-08

    原文格式PDF

  • 申请/专利权人 宝付网络科技(上海)有限公司;

    申请/专利号CN202010776643.0

  • 发明设计人 卢子航;王峰;

    申请日2020-08-05

  • 分类号G06F16/953(20190101);G06F16/955(20190101);G06K9/62(20060101);G06Q40/04(20120101);H04L29/08(20060101);G06F9/54(20060101);G06F16/906(20190101);

  • 代理机构31330 上海海钧知识产权代理事务所(特殊普通合伙);

  • 代理人许兰

  • 地址 200231 上海市徐汇区华泾路509号7幢227室

  • 入库时间 2023-06-19 09:29:07

说明书

技术领域

本发明涉及金融风险控制领域,尤其涉及一种非法交易主动探测方法及系统。

背景技术

目前,我们常见的支付风险中,支付渠道常常被一些非法网站和应用所利用,诱骗用户实施非法交易,牟取暴利,为用户造成经济损失。

因此,如何主动探测到非法交易平台,在日常监控中有效识别、预警交易风险,实现风险早识别、早预警、早处置、提升金融风险整体防控水平,是亟待解决的问题。

发明内容

本发明的目的在于提供一种非法交易主动探测方法及系统,以解决上述技术背景中提出的问题。

为实现上述目的,本发明采用以下技术方案:

本申请第一个方面提供了一种非法交易主动探测方法,包括:

通过人工录入网站的URL、关键词,或者通过搜索引擎查询的结果筛选出非法网站,并将所述非法网站的网站信息存储至数据库;

计算所述非法网站的文本信息与预先标记的模板之间的相似度,其中,预先标记的模板是对历史记录的非法网站进行分类而生成的不同的预设模型,每个模板均标记了模板代号;

如果计算出的相似度大于预定阈值,对所述非法网站进行分类、标记新的模板代号,并作为新增加的模板存储至数据库中;

如果计算出的相似度小于或等于预定阈值,则使用预先标记的模板已开发的主动探测软件对所述非法网站进行模拟注册、登录、交易渠道的探测,将非法网站返回的交易订单的相关信息通过文本分析挖掘、和/或图像识别分析提取出来,存储在数据库中,作为判断该交易行为是合法还是非法的判别依据。

优选地,通过搜索引擎查询的结果筛选出非法网站,包括:

通过关键词去搜索引擎查询,得到相应的疑似的网站URL;

对网页中的源码内容进行关键词审核;

通过审核的网址,视为非法网站,录入数据库。

优选地,所述非法交易主动探测方法还包括:对所述非法网站进行模拟注册后,将对应的网站URL和注册用户信息(虚拟数据)存入数据库备份。

优选地,通过人工录入网站的URL、关键词,或者通过搜索引擎查询的结果筛选出的非法网站的网站信息包括以下至少之一:网站名称、网站URL、网站有效性(是否能打开)、网站的文本信息、网站快照图片URL、网站标记模板代号、网站创建时间、网站更新时间。

优选地,所述相似度是所述非法网站的网页源码的SimHash值与预先标记的模板的SimHash值之间的海明距离。

优选地,所述预定阈值为经验值,优选为15。

优选地,交易订单的相关信息包括以下至少之一:订单号、订单截图、交易的银行、交易时间、网站URL、交易金额、收款方账户信息。

优选地,所述非法交易主动探测方法还包括:支持分布式任务分发处理,采用浏览器Docker集群,使用Selenium Grid去实现页面渲染和模拟操作,统一调用Selenium Hub将任务分发到Selenium Hub上注册的至少一个Node代理节点上,多个Node代理节点去请求非法网站,完成模拟注册、登录、交易动作,并且接收非法网站返回的交易订单。

优选地,所述非法交易主动探测方法还包括:对所述非法网站进行模拟注册的模拟用户的IP地址为动态配置的。

优选地,对所述非法网站进行模拟注册、登录、交易渠道的探测时,所述非法交易主动探测方法还包括:生成监控日志信息,并将所述监控日志信息存储至数据库中。

本申请第二个方面提供了一种非法交易主动探测系统,包括:

——数据库,所述数据库存储有网站基础数据表、订单监控结果表、以及模拟注册登录信息表;其中,

所述网站基础数据表,用于存储通过人工录入网站的URL、关键词,或者通过搜索引擎查询的结果筛选出的非法网站的网站信息;

所述订单监控结果表,用于存储对非法网站进行主动探测获得的交易订单的相关信息;

所述模拟注册登录信息表,用于存储对非法网站进行模拟注册、登录时对应的网站URL和注册用户信息(虚拟数据);

——非法交易平台定位模块,用于通过人工录入网站的URL、关键词,或者通过搜索引擎查询的结果筛选出非法网站;

——标记模板模块,用于计算所述非法网站的文本信息与预先标记的模板之间相似度,其中,预先标记的模板是对历史记录的非法网站进行分类而生成的不同的预设模型,每个模板均标记了模板代号;如果计算出的相似度大于预定阈值,则对所述非法网站进行分类、标记新的模板代号,并作为新增加的模板存储至网站基础数据表中;

——分布式任务分发模块,用于对标记模板模块中计算出的相似度小于或等于预定阈值的非法网站,使用预先标记的模板已开发的主动探测软件对所述非法网站进行模拟注册、登录、交易渠道的探测,并接收非法网站返回的交易订单;

——文本分析模块,用于对分布式任务分发模块接收的交易订单中的文本信息进行文本分析挖掘,并存储至所述订单监控结果表;

——图像识别分析模块,用于对分布式任务分发模块接收的交易订单中的图像信息进行图像识别分析,并存储至所述订单监控结果表。

优选地,所述网站基础数据表存储的网站信息包括以下至少之一:网站名称、网站URL、网站有效性(是否能打开)、网站的文本信息、网站快照图片URL、网站标记模板代号、网站创建时间、网站更新时间。

优选地,所述订单监控结果表存储的交易订单的相关信息包括以下至少之一:订单号、订单截图、交易的银行、交易时间、网站URL、交易金额、收款方账户信息。

优选地,所述标记模板模块包括:

提取单元,用于提取非法网站中的样式指纹;

计算单元,用于计算所述提取单元提取的非法网站中的样式指纹与预先标记的模板之间的相似度;

确定单元,用于在所述计算单元计算的所述相似度小于或等于预设阈值时,确定所述非法网站可以使用预先标记的模板已开发的主动探测软件对所述非法网站进行模拟注册、登录、交易渠道的探测。

更优选地,所述计算单元计算的所述相似度是所述非法网站的网页源码的SimHash值与预先标记的模板的SimHash值之间的海明距离,即所述提取单元提取非法网站中的样式指纹为所述非法网站的网页源码的SimHash值。

更优选地,所述预定阈值为经验值,优选为15。

优选地,所述分布式任务分发模块,支持分布式任务分发处理,采用浏览器Docker集群,使用Selenium Grid去实现页面渲染和模拟操作,统一调用 Selenium Hub将任务分发到Selenium Hub上注册的至少一个Node代理节点上,多个Node代理节点去请求非法网站,完成模拟注册、登录、交易动作,并且接收非法网站返回的交易订单。

优选地,所述数据库,还包括监控日志信息表,用于存储对所述非法网站进行模拟注册、登录、交易渠道的探测时生成的监控日志信息。

与现有技术相比,本发明的技术方案具有以下有益效果:

本申请提供了一种非法交易主动探测方法及系统,该系统以非法交易平台网站地址为输入,输出为非法交易平台的特征信息和非法交易订单信息,通过对非法网站的主动探测,可有效在日常监控中识别、预警交易风险,实现对违法犯罪平台的快速预警,做到尽早发现、及时处置,避免损失进一步扩大,提升了金融风险整体防控水平。

附图说明

构成本申请的一部分附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是优选实施例的非法交易主动探测系统的结构图;

图2是优选实施例的非法交易平台定位模块筛选出来的非法网站的网站信息列表示意图;

图3是SimHash算法流程示意图;

图4是分布式任务分发处理的架构示意图;

图5是Selenium Grid分布式任务节点示意图;

图6是优选实施例的非法网站封禁IP的页面示意图;

图7是非法交易主动探测系统的流程示意图。

具体实施方式

为使本发明的目的、技术方案及效果更加清楚、明确,以下参照附图并举实例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,应该理解这样使用的数据在适当情况下可以互换。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1为一种非法交易主动探测系统的结构图。如图1所示,非法交易主动探测系统包括数据库1、非法交易平台定位模块2、标记模板模块3、分布式任务分发模块4、文本分析模块5和图像识别分析模块6。

1、数据库

所述数据库1存储有网站基础数据表101、订单监控结果表102、以及模拟注册登录信息表103。

其中,所述网站基础数据表101,用于存储通过人工录入网站的URL、关键词,或者通过搜索引擎查询的结果筛选出的非法网站的网站信息。所述网站基础数据表101存储的网站信息包括以下至少之一:网站名称、网站URL、网站有效性(是否能打开)、网站的文本信息、网站快照图片URL、网站标记模板代号、网站创建时间、网站更新时间,如图2所示。

其中,所述订单监控结果表102,用于存储对非法网站进行主动探测获得的交易订单的相关信息,例如,订单号、订单截图、交易的银行、交易时间、网站 URL、交易金额、收款方账户信息等。

其中,所述模拟注册登录信息表103,用于存储对非法网站进行模拟注册、登录时对应的网站URL和注册用户信息(虚拟数据),便于下次读取使用。

优选地,所述数据库1还存储有监控日志信息表104,用于存储对所述非法网站进行模拟注册、登录、交易渠道的探测时生成的监控日志信息。

2、非法交易平台定位模块

所述非法交易平台定位模块2,用于通过人工录入网站的URL、关键词,或者通过搜索引擎查询的结果筛选出非法网站。

以寻找和定位某一类非法网站为例,主要分为两种方式:人工录入和搜索引擎查询。

人工录入:人工录入非法网站URL和关键词。其中,关键词为人工预设的。

搜索引擎查询:非法网站具有一些特征,比如网址URL容易变更、多个域名解析到同一个网站、网站本身可访问性不稳定等。一般地,能够提供嫌疑网站的人力资源是有限的,所以需要非法交易平台定位模块,自动化地发现可疑网站并且实时监控,即通过搜索引擎查询。搜索引擎查询需要用到关键词,让系统的管理员进行关键词及关键词变形词的配置,然后通过关键词去搜索引擎查询得到相应的疑似非法网址URL,再对网页中源码内容进行关键词审核,通过审核的网址,视为非法网站,录入数据库1的网站基础数据表101中。

3、标记模板模块

由于非法交易平台的数量巨大,可能存在成百上千个,开发和维护系统的效率与非法网站新增和更变速度的悬殊差距,增加了系统的开发者的负担。针对这个矛盾,需要设计标记模板的分布式网络系统,系统能够根据访问的非法交易平台网页信息,自动选定动作实例,完成监控任务。

所述标记模板模块3,用于计算所述非法网站的文本信息与预先标记的模板之间相似度,其中,预先标记的模板是对历史记录的非法网站进行分类而生成的不同的预设模型,每个模板均标记了模板代号;如果计算出的相似度大于预定阈值,则对所述非法网站进行分类、标记新的模板代号,并作为新增加的模板存储至网站基础数据表101中。

计算文本的相似度的常用的算法有SimHash算法、机器学习聚类算法、根据Dom树反向构建XPath、基于SimHash改进的Kmeans聚类方法等。当然,本申请所提到通过相似度计算对网站进行分类的方法并不限于此,凡是能通过计算相似度来实现网站分类的算法,都应涵盖在本申请的保护范围内。

下面以SimHash算法为例进行相似度计算。

SimHash是用于网页去重最常用的hash方法,速度很快,根据汉明距离来比较文档之间的相似度。SimHash算法流程如图3所示,算法过程如下:

将文档Doc进行关键词抽取(其中包括分词和计算权重),抽取出n个(关键词,权重)对,即图中的(feature,weight)。记为feature_weight_pairs=[fw1, fw2...fwn],其中,fwn=(feature_n,weight_n),n为大于1的自然数。

hash_weight_pairs=[(hash(feature),weight)for feature,weight infeature_weight_pairs]生成图中的(hash,weight),此时假设hash生成的位数 bits_count=6(如图3)。

然后,对hash_weight_pairs进行位的纵向累加,如果该位是1,则+weight, 如果是0,则-weight,最后生成bits_count个数字,如图所示是[13,108,-22,-5, -32,55],这里产生的值和hash函数所用的算法相关。

正数用1表示,负数用0表示,则[13,108,-22,-5,-32,55]转化为二进制串110001,即为文档Doc的SimHash值。

计算两个文档之间的相似度,要分别计算出两个文档的SimHash值,然后计算两个SimHash值之间的海明距离。

例如,文档A的SimHash值为:A=100111;

文档B的SimHash值为:B=101010;

计算两个SimHash值的海明距离,就是A XOR B后二进制中1的个数: hamming_distance(A,B)=count_1(A XOR B)=count_1(001101)=3;

算出所有文档的SimHash值之后,需要计算文档A和文档B之间是否相似的条件是:A和B的海明距离是否小于等于n,这个n值可以根据经验取值。

具体地,在一种优选实施例中,多个非法网站,使用同一套H5前端界面,可以通过SimHash算法,对网站进行归类,且选择对应的实例动作,进行监控。

假设某一非法网站主动探测代码已开发完成,网站标记的模板代号记为templateA,当我们算出当前非法网站网页源码docA的SimHash值之后,需要计算doc A和template A之间是否相似的条件是:doc A和template A的 SimHash值之间的海明距离是否小于等于n,这个n值根据经验一般取值为15。

判断n值小于等于15,则判定当前非法网站可以使用template A已开发完的主动探测代码进行监控。通过标记模板,分类不同的非法网站,可以降低开发的工作量,达到事半功倍的效果。

在一种优选实施例中,使用SimHash算法来分类非法网站的流程如下:

1)在处理程序中,标记常见的网站的SimHash值:通过搜索引擎或者人工录入的URL,自动化地访问这些网站,人工观察前端特征,选择相同前端特征出现频率高的几种网站作为一类,进行开发自动化脚本,同时,记录下这些开发过的网站的SimHash值,用于进行比对;

2)使用SimHash处理程序,计算各个网站的SimHash值,与已经标记的非法网站进行比较,如果出现相似的网站,打上相应的分类标签,入库,再选择对应的脚本程序进行支付渠道探测。

4、分布式任务分发模块

本申请的非法交易主动探测系统部署到分布式环境下的多台服务器上,需要得到一种负载均衡的实现方案,确保分布式环境下任务分发的均衡,提高处理效率,避免单点故障,如图4所示。

分布式任务队列:分布式系统就是多台机器多个程序对多个URL的同时处理。分布式的方式可以极大提高程序的效率。分布式任务队列的组成:Broker,存放消息队列的容器,一般由RabbitMQ、Redis等第三方消息队列机制提供。 Tasks,一般写在一个脚本中,作用相当于生产者,用于产生消息。Worker,消费者,从Broker获取消息,并进行处理。

分布式任务节点:以某一类非法网站为例,由于非法网站监控任务众多,且我们采用标记模板去分类任务,所以分布式任务分发模块中,我们优先采用浏览器Docker集群,这里我们使用Selenium Grid去实现页面渲染和模拟操作。监控系统统一调用Selenium Hub,Selenium Hub上注册有若干个Node代理节点, Selenium Hub与多个Node代理节点之间建立有下发机制,由Selenium Hub 进行任务的分发,由多个Node代理节点去请求网站,完成模拟注册、登录、交易动作,并且返回相应网页信息源码,进入文本分析模块、图像识别分析模块进行处理,如图5所示。

此外,在实际工作中,经常遇到系统IP被封禁的情况,为此,非法交易主动探测系统需要很多的IP来实现自己IP地址的不停切换,达到正常监控的目的。

5、文本分析模块、图像识别分析模块

所述文本分析模块5,用于对分布式任务分发模块4接收的交易订单中的文本信息进行识别提取,并存储至所述订单监控结果表101中。

所述图像识别分析模块6,用于对分布式任务分发模块4接收的交易订单中的图像信息进行识别提取,并存储至所述订单监控结果表101中。

所述文本分析模块5、所述图像识别分析模块6提取出的交易订单的相关信息可以包括订单号、订单截图、交易的银行、交易时间、网站URL、交易金额、收款方账户信息等,这些信息可以作为判断该交易行为是合法还是非法的判别依据,从而及时有效地发现非法网站的非法交易订单,并且及时在后台控制交互界面的显示,将结果上报给风险控制业务部门进行后续的处理,必要时系统会根据预警规则自动实施预警措施进行干预,预警规则包括时间、地点、发生的网站、发生的地点、发生的频率、金额大小等一系列的数据。

图7是非法交易主动探测系统的流程示意图。

如图7所示,本申请的非法交易主动探测系统的主要流程为:

非法交易平台定位模块通过人工录入网站的URL、关键词,或者通过搜索引擎查询的结果筛选出非法网站,并将所述非法网站的网站信息存储至数据库的网站基础数据表中;

标记模板模块计算存储在网站基础数据表中的所述非法网站的文本信息与预先标记的模板之间相似度,其中,预先标记的模板是对历史记录的非法网站进行分类而生成的不同的预设模型,每个模板均标记了模板代号;

如果计算出的相似度大于预定阈值,对所述非法网站进行分类、标记新的模板代号,并作为新增加的模板存储至数据库中的网站基础数据表中;

如果计算出的相似度小于或等于预定阈值,则可以运行预先标记的模板已开发的主动探测软件对所述非法网站进行模拟注册、登录、交易渠道的探测;主动探测过程中生成的监控日志信息,存储至数据库中的监控日志信息表中;主动探测过程中将模拟注册、登录的网站URL和注册用户信息(虚拟数据)存入数据库的模拟注册登录信息表中备份;

将主动探测过程中接收到的非法网站返回的交易订单通过文本分析模块和/ 或图像识别分析模块分别提取出来,存储至数据库的订单监控结果表中,作为判断该交易行为是合法还是非法的判别依据。对于在监测过程中发现的异常交易及高风险商户,可以采取采取诸如责令整改、风险等级调整、限制交易、关闭结算、上报监管机构等处置措施。

综上所述,本申请提供了一种非法交易主动探测方法及系统,该系统以非法交易平台网站地址为输入,输出为非法交易平台的特征信息和非法交易订单信息,通过对非法网站的主动探测,可有效在日常监控中识别、预警交易风险,实现对违法犯罪平台的快速预警,做到尽早发现、及时处置,避免损失进一步扩大,提升了金融风险整体防控水平。

以上对本发明的具体实施例进行了详细描述,但其只是作为范例,本发明并不限制于以上描述的具体实施例。对于本领域技术人员而言,任何对本发明进行的等同修改和替代也都在本发明的范畴之中。因此,在不脱离本发明的精神和范围下所作的均等变换和修改,都应涵盖在本发明的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号