首页> 中国专利> 一种基于大数据的账户云安全管理方法及安全管理平台

一种基于大数据的账户云安全管理方法及安全管理平台

摘要

本发明公开了一种基于大数据的账户云安全管理方法及安全管理平台,涉及云安全技术领域,该方法包括:对获取的待检测账户集中各待检测账户进行预处理以获取对应的账户操作记录;根据待检测账户及待检测账户之间的距离构建第一知识图谱,并获取包含目标账户的账户簇;根据账户簇中各待检测账户的账户行为构建第二知识图谱,并基于第二知识图谱获取账户簇特征;基于账户操作记录和账户簇特征对账户参考行为记录库的进行验证,相较于现有技术中仅对用户的账户行为进行监管而并不对作为监管依据的账户参考行为记录库的有效性进行验证,上述步骤能够提供一种高安全性的基于大数据的账户云安全管理方案。

著录项

  • 公开/公告号CN112910924A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 陈国荣;

    申请/专利号CN202110251545.X

  • 发明设计人 陈国荣;

    申请日2021-03-08

  • 分类号H04L29/06(20060101);G06F16/35(20190101);G06F16/36(20190101);

  • 代理机构44663 广州博士科创知识产权代理有限公司;

  • 代理人马天鹰

  • 地址 518000 广东省深圳市南山区虚拟大学园产业化软件楼F205

  • 入库时间 2023-06-19 11:14:36

说明书

技术领域

本发明涉及云安全技术领域,具体而言,涉及一种基于大数据的账户云安全管理方法及安全管理平台。

背景技术

随着网络信息技术的发展,越来越多的事务均转移至线上操作,不论是普通用户的社交娱乐云账户,还是从事金融工作的个人或企业的交易相关云账户。云账户的安全性均是需要保证的。在安全级别更高的交易场景中,一般采取利用预先构建的云账户参考行为记录库进行比对以便根据比对结果对用户的云账户进行监管。而在现有技术中,并没有对账户参考行为记录库进行验证的方案,这使得非法攻击的方向指向了账户参考行为记录库,在账户参考行为记录库被攻击或篡改后,便无法对用户的云账户进行监管。

有鉴于此,如何提供一种高安全性的基于大数据的账户云安全管理方案,是本领域技术人员需要解决的。

发明内容

本发明的目的在于提供一种基于大数据的账户云安全管理方法及安全管理平台。

本发明实施例提供一种基于大数据的账户云安全管理方法,包括:

获取待检测账户集,对待检测账户集中各待检测账户进行预处理以获取与各待检测账户对应的账户操作记录;

根据待检测账户及待检测账户之间的距离构建第一知识图谱,并根据预设分类算法对第一知识图谱中的节点进行分类,以获取包含目标账户的账户簇;

根据账户簇中各待检测账户的账户行为构建第二知识图谱,并基于第二知识图谱获取账户簇特征;

基于账户操作记录和账户簇特征对账户参考行为记录库的进行验证。

可选地,在获取待检测账户集之前,方法还包括:

获取待检测账户集查看请求;

获取待检测账户集查看请求的通信传输规则以及从待检测账户集查看请求中提取与待检测账户集查看请求的终端设备相关的终端设备信息;

获取待检测账户集查看请求的多个协议空间地址在协议空间地址集合中的地址所占比重,将通信传输规则、终端设备信息和地址所占比重组合为查看身份向量;

在请求特征预设请求数据库中查找属于待检测账户集查看请求的请求特征,调用终端设备数字证书识别功能确定待检测账户集查看请求的目标终端设备数字证书;

分别确定相似请求特征的数据指纹以及异常请求特征的数据指纹;

将相似请求特征的数据指纹、目标终端设备数字证书以及异常请求特征的数据指纹组合为查看内容向量,请求特征包括相似请求特征以及异常请求特征;

确定查看身份向量对应的身份向量可信度;

根据查看内容向量在预设安全向量集合中的所占比重,确定查看内容安全等级;

将身份向量可信度和查看内容安全等级叠加为目标可信度;

若目标可信度大于第一预设可信度阈值,则确定待检测账户集查看请求的类型是非法查看;预设安全向量集合包括多个历史查看请求的历史查看内容向量;

若待检测账户集查看请求的类型是非法查看,则拒绝待检测账户集查看请求。

可选地,查看内容向量包括相似请求特征的数据指纹、目标终端设备数字证书以及异常请求特征的数据指纹,预设安全向量集合包括参考安全向量指纹参考安全向量集合、设备预设安全向量集合以及异常请求指纹异常向量集合;

根据查看内容向量在预设安全向量集合中的所占比重,确定查看内容安全等级,包括:

统计相似请求特征的数据指纹在参考安全向量指纹参考安全向量集合中的参考安全向量指纹所占比重;

统计目标终端设备数字证书在设备预设安全向量集合中的设备指纹所占比重;

统计异常请求特征的数据指纹在异常请求指纹异常向量集合中的异常请求指纹所占比重;根据参考安全向量指纹所占比重确定参考安全向量置信度;

根据设备指纹所占比重确定设备置信度;

根据异常请求指纹所占比重确定异常请求置信度;

将参考安全向量置信度、设备置信度和异常请求置信度叠加为查看内容安全等级。

可选地,根据待检测账户及待检测账户之间的距离构建第一知识图谱,包括:

从待检测账户集中确定包含目标账户的待定账户集,根据待定账户集中的账户和待定账户集中各账户之间的距离构建第一知识图谱。

可选地,从待检测账户集中确定包含目标账户的待定账户集,包括:

确定与待检测账户集中各待检测账户对应的账户标识,并对各待检测账户进行预处理以获取与各待检测账户对应的账户行为信息和行为特征;

根据行为特征对各待检测账户对应的账户行为信息进行排序,根据排序后的账户行为信息确定各待检测账户的关键行为,并根据各待检测账户的关键行为构建与各待检测账户对应的第一行为序列; 根据各待检测账户的账户标识和第一行为序列构建第一行为检测表,并根据目标账户对应的关键行为和第一行为检测表确定待定账户集。

可选地,行为特征包括行为名称、行为类型和未出现占比;

根据行为特征对各待检测账户对应的账户行为信息进行排序,根据排序后的账户行为信息确定各待检测账户的关键行为,包括:

根据预设规则确定与行为名称对应的第一参数和与行为类型对应的第二参数,将第一参数、第二参数和未出现占比相加,以获取第三参数;

根据第三参数由大到小对账户行为信息进行排序,并从排序后的账户行为信息中依次获取第一预设数量的账户行为信息作为关键行为。

可选地,目标账户为第一知识图谱中的初始节点;

根据预设分类算法对第一知识图谱中的节点进行分类,以获取包含目标账户的账户簇,包括:

初始化一个向量空间和序列,将初始节点对应的账户标识置于序列的首位,并将初始节点对应的账户标识添加至向量空间中;

遍历第一知识图谱中的其它节点,将与初始节点的距离小于或等于第一距离阈值的第一节点对应的账户标识依次添加至序列中,并根据第一节点对应的账户标识更新向量空间;

初始化一个指针,根据指针的大小在序列中确定参考账户标识,并计算参考账户标识对应的账户与第一知识图谱中其它节点对应的账户之间的距离,指针的大小与序列中账户标识的序号相对应;

当第一知识图谱中存在与参考账户标识所对应账户的距离小于或等于第二距离阈值的第二节点时,将第二节点对应的待处理账户的账户标识和参考账户标识存储于预设数据库中;

获取预设数据库中与待处理账户的账户标识对应的参考账户标识的数量,当数量大于或等于第二预设数量时,将待处理账户的账户标识添加至序列中,并根据待处理账户的账户标识更新向量空间;

在根据指针遍历序列中所有账户标识后,根据最终形成的序列中的账户标识所对应的账户形成账户簇。

可选地,根据账户簇中各待检测账户的账户行为构建第二知识图谱,并基于第二知识图谱获取账户簇特征,包括:

对账户簇中的各个待检测账户进行预处理,并根据预设行为名称从预处理的结果中获取目标账户行为;

以目标账户行为为节点,在对应同一账户的目标账户行为之间构建边,根据节点和边构建第二知识图谱;

基于第二知识图谱迭代计算目标账户行为的权重,将目标账户行为的权重由大到小排序以获取第二行为序列,并根据第二行为序列确定账户簇特征。

可选地,基于账户操作记录和账户簇特征对账户参考行为记录库的进行验证,包括:

对账户参考行为记录库进行预处理,以获取与账户参考行为记录库对应的账户标准行为记录库;

获取账户标准行为记录库和账户操作记录之间的相似度;根据账户操作记录对应的账户行为及账户标识构建第二行为检测表;

将账户标准行为记录库与第二行为检测表中的账户行为进行匹配,根据匹配结果获取待定账户标识;

获取账户标准行为记录库在待定账户标识对应的待定账户中的出现占比和未出现占比,根据出现占比和未出现占比确定账户参考行为记录库与待定账户之间的相似度;

当相似度大于或等于相似度阈值时,判定相似度不满足第一条件;

当相似度小于相似度阈值时,判定相似度满足第一条件;

在相似度满足第一条件时,根据账户簇特征对应的账户行为及账户标识构建第三行为检测表;

将账户标准行为记录库与第三行为检测表中的账户行为进行匹配,根据匹配结果获取待定账户的账户簇标识;

获取账户标准行为记录库对应的未出现占比,根据未出现占比和待定账户的账户簇标识对应的关键行为有效值确定有效阈值;

当有效阈值大于或等于有效基准线时,判定账户参考行为记录库是有效账户参考行为记录库;

当有效阈值小于有效基准线时,判定账户参考行为记录库不是有效账户参考行为记录库。

第二方面,本发明实施例提供一种安全管理平台,包括:

获取模块,用于获取待检测账户集,对待检测账户集中各待检测账户进行预处理以获取与各待检测账户对应的账户操作记录;

构建模块,用于根据待检测账户及待检测账户之间的距离构建第一知识图谱,并根据预设分类算法对第一知识图谱中的节点进行分类,以获取包含目标账户的账户簇;根据账户簇中各待检测账户的账户行为构建第二知识图谱,并基于第二知识图谱获取账户簇特征;

验证模块,用于基于账户操作记录和账户簇特征对账户参考行为记录库的进行验证。

相比现有技术,本发明提供的有益效果包括:采用本发明实施例提供的一种基于大数据的账户云安全管理方法及安全管理平台,通过获取待检测账户集,对待检测账户集中各待检测账户进行预处理以获取与各待检测账户对应的账户操作记录;根据待检测账户及待检测账户之间的距离构建第一知识图谱,并根据预设分类算法对第一知识图谱中的节点进行分类,以获取包含目标账户的账户簇;根据账户簇中各待检测账户的账户行为构建第二知识图谱,并基于第二知识图谱获取账户簇特征;基于账户操作记录和账户簇特征对账户参考行为记录库的进行验证,巧妙地利用了账户操作记录和账户簇特征对作为监管依据的账户参考行为记录库的有效性进行了验证,能够提供一种高安全性的基于大数据的账户云安全管理方案。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本发明实施例提供的基于大数据的账户云安全管理方法的步骤流程示意图;

图2为本发明实施例提供的安全管理平台的结构示意框图;

图3为本发明实施例提供的计算机设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,“设置”、“连接”等术语应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。

下面结合附图,对本发明的具体实施方式进行详细说明。

为了解决前述背景技术中的技术问题,图1为本公开实施例提供的一种基于大数据的账户云安全管理方法的流程示意图。

详细介绍如下:

在步骤S210中,获取待检测账户集,对待检测账户集中各待检测账户进行预处理以获取与各待检测账户对应的账户操作记录。

在本公开的一个实施例中,待检测账户是基于各类交易平台、区块链等由用户注册的交易账户,用户可以通过登录该账户进行各类交易行为,而不同的用户对于自个的账户,随着时间的推移,用户必然存在着操作习惯,一般便可以根据大数据收集的账户参考行为记录库对用户的账户进行检测,以便能够发现用户的待检测账户是否存在异常。为了根据账户参考行为记录库为用户精检测账户安全问题,根据包含多个待检测账户的待检测账户集确定待检测账户的账户操作记录以及属于一类的待检测账户簇特征,为了能够得到准确地检测结果,对预先确定的账户参考行为记录库进行有效判别是很有必要的。其中账户安全问题包括异常登陆、异常交易等类型。

在本公开的一个实施例中,通过对待检测账户集中的待检测账户进行预处理,可以获取与各待检测账户对应的账户操作记录。预处理具体可以包括账户行为获取、标记账户身份标识及去除无用字段,账户行为是能够独立获得的有意义的具备参考价值的数据交易账户,获取时可以基于规则、基于统计以及二者混合的方式进行账户行为获取,以基于规则的账户行为方式为例,可以通过交易账户预设操作规则进行账户行为获取;标记账户身份标识是对账户的实体进行验证的过程,账户身份标识包括普通交易用户、大宗交易用户、新人用户等,通过标记账户身份标识可以对账户身份进行标注;去除无用字段是指在数据收集中,为节省存储空间和提高搜索效率,在处理自然语言数据之前或之后会自动过滤掉某些字或词,这些字或词即被称为停用词,通常停用词是人工输入、非自动化生成的,根据常用的停用词可以形成一个停用词表,根据停用词表可以对账户行为后的结果进行去除无用字段,只保留交易账户中有意义的数据。

在本公开的一个实施例中,由于待检测账户的更新比较快,为了提高账户操作记录的更新速率,可以以分钟级的频率更新待检测账户库,例如每隔5分钟、10分钟、20分钟等更新一次,在更新待检测账户库时,可以从一些信息更新迅速的站点获取待检测账户,例如可以从大型交易平台中获取预设时间段内上线的待检测账户构建待检测账户集,由于待检测账户集的更新速率快,相应地账户操作记录的更新速率也会比较快,其更新速率可以与待检测账户集的更新速率相同,例如每隔5分钟、10分钟、20分钟更新到线上服务,当然还可以根据实际需要设定更新周期。

在前述步骤S210之前,本发明实施例还提供了以下实施方式,来对获取待检测账户集这个请求本发明进行安全检测的示例。

步骤S101,获取待检测账户集查看请求。

具体的,服务终端获取待识别的查看请求,待检测账户集查看请求可以是服务终端通过旁路导流方式获取的,旁路导流是指该待检测账户集查看请求原本是从终端设备发送至业务服务终端,且待检测账户集查看请求在经过交换机时,服务终端从交换机复制一份待检测账户集查看请求,用于检测待检测账户集查看请求的类型。在这种情况下,可以认为业务服务终端和服务终端之间是并联关系。当然,在待检测账户集查看请求的检测过程中,待检测账户集查看请求仍然从交换机发送至业务服务终端。旁路导流的好处就是不会增加业务服务终端接收待检测账户集查看请求的耗时,且对终端设备、交换机和业务服务终端来说不会增加架构上的负担,随时可以撤销或者安装用于检测查看请求类型的服务终端。

或者,服务终端串联在交换机和业务服务终端之间,在这种情况下,只有服务终端对待检测账户集查看请求的检测通过了,服务终端才会将待检测账户集查看请求转发至业务服务终端。串联方式的好处是检测结果没有滞后性,针对业务服务终端的任何异常请求,对业务服务终端都不会有任何影响,这是因为服务终端识别到非法查看的查看请求时,就会直接将该查看请求抛弃,业务服务终端根本就不会接收到非法查看的查看请求。

步骤S102,生成待检测账户集查看请求的请求证书,请求证书包括查看身份向量和查看内容向量。

具体的,服务终端生成待检测账户集查看请求的查看属性指纹(称为查看身份向量)以及待检测账户集查看请求的预设加密证书(称为查看内容向量),将确定的查看身份向量以及查看内容向量组合为待检测账户集查看请求的请求证书。

本发明中的“指纹”是一串可以标识出查看请求对应属性的密文(或者字符串),且不与其他指纹相冲突。预设加密证书是一串可以标识出账户集查看请求的密文。

下面首先说明如何提取待检测账户集查看请求的查看身份向量:

由于在待检测账户集查看请求中会包含该通信传输规则,因此服务终端可以直接获取待检测账户集查看请求的通信传输规则,服务终端从待检测账户集查看请求中提取发送该目标网络数据的终端设备信息,其中终端设备信息可以包括:终端设备的操作系统类型以及UA(User Agent用户代理)字段。

服务终端获取发送该待检测账户集查看请求的协议地址,其中协议地址可以分为多个协议空间地址,多个协议空间地址分别是B段协议地址和C段协议地址,服务终端分别获取待检测账户集查看请求的B段协议地址在协议空间地址集合中的所占比重,以及获取C段协议地址在协议空间地址集合中的所占比重(均称为地址所占比重)。其中,协议空间地址集合包括B段协议地址集合和C段协议地址集合,可以知道地址所占比重是指待检测账户集查看请求的B段协议地址在B段协议地址集合中的所占比重,以及待检测账户集查看请求的C段协议地址在C段协议地址集合中的所占比重。

服务终端将上述获取的通信传输规则、终端设备信息以及2个地址所占比重作为待检测账户集查看请求的查看身份向量。

下面再说明如何提取待检测账户集查看请求的查看内容向量:

服务终端从待检测账户集查看请求中提取出网关定位地址(称为目标网关定位地址),其中,查看请求中会包含请求地址URL(Uniform Resource Locator, 统一资源定位器),请求地址URL是由host+cgi组成,其中,cgi就是本发明中的网关定位地址。

服务终端将上述查找到的相似请求特征以及查找到的异常请求特征组合为请求特征,相似请求特征库以及异常请求特征库均属于请求特征预设请求数据库。

其中,相似请求特征库是对多个历史查看请求中的网关定位地址进行频繁序列模式提取后所生成的,异常请求特征库是对属于多个异常请求的多个历史查看请求进行频繁序列模式提取后生成的。

服务终端调用终端设备数字证书识别功能确定发送待检测账户集查看请求的终端设备数字证书(称为目标终端设备数字证书),终端设备数字证书可以被当做网络指纹并用来识别底层的终端设备以及服务终端侧应用程序,避免了通过“Client”或“Server”字符串这种表面上的识别因素来判断底层实现。其中,可以终端设备数字证书识别功能可以是基于JA3,HASSH以及FATT等实现的。

以JA3为例,终端设备数字证书识别功能的具体处理过程为:收集待检测账户集查看请求中以下字段的十进制字节值:版本、可接受的密码、扩展列表、椭圆曲线密码和椭圆曲线密码格式。然后,它将这些值串联在一起,得到一个字符串,使用“,”来分隔各个字段,同时,使用“-”来分隔各个字段中的各个值。计算该字符串的MD5值,将该MD5值作为查看请求的终端设备数字证书。

服务终端可以将前述中的请求特征中的相似请求特征使用“-”进行连接,并计算连接后的字符串的MD5值,将该MD5值作为相似请求特征的数据指纹。同样地,服务终端可以将前述中的请求特征中的异常请求特征使用“-”进行连接,并计算连接后的字符串的MD5值,将该MD5值作为异常请求特征的数据指纹。

服务终端可以将相似请求特征的数据指纹、异常请求特征的数据指纹以及目标终端设备数字证书组合为待检测账户集查看请求的预设加密证书(称为查看内容向量)。

至此,就确定了待检测账户集查看请求的目标查看属性指纹以及查看内容向量。

本发明从异常请求发起侧发起请求的过程进行分析,查看属性可以对应本发明中的查看身份向量,该查看身份向量可以包含通信传输规则,操作系统类型以及UA字段(操作系统类型以及UA字段又可以组合为终端设备信息),其中通信传输规则可以是基于链路协议识别检测到的,操作系统类型可以是基于操作系统指纹差异识别检测到的,后续基于UA字段可以确定字段属性置信度,其中该字段属性置信度是基于应用层机器识别检测到的。

步骤S103,根据查看内容向量在预设安全向量集合中的所占比重以及查看身份向量,确定待检测账户集查看请求的类型;预设安全向量集合包括多个历史查看请求的历史查看内容向量。

具体的,从前述可知,查看内容向量包括相似请求特征的数据指纹、目标终端设备数字证书以及异常请求特征的数据指纹,服务终端统计相似请求特征的数据指纹(相似请求特征的数据指纹也可以称为待检测账户集查看请求的参考安全向量指纹)在参考安全向量指纹参考安全向量集合中的所占比重(称为参考安全向量指纹所占比重),根据该参考安全向量指纹所占比重确定参考安全向量置信度。当然,参考安全向量指纹所占比重越高,那么参考安全向量置信度就越高,参考安全向量指纹参考安全向量集合包括多个历史查看请求的参考安全向量指纹。

服务终端统计目标终端设备数字证书在设备预设安全向量集合中的所占比重(称为设备指纹所占比重),根据设备指纹所占比重确定设备置信度。当然,设备指纹所占比重越高,那么设备置信度就越高,设备预设安全向量集合包括多个历史查看请求的终端设备数字证书。

服务终端统计异常请求特征的数据指纹(异常请求特征的数据指纹也可以称为待检测账户集查看请求的异常请求指纹)在异常请求指纹异常向量集合中的所占比重(称为异常请求指纹所占比重),根据该异常请求指纹所占比重确定异常请求置信度。当然,异常请求指纹所占比重越高,那么异常请求置信度就越高,异常请求指纹异常向量集合包括属于多个异常请求类型的多个历史查看请求的异常请求指纹。进一步地,在确定异常请求置信度时,不仅要参考异常请求指纹所占比重,还可以进一步确定待检测账户集查看请求的异常请求指纹属于哪一个异常请求类型,根据确定的异常请求类型以及异常请求指纹所占比重共同确定异常请求置信度。多个异常请求类型可以是:请求发起地点异常;请求发起时间异常;请求发起内容异常。

服务终端将上述参考安全向量置信度、设备置信度以及异常请求置信度相加为查看内容安全等级。

从前述可知,查看身份向量包括:通信传输规则、终端设备信息和地址所占比重。服务终端分别确定待检测账户集查看请求的链路协议类似对应的置信度(称为协议置信度),确定终端设备信息对应的置信度(称为终端设备信息置信度)以及确定所占比重对应的置信度(称为地址频率置信度),其中服务终端确定上述置信度是基于预设规则的方式确定的。服务终端可以将上述协议置信度,终端设备信息置信度以及地址频率置信度相加为身份向量可信度。

下面首先说明如何确定链路协议确定对应的协议置信度:

服务终端基于预设规则确定通信传输规则对应的分数,将该分数作为通信传输规则对应的协议置信度。例如,预设规则是:http协议类型对应的分数为10,FTP协议类型对应的分数是20,SMTP协议类型对应的分数为30。假设待检测账户集查看请求的通信传输规则是http协议类型,那么待检测账户集查看请求的协议置信度可以是10。

下面再说明如何根据终端设备信息确定与之对应的终端设备信息置信度:

从前述可知,终端设备信息可以包括终端设备的操作系统类型以及UA字段,服务终端基于预设规则确定操作系统类型对应的分数,将该分数作为操作系统类型对应的操作系统置信度。例如,预设规则是:windows操作系统类型对应的分数为10,linux操作系统类型对应的分数是20,unix操作系统类型对应的分数为30。假设发送待检测账户集查看请求的终端设备的操作系统类型是windows操作系统类型,那么待检测账户集查看请求操作系统置信度可以是10。

服务终端检测终端设备信息中的UA字段是否为空,若为空,那么可以将该UA字段的属性标记为黑;若不为空,进一步检测UA字段是否是常见自动化工具生成,若是,那么可以将该UA字段的属性标记为黑;若不是,进一步提取UA字段的header字段顺序,若header字段顺序是常见浏览器请求头,可以将该UA字段的属性标记为白,若header字段顺序是自动化工具请求头,可以将该UA字段的属性标记为灰,若header字段顺序既不是常见浏览器请求头也不是自动化工具请求头,可以将该UA字段的属性标记为黑。服务终端根据UA字段的属性确定字段属性置信度,其中,被标记为黑的UA字段的字段属性置信度>被标记为灰的UA字段的字段属性置信度>被标记为白的UA字段的字段属性置信度。

服务终端将前述中确定的操作系统置信度以及字段属性置信度相加为终端设备信息置信度。

下面再说明如何根据地址所占比重确定与之对应地址频率置信度:

从前述可知,地址所占比重的数量是2个,分别是待检测账户集查看请求的B段协议地址在B段协议地址集合中的地址所占比重,以及待检测账户集查看请求的C段协议地址在C段协议地址集合中的地址所占比重。服务终端基于预设规则分别确定B段协议地址的地址所占比重对应的B段置信度,以及C段协议地址的地址所占比重对应的C段置信度。将该B段置信度和C段置信度之和作为地址频率置信度。

可选的,除了采用上述方式确定地址频率置信度以外,服务终端还可以采用以下方式确定地址频率置信度:服务终端将B段协议地址的地址所占比重和C段协议地址的地址所占比重相加为目标地址所占比重,基于预设规则确定目标地址所占比重对应的地址频率置信度。

至此,服务终端就获取了查看内容安全等级以及身份向量可信度,服务终端可以将查看内容安全等级以及身份向量可信度相加为目标可信度,若目标可信度大于预设的第一预设可信度阈值,则确定待检测账户集查看请求的类型是非法查看;

反之,若目标可信度不大于预设的第一预设可信度阈值,则确定待检测账户集查看请求的类型是正常类型。

步骤S104,若待检测账户集查看请求的类型是非法查看,则拒绝待检测账户集查看请求。

具体的,若待检测账户集查看请求的类型是正常类型,且业务服务终端和服务终端之间是并联关系(即待检测账户集查看请求是服务终端通过旁路导流方式获取的),服务终端可以对待检测账户集查看请求不作任何处理;

若待检测账户集查看请求的类型是正常类型,且业务服务终端和服务终端之间是串联关系,服务终端可以将待检测账户集查看请求转发至业务服务终端,即表示服务终端认为待检测账户集查看请求不具有任何安全威胁,业务服务终端可以响应待检测账户集查看请求的业务请求。

若待检测账户集查看请求的类型是非法查看,且业务服务终端和服务终端之间是并联关系(即待检测账户集查看请求是服务终端通过旁路导流方式获取的),服务终端向终端设备以及业务服务终端分别发送阻断报文(即是RESET报文),该RESET报文的作用是阻断终端设备和业务服务终端之间的网络连接(网络连接也称为tcp连接),以使业务服务终端可以释放连接资源,释放后的连接资源可以用于响应其余正常查看请求的请求,避免业务服务终端处于宕机状态。这种情况下,业务服务终端可能接收到了待检测账户集查看请求,但业务服务终端一旦接收到阻断报文,就可以不用响应待检测账户集查看请求的业务请求了;或者,由于本发明检测待检测账户集查看请求的类型所耗费的时间足够短,在待检测账户集查看请求还未达到业务服务终端时,服务终端就检测出了待检测账户集查看请求的类型,若类型是非法查看,就直接阻断终端设备和业务服务终端之间的网络连接,也就是说在业务服务终端还未接收到待检测账户集查看请求之前,网络连接就被阻断了,因此业务服务终端就没有接收到待检测账户集查看请求。

若待检测账户集查看请求的类型是非法查看,且业务服务终端和服务终端之间是串联关系,服务终端抛弃待检测账户集查看请求,且向终端设备以及业务服务终端分别发送阻断报文(即是RESET报文),该RESET报文的作用是阻断终端设备和业务服务终端之间的网络连接(网络连接也称为tcp连接),以使业务服务终端可以释放连接资源,释放后的连接资源可以用于响应其余正常查看请求的请求,避免业务服务终端处于宕机状态。在这种情况下,业务服务终端必然不会接收到待检测账户集查看请求,也不会响应待检测账户集查看请求的业务请求。

在IPv6下的IP资源无穷无尽,且正常IP和异常IP是公用的,因此使用封IP的手法进行抵御会出现失效的情况,或者误封的情况,而本发明将查看请求的行为翻译成规则,无论IP是否出现过,也不论IP曾经是好还是坏,一旦触发规则,就直接阻断,可以做到精准防控和实时阻断。

本实施例主要描述如何生成请求特征预设请求数据库以及预设安全向量集合,查看请求处理方法包括如下步骤:

步骤S301,获取多个历史查看请求,从每个历史查看请求中提取网关定位地址。

具体的,获取多个历史查看请求,其中每个历史查看请求的生成时间戳可以均小于待检测账户集查看请求的生成时间戳。

提取每个历史查看请求的网关定位地址,其中,历史查看请求中会包含请求地址URL,请求地址URL是由host+cgi组成,其中,cgi就是本发明中的网关定位地址。

步骤S302,从多个网关定位地址中确定多个第一频繁序列模式,从多个第一频繁序列模式中筛选出高频参考安全向量集合。

具体的,服务终端对每个网关定位地址进行分词处理,得到每个网关定位地址的字符串集合,基于频繁模序列模式提取算法(频繁模序列模式算法可以具体是prefixspan算法)从所有网关定位地址的字符串集合中提取频繁序列模式(称为第一频繁序列模式),其中,第一频繁序列模式即是所有网关定位地址的字符串集合中所占比重非常高的字符串。prefixspan算法的具体过程是:从长度为1的前缀开始挖掘序列模式,搜索对应的投影数据库得到长度为1的前缀对应的频繁序列,然后递归地挖掘长度为2的前缀所对应的频繁序列,以此类推,一直递归到不能挖掘到更长的前缀对应的频繁序列为止。服务终端确定了第一频繁序列模式后,采用TF-IDF算法筛选出第一频繁序列模式中的高频第一频繁序列模式,将筛选出来的高频第一频繁序列模式组合为高频参考安全向量集合。

其中,高频参考安全向量集合中的字符串即是网关定位地址中的param、referer、cookie以及content等结构的cgi模板信息。

需要说明的是,由于prefixspan算法它考虑了序列项集间的先后次序,同时不用产生候选序列,且后缀集合缩小的很快,内存消耗相对小,作频繁序列模式挖掘的时候效果高,因此本发明采用prefixspan算法,可以快速找出所有cgi中的共现词(即第一频繁序列模式),快速提取出所有cgi的模板。

步骤S303,根据高频参考安全向量集合,确定每个历史查看请求的标准网关定位地址。

具体的,对每个网关定位地址的字符串集合来说,分别确定既属于网关定位地址的字符串集合也属于高频参考安全向量集合的字符串,将确定的字符串使用“-”连接,得到每个网关定位地址的标准网关定位地址。

步骤S304,调用终端设备数字证书识别功能确定每个历史查看请求的终端设备数字证书。

具体的,服务终端调用终端设备数字证书识别功能确定每个历史查看请求的终端设备数字证书,终端设备数字证书可以被当做网络指纹并用来识别底层的终端设备以及服务终端侧应用程序,避免了通过“Client”或“Server”字符串这种表面上的识别因素来判断底层实现。其中,可以终端设备数字证书识别功能可以是基于JA3,HASSH以及FATT等实现的。

可以知道,此处确定历史查看请求的终端设备数字证书和前述确定待检测账户集查看请求的目标终端设备数字证书的方式可以一致,只是处理对象发生了变化。

可选的,服务终端获取每个历史查看请求的历史查看属性指纹以及历史查看内容向量,其中,确定历史查看属性指纹和前述中确定待检测账户集查看请求的查看身份向量方式一致,只是处理对象发生了变化。历史查看内容向量包括历史查看请求的网关地址地址模板的数据指纹、历史查看请求的终端设备数字证书、以及历史查看请求的对比异常请求类型的数据指纹,其中标准网关定位地址的数据指纹即是标准网关定位地址的MD5值,且标准网关定位地址的数据指纹也可以称为历史查看请求的参考安全向量指纹。确定每个历史查看请求的对比异常请求类型的数据指纹的具体过程为:将每个历史查看请求都进行分词处理,得到每个历史查看请求的历史字符串集合,基于频繁模序列模式提取算法(频繁模序列模式算法可以具体是prefixspan算法)从所有历史字符串集合提取频繁序列模式(称为第三频繁序列模式),其中,第三频繁序列模式即是所有历史字符串集合中所占比重非常高的字符串。服务终端确定第三频繁序列模式后,采用TF-IDF算法筛选出高频第三频繁序列模式,将筛选出来的高频第三频繁序列模式作为异常请求类型高频关键词集合。对每个历史查看请求的历史字符串集合的来说,分别确定既属于历史字符串集合也属于异常请求类型高频关键词集合的字符串,将确定的字符串使用“-”连接,即可得到每个历史查看请求的对比异常请求类型。

服务终端基于预设规则确定每个历史查看请求的历史查看属性的置信度(称为第一置信度),此处的第一置信度即可对应前述中待检测账户集查看请求的身份向量可信度,服务终端根据每个历史查看请求的标准网关定位地址的数据指纹在所有历史查看请求的标准网关定位地址的数据指纹中的所占比重、每个历史查看请求的对比异常请求类型的数据指纹在所有历史查看请求的对比异常请求类型的数据指纹中的所占比重,以及根据每个历史查看请求的终端设备数字证书在所有历史查看请求的终端设备数字证书中的所占比重确定第二置信度,其中确定第二置信度和前述确定参考安全向量置信度、异常请求置信度和设备置信度之和的方式相同,只是处理对象发生了变化。至此,服务终端就获取了每个历史查看请求的第一置信度和第二置信度,若所有历史查看请求的第一置信度和第二置信度之和大于预设的第二预设可信度阈值,则服务终端执行下述步骤S305;反之,若所有历史查看请求的第一置信度和第二置信度之和不大于预设的第二预设可信度阈值,则服务终端可以删除多个历史查看请求。

上述过程可以理解为:服务终端检测多个历史查看请求是否为秒拨IP所发起的异常请求对应的请求,若是,才将历史查看请求对应的标准网关定位地址的数据指纹和终端设备数字证书以及高频参考安全向量集合存储至对应的数据库中,以对数据库进行更新,可以知道,更新后的数据库可以用于判断待检测账户集查看请求的类型;若不是,就抛弃历史查看请求相关的数据,说明这多个历史查看请求不能用于判断待检测账户集查看请求的类型。

步骤S305,将多个标准网关定位地址的数据指纹以及多个终端设备数字证书存储至预设安全向量集合,将高频参考安全向量集合存储至相似请求特征库。

具体的,服务终端将所有历史查看请求的标准网关定位地址的数据指纹存储至参考安全向量指纹参考安全向量集合,以更新参考安全向量指纹参考安全向量集合。更新后的参考安全向量指纹参考安全向量集合可以用于确定待检测账户集查看请求的参考安全向量置信度。

服务终端将所有历史查看请求的终端设备数字证书存储至设备预设安全向量集合,以更新设备预设安全向量集合。更新后的设备预设安全向量集合可以用于确定待检测账户集查看请求的设备置信度。

服务终端将高频参考安全向量集合存储至相似请求特征库,相似请求特征库可以用于确定待检测账户集查看请求的相似请求特征,进而确定待检测账户集查看请求的参考安全向量指纹。

需要说明的是,此处并未将历史查看请求的对比异常请求类型的数据指纹存储至异常请求指纹异常向量集合是因为虽然这多个历史查看请求是秒拨IP所发起的网络攻击,但这多个历史查看请求并不一定是属于多个异常请求类型的查看请求。

可选的,若多个历史查看请求是属于多个异常请求类型的查看请求,服务终端可以将多个历史查看请求划分为多个历史查看请求集合,历史查看请求集合的数量等于异常请求类型的数量,每个历史查看请求集合属于一个异常请求类型,多个异常请求类型包括:踩点收集目标信息阶段;建立据点阶段;横向移动阶段,即历史查看请求集合的数量可以等于3。

将每个历史查看请求都进行分词处理,得到每个历史查看请求的历史字符串集合。对每个历史查看请求集合来说,基于频繁模序列模式提取算法(频繁模序列模式算法可以具体是prefixspan算法)从每个历史查看请求集合所包含的所有历史字符串集合提取频繁序列模式(称为第二频繁序列模式),其中,第二频繁序列模式即是每个历史查看请求集合所包含的所有历史字符串集合中所占比重非常高的字符串。服务终端确定每个历史查看请求集合的第二频繁序列模式后,采用TF-IDF算法筛选出每个历史查看请求集合的第二频繁序列模式中的高频第二频繁序列模式,将筛选出来的高频第二频繁序列模式作为每个历史查看请求集合的高概率异常请求集合,其中高概率异常请求集合可以存储至异常请求特征库,异常请求特征库可以用于确定待检测账户集查看请求的异常请求指纹。

对每个历史查看请求的历史字符串集合的来说,分别确定既属于历史字符串集合也属于高概率异常请求集合的字符串,将确定的字符串使用“-”连接,得到每个历史查看请求的对比异常请求,以一个历史查看请求集合为单位,将属于同一个历史查看请求集合的历史查看请求的对比异常请求的数据指纹(即是对比异常请求的数据指纹的MD5值)组合为待确定对比异常请求指纹,将待确定对比异常请求指纹存储至异常请求指纹异常向量集合,以更新异常请求指纹异常向量集合。更新后的异常请求指纹异常向量集合可以用于确定待检测账户集查看请求的异常请求置信度。

若多个历史查看请求不是多个异常请求类型的查看请求,那么服务终端还获取额外的处于多个异常请求类型的多个异常查看请求,基于多个异常查看请求确定每个异常查看请求的对比异常请求的数据指纹,将该指纹存储至异常请求指纹异常向量集合即可。

需要说明的是,可以每间隔一段时间就更新一次参考安全向量指纹参考安全向量集合、设备预设安全向量集合以及异常请求指纹异常向量集合,可以将这一段时间获取到的查看请求作为历史查看请求,用于更新参考安全向量指纹参考安全向量集合、设备预设安全向量集合以及异常请求指纹异常向量集合。

也就是说,待检测账户集查看请求就也可以用于下一次更新参考安全向量指纹参考安全向量集合、设备预设安全向量集合以及异常请求指纹异常向量集合。

步骤S306,获取待检测账户集查看请求,生成待检测账户集查看请求的请求证书,请求证书包括查看身份向量和查看内容向量。

步骤S307,根据查看内容向量在预设安全向量集合中的所占比重以及查看身份向量,确定待检测账户集查看请求的类型;预设安全向量集合包括多个历史查看请求的历史查看内容向量;若待检测账户集查看请求的类型是非法查看,则拒绝待检测账户集查看请求。

在步骤S220中,根据各待检测账户及待检测账户之间的距离构建第一知识图谱,并根据预设分类算法对第一知识图谱中的节点进行分类,以获取包含目标账户的账户簇。

在本公开的一个实施例中,一个账户簇至少包含两个以上个交易账户,一个账户簇内的所有交易账户指向同一个交易操作,即每个交易账户所描述的要点是彼此相同的,因而账户簇存在传递性,若交易账户A和交易账户B属于一个账户簇,且交易账户B和交易账户C属于一个账户簇,则交易账户A和交易账户C属于一个账户簇。也就是说,即使是对应同一个当前操作的账户,也会有多个不同的账户表述,因此有必要对待检测账户集中的待检测账户进行聚类,将对应同一个当前操作的账户划分为一个账户簇,并获取账户簇特征,进而基于账户操作记录和账户簇特征对建立的账户参考行为记录库的进行验证。

在挖掘待检测账户集中账户簇时,可以根据待检测账户集中各待检测账户及任意两待检测账户之间的距离构建第一知识图谱,进而基于第一知识图谱进行分类,以获取一个或多个包含目标账户的账户簇。在构建第一知识图谱时,以各待检测账户为节点,根据两节点对应的账户之间的距离确定是否在两节点之间设置边,进而根据节点和边构建得到第一知识图谱。待检测账户集中任一待检测账户可以作为目标账户,在挖掘包含目标账户的账户簇时,可以将目标账户作为第一知识图谱中的初始节点,其它账户作为非初始节点,进而根据第一知识图谱得到包含目标账户的账户簇。交易账户之间的距离表征两账户之间的紧密程度,若两账户之间的距离小于或等于第一距离阈值,则说明两个账户对应同一当前操作,可以划分为一个账户簇,若两账户之间的距离大于第一距离阈值,则说明两个账户对应不同的账户要点,不能划分为一个账户簇。

在本公开的一个实施例中,第一距离阈值与账户簇的质量相关,在评价账户簇的质量时可以根据以下两个指标进行无监督地评估,一个指标为挖掘账户簇个数,一个指标为整体平均度。账户簇个数很直观,个数越多表示每个账户簇的粒度越小,账户簇的精确率越高,账户簇间的信息冗余度可能也越高,相应地召回率越低;相反,账户簇个数越少,表示每个账户簇的粒度越大,账户簇的精确率越低,而召回率越高。整体平均度是所有账户簇的平均度的平均值,可以用平均度衡量一个账户簇的质量,平均度表示知识图谱中平均每个节点的度数,一个账户簇内部越紧密,平均度越高。

值得注意的是,当第一距离阈值卡得过低时,会引入很多边,这样两个账户是否属于同一个账户簇的错误率会激增,因此可以根据衡量账户簇质量的两个指标,通过多次试验确定第一距离阈值,以同时兼顾整体平均度和账户簇的个数。在本公开的实施例中,第一距离阈值以及交易账户之间的距离均可以为余弦距离,当然也可以是其它类型的距离,当余弦距离取[0.3,0.4]时,账户簇个数达到最大值,并且平均度的增长趋势也比较缓慢,也就是说,第一距离阈值取[0.3,0.4]中的任意值的效果最优。

在确定第一距离阈值后,可以将交易账户之间的距离与第一距离阈值进行比较,当交易账户之间的距离小于或等于第一距离阈值时,在两账户形成的节点之间设置边,当交易账户之间的距离大于第一距离阈值时,在两账户形成的节点之间不设置边。进而根据账户形成的节点和节点之间的边形成第一知识图谱。

在本公开的一个实施例中,由于获取的待检测账户覆盖各个领域,因此待检测账户集中必然包含大量的待检测账户,这对后续账户簇挖掘和账户簇特征挖掘都带来不小的压力,为了减小数据处理量,提高账户簇和账户簇特征的挖掘效率,可以对待检测账户集中的账户进行筛选以获取包含目标账户的待定账户集,进而基于待定账户集构建知识图谱,进行账户簇和账户簇特征的挖掘。

在步骤S501中,确定与待检测账户集中各待检测账户对应的账户标识,并对各待检测账户进行预处理以获取与各待检测账户对应的账户行为信息和行为特征;在步骤S502中,根据行为特征对各待检测账户对应的账户行为信息进行排序,根据排序后的账户行为信息确定各待检测账户的关键行为,并根据各待检测账户的关键行为构建与各待检测账户对应的第一行为序列;在步骤S503中,根据各待检测账户的账户标识和第一行为序列构建第一行为检测表,并根据目标账户对应的关键行为和第一行为检测表确定待定账户集。

其中,步骤S501中,确定与待检测账户对应的账户标识具体可以是根据获取待检测账户的时间顺序对待检测账户赋予账户标识,该标识可以是简单的数字,也可以是根据待检测账户的类型和获取时间组合而成的标识信息,只要能够体现待检测账户的获取顺序且区别不同的待检测账户即可。对待检测账户进行预处理具体可以是对待检测账户进行账户行为获取、标记账户身份标识和去除无用字段,以获取与待检测账户对应的账户行为信息和行为特征,该行为特征包括行为名称、行为类型和idf值。在预处理结束后,可以根据得到的账户行为从idf特征库中获取对应的idf值,idf为未出现占比,某一特定账户操作的idf可以由总文档数目除以包含该账户操作的文档的数目,再将得到的商取对数得到。由于对同一文档集而言,各个账户操作的idf值不会发生变化,因此可以根据各个账户操作在文档集中的idf值形成idf特征库,当对待检测账户进行预处理获取账户行为后,可以根据账户行为在idf特征库中查找获取对应的idf值。

步骤S502中,在获取待检测账户对应的账户行为信息和行为特征后,可以根据预先设定的赋值规则对账户行为的行为名称、行为类型进行赋值,以获取与行为名称对应的第一参数和与行为类型对应的第二参数,然后将第一参数、第二参数和idf值相加,以获取与账户行为信息对应的第三参数;接着根据账户行为信息对应的第三参数由大到小对账户行为信息排序,并从排序后的账户行为信息中依次获取第一预设数量的账户行为信息作为关键行为,即从排序后的账户行为信息中获取top k个账户行为信息作为待检测账户的关键行为,其中k可以根据实际需要设定,例如可以设置为5,等等,然后再根据各待检测账户对应的关键行为构建各待检测账户对应的第一行为序列。

步骤S503中,基于各个待检测账户对应的第一行为序列和账户标识建立从账户行为到账户标识的第一行为检测表,进而可以根据目标账户对应的关键行为和第一行为检测表确定待定账户集。在本公开的实施例中,通过一系列的剪枝操作来获取待定账户集,以在召回所有待定账户的前提下缩小待检测账户查找范围。

剪枝操作具体如下:首先获取目标账户的关键行为,即目标账户对应的top k个账户行为;接着使用该些关键行为在行为检测表中进行匹配,以获取待定账户的账户标识。这样可以将待检测账户查找范围从原始的待检测账户集缩小到包含目标账户关键行为的账户集合,通过实验发现,当原始待检测账户集的大小为15864时,通过上述倒排查找,可以将待定账户集的大小平均缩小到2291.73。虽然该步获取的待定账户集的大小相对原始的待检测账户集有了显著地缩小,但是为了进一步过滤无关的待定账户,还可以根据目标账户的关键行为进行深度过滤,具体地可以设定待定账户至少包括目标账户的2个关键行为,并且已经属于历史生成账户簇的账户也会被过滤掉,在同一实验中,待定账户集的大小的平均值从2291.73缩小至18.84。可以看出,通过上述剪枝操作可以过滤掉待检测账户集中大量的无关账户,保证待定账户集中基本为与目标账户相关的账户,另外由于待定账户集的大小远远小于待检测账户集的大小,因此可以提高账户簇和账户簇特征的挖掘效率。

在本公开的一个实施例中,在第一知识图谱中,目标账户为初始节点,为了获取包含目标账户的账户簇,可以以初始节点为基准,通过社区发现算法从第一知识图谱中找到包含初始节点的紧密子图,但是实验发现直接应用社区发现算法,对少部分候选集很大的情况下,耗时非常高,因此为了快速获取包含目标账户的账户簇,并提高账户簇的质量,本公开实施例中根据设置好的预设分类算法对第一知识图谱中的节点进行分类。

在本公开的一个实施例中,可以设定一些条件,满足设定条件的账户必然属于包含目标账户的账户簇。设定条件具体可以是:条件1、初始节点属于当前要挖掘账户簇;条件2、与初始节点的余弦距离小于第一距离阈值的账户属于当前要挖掘账户簇;条件3、若账户X不存在于基于条件1和2所获取账户簇中,但账户簇中存在至少m个账户与账户X的余弦距离小于第一距离阈值,则账户X属于当前要挖掘账户簇,其中m可以根据实际需要设置,例如可以设置为2。

在根据预设分类算法对第一知识图谱中的节点进行分类时,首先初始化一个空的向量空间、一个序列和一个预设数据库,其中向量空间具体可以是set容器,用于存放满足包含目标账户的账户簇条件的账户标识,序列用于存放组成包含目标账户的账户簇的账户标识序列,预设数据库用于存放与满足条件1和2账户簇中各账户的距离小于或等于第二距离阈值的账户所对应的账户标识;接着将初始节点对应的账户标识置于序列的首位,并将初始节点对应的账户标识添加至set容器;然后遍历第一知识图谱中的其它节点,将与初始节点的距离小于或等于第一距离阈值的第一节点对应的账户标识依次添加至序列中,并根据第一节点对应的账户标识更新向量空间;最后初始化一个指针,根据指针的大小、序列和向量空间确定包含目标账户的账户簇。通过将与初始节点的距离小于或等于第一距离阈值的第一节点对应的账户标识依次添加至序列中,可以将第一知识图谱中满足条件2的节点对应的账户划分到包含目标账户的账户簇中,也就是说,此时的set容器中包含的账户标识所对应的账户均是满足条件1和条件2的账户,均属于包含目标账户的账户簇。

根据指针的大小、序列和向量空间确定包含目标账户的账户簇,主要是为了获取第一知识图谱中满足条件3的节点所对应的账户。指针的大小和序列中账户标识的序号相对应,例如指针为5时,则指向序列中处于第5位的账户标识,值得注意的是,序列中的账户标识是从第0位开始存放。初始化的指针的大小为0,指向序列的第0个元素,即初始节点对应的账户标识,然后指针逐次加1,指向序列的下一个元素,当确定指针的大小后,可以根据指针的大小在序列中确定参考账户标识,并计算参考账户标识对应的账户与第一知识图谱中其它节点对应的账户之间的距离,例如指针的大小为4,那么可以将序列中第4位元素对应的账户标识作为参考账户标识,然后计算参考账户标识对应的账户与第一知识图谱中除第0位-第4位元素对应的节点之外的其它节点之间的距离。当第一知识图谱中存在与参考账户标识所对应操作习惯的距离小于或等于第二距离阈值的第二节点时,将该第二节点对应的待处理账户的账户标识和参考账户标识存储于预设数据库中,该预设数据库为键值对容器,其中key存放待处理账户的账户标识,value是set容器,存放与待处理账户的账户标识对应的参考账户标识的集合。

当根据待处理账户的账户标识更新预设数据库后,判断预设数据库中该待处理账户的账户标识所对应的参考账户标识的数量是否达到第二预设数量,该预设数量具体可以是上文中提到的m,当与该待处理账户的账户标识所对应的参考账户标识的数量大于或等于第二预设数量时,说明在满足条件1和条件2账户簇中存在至少m个账户与目标账户的距离小于或等于第二距离阈值,该待处理账户属于当前要挖掘的包含目标账户的账户簇,因此可以将该待处理账户追加到序列的后面,并根据该待处理账户更新向量空间;当与该待处理账户的账户标识所对应的参考账户标识的数量小于预设数量时,说明该待处理账户不满足条件3,不属于当前要挖掘的包含目标账户的账户簇,过滤掉即可。

通过根据指针对序列中全部元素进行遍历,并执行以上操作,即可获取可形成包含目标账户的账户簇的所有账户,进而根据最终形成的序列中的账户即可形成包含目标账户的账户簇。

在本公开的一个实施例中,交易账户之间的距离均可以为余弦距离,且第一距离阈值和第二距离阈值的大小均可以相同。

通过上述的预设分类算法对第一知识图谱中各个节点对应的账户进行分类,可以获取待定账户集中与目标账户的距离小于或等于第一距离阈值的所有账户,该些账户可以形成初始账户簇,进一步地,可以获取待定账户集中与初始账户簇中至少m个账户的距离小于或等于第二距离阈值的所有账户,进而根据初始账户簇和该些账户可以形成包含目标账户的账户簇。这样能够提高账户簇的挖掘效率以及精准度,在保证精确率的同时也保证了召回率。

在步骤S230中,根据账户簇中各账户的账户行为构建第二知识图谱,并基于第二知识图谱获取账户簇特征。

在本公开的一个实施例中,在挖掘得到包含目标账户的账户簇后,可以对账户簇的特征进行挖掘,以获取账户簇特征。在本公开实施例中,将账户簇的关键行为和关键行为有效值作为账户簇特征,在获取账户簇的关键行为时,可以根据账户簇中的各个账户构建第二知识图谱,并根据第二知识图谱确定账户簇的关键行为。

在步骤S601中,对账户簇中的各个待检测账户进行预处理,并根据预设行为名称从预处理的结果中获取目标账户行为;在步骤S602中,以目标账户行为为节点,在对应同一账户的目标账户行为之间构建边,根据节点和边构建第二知识图谱;在步骤S603中,基于第二知识图谱迭代计算目标账户行为的权重,将目标账户行为的权重由大到小排序以获取第二行为序列,并根据第二行为序列确定账户簇特征。

步骤S601中,对账户簇中的待检测账户所进行的预处理与上述实施例中的预处理相同,也是对待检测账户进行账户行为获取、标记账户身份标识和去除无用字段,通过预处理可以获取与账户簇中各个待检测账户对应的账户行为信息,接着可以根据预设行为名称从账户的账户行为信息中获取目标账户行为,该预设行为名称具体可以是买入、卖出、转换等特定行为名称,该些行为名称的账户行为在账户中具有较大权重,可作为待检测账户的关键行为,根据预设行为名称对账户行为信息进行过滤可以避免不重要的账户行为所带来的计算量,提高账户簇特征的挖掘效率。

步骤S602中,在获取账户对应的目标账户行为后,可以根据目标账户行为构建第二知识图谱,该第二知识图谱为无向图,其中目标账户行为为节点,对应同一账户的账户行为之间设置边,这是因为对应同一账户的账户行为之间存在共现关系,因此在对应同一账户的账户行为之间存在边。

步骤S603中,在构建完成第二知识图谱后,可以基于第二知识图谱确定各个目标账户行为的权重,该权重表征了目标账户行为在账户中的重要度,权重越大,作为账户簇关键行为的概率越大。

对第二知识图谱中的每个账户行为的权重进行迭代计算,直至收敛,即可获取每个账户行为的最终权重。在获取各个账户行为的权重后,可以根据账户行为的权重从大到小进行排序以获取第二行为序列,接着可以将第二行为序列中各账户行为的权重依次与预设的权重阈值进行比较,若账户行为的权重大于或等于权重阈值,则将该账户行为作为账户簇的关键行为,若账户行为的权重小于权重阈值,则该账户行为不是账户簇的关键行为,其中权重阈值可以根据实际需要设定,例如可以设置为0.7等。在确定账户簇的关键行为后,可以将与该些关键行为对应的权重作为各关键行为在账户簇下的有效值,即关键行为有效值,最后根据账户簇的关键行为和关键行为有效值即可获取账户簇特征。

在本公开的一个实施例中,在挖掘得到与待检测账户集对应的账户操作记录及账户簇特征后,可以将账户簇和账户簇特征更新到线上服务,以对接收到的账户参考行为记录库的进行验证。

在步骤S240中,基于账户操作记录和账户簇特征对账户参考行为记录库的进行验证。

在本公开的一个实施例中,账户操作记录和账户簇特征均可用于对账户参考行为记录库的进行验证,当将账户操作记录和账户簇特征更新到线上服务时,可以先根据账户操作记录对账户参考行为记录库的进行验证,当根据账户操作记录无法确定账户参考行为记录库的有效时,再根据账户簇特征对账户参考行为记录库的进行验证。

在本公开的一个实施例中,在对账户参考行为记录库进行有效识别之前,也需要对账户参考行为记录库进行预处理,以获取与账户参考行为记录库对应的账户行为及行为特征,在对账户参考行为记录库进行账户行为获取、标记账户身份标识和去除无用字段得到与账户参考行为记录库对应的账户标准行为记录库后,将账户标准行为记录库与idf特征库中的账户行为进行匹配,以获取账户标准行为记录库对应的idf值。

在根据账户操作记录对账户参考行为记录库的进行验证时,具体是计算账户参考行为记录库与账户操作记录的相似度,判断相似度是否满足第一条件,若不满足则账户参考行为记录库具有有效,若满足则账户参考行为记录库可能没有有效,还需进一步判断。在步骤S701中,根据账户操作记录对应的账户行为及账户标识构建第二行为检测表;在步骤S702中,将账户标准行为记录库与第二行为检测表中的账户行为进行匹配,根据匹配结果获取待定账户标识;在步骤S703中,获取账户标准行为记录库在待定账户标识对应的待定账户中的出现占比和未出现占比,根据该出现占比和未出现占比确定账户参考行为记录库与待定账户之间的相似度;在步骤S704中,当相似度大于或等于相似度阈值时,判定相似度不满足第一条件,则账户参考行为记录库是有效账户参考行为记录库;当相似度小于相似度阈值时,判定相似度满足第一条件,则账户参考行为记录库可能不是有效账户参考行为记录库。其中,在步骤S701的第二行为检测表中,账户操作记录对应的账户行为为key,账户行为对应的账户标识为value;在步骤S703中账户标准行为记录库在待定账户标识对应的待定账户中的出现占比为账户标准行为记录库在每一个待定账户标识对应的待定账户中出现的次数,并且根据出现占比和未出现占比确定账户参考行为记录库与待定账户之间的相似度可以计算得到。

在本公开的一个实施例中,相似度阈值可以根据实际需要设定,例如可以设置为0.6,当得到账户标准行为记录库与某账户的账户操作记录的相似度大于或等于0.6时,说明该账户参考行为记录库与该账户相关,可以确定账户参考行为记录库为有效账户参考行为记录库,也就是说用户想要获取与该待检测账户相关的信息;当得到账户参考行为记录库与某账户的账户操作记录相似度小于0.6时,说明该账户参考行为记录库与该账户的相关度较低,可能不是有效账户参考行为记录库,但是为了提高识别精准度,还需要根据账户簇特征对账户参考行为记录库的进行验证。

在本公开的一个实施例中,在根据账户簇特征进行有效识别时,首先可以根据账户簇特征对应的账户行为及账户簇标识构建第三行为检测表,将账户簇特征对应的账户行为作为key,将账户簇对应的账户行为所对应账户簇标识作为value;接着可以将对账户参考行为记录库进行预处理得到的账户标准行为记录库与第三行为检测表中的账户行为进行匹配,以获取匹配的待定账户的账户簇标识;然后根据账户标准行为记录库对应的idf值和待定账户的账户簇标识对应账户簇特征计算账户标准行为记录库属于每个账户簇特征的概率,也就是账户标准行为记录库的有效阈值;最后根据有效阈值判断账户参考行为记录库是否为有效账户参考行为记录库。

在本公开的一个实施例中,在获取有效阈值之后,可以将有效阈值与时新阈值进行比较,判断账户参考行为记录库是否为有效账户参考行为记录库。与相似度阈值类似,时新阈值也可以根据实际需要设定,例如可以设置为0.65,当得到有效阈值大于或等于0.65时,说明该账户参考行为记录库与该账户簇特征对应账户簇相关,可以确定账户参考行为记录库为有效账户参考行为记录库,也就是说用户想要获取与该类待检测账户相关的信息;当得到有效阈值小于0.65时,说明该账户参考行为记录库与该账户簇对应账户簇特征的相关度较低,可以确定账户参考行为记录库不是有效账户参考行为记录库。

在确定账户参考行为记录库是否为有效账户参考行为记录库后,可以根据识别结果为用户推送相应的信息,例如用户在前端输入的账户参考行为记录库为“数字货币买入”,通过计算账户参考行为记录库与待检测账户对应的账户操作记录的相似度以及账户参考行为记录库在待检测账户对应账户簇特征下的有效阈值,确定账户参考行为记录库是否为有效账户参考行为记录库,例如经判断确定该账户参考行为记录库为有效账户参考行为记录库,那么可以获取关于购买数字货币的待检测账户,并将相应的账户检测,如果经判断确定该账户参考行为记录库不是有效账户参考行为记录库,那么可以发送对应的提示。

在本公开的一个实施例中,根据账户簇的挖掘方法可以对待检测账户对应的重复误操作进行聚合去重,通过聚合去重可以去除对应同一待检测账户的重复误操作,保留不重复的待检测账户。举例而言,同一个待检测账户会有多个相似重复操作出现(例如因为网络原因重复操作),通过上述实施例账户簇挖掘方法可以将多个重复误操作,划分为一个或多个账户簇,各账户账户簇对应一个待检测账户,且属于同一个账户簇的重复误操作可以认为是对同一个待检测账户的多种描述,这样在展示待检测账户时只需将每个账户簇中的任一重复误操作进行展示即可,保证了获取的都是不重复的待检测账户。

本公开中基于大数据的账户云安全管理方法能够根据与待检测账户集对应的账户操作记录和账户簇特征对建立的账户参考行为记录库进行有效识别,进而根据识别结果确定与账户参考行为记录库对应的时效需求。在挖掘待检测账户集中账户簇及账户簇特征时,可以通过对待检测账户集中的待检测账户进行处理获取包含目标账户的待定账户集,接着根据待定账户集构建第一知识图谱并采用预设分类算法对第一知识图谱中的节点进行分类,获取包含目标账户的账户簇,在挖掘账户簇特征时,可以根据账户簇中的账户构建第二知识图谱,进而通过关键行为查找方法获取账户簇的关键行为及关键行为的权重,得到账户簇特征。本公开的技术方案一方面能够提高账户簇及账户簇特征的挖掘效率和精准度,在一次对比实验中,原始账户列表相同,大小为158614,本公开实施例中账户簇挖掘方法在15min内处理完所有账户,挖掘出21715个账户簇,而使用社区检测算法greedy_modularity_communities处理到第66个账户时,发现了44个账户簇,但已经使用了83min;另一方面能够提高对账户参考行为记录库的有效识别的精准度,保证后续能够精确的对用户的交易账户进行检测,提高用户账户的安全度。

本发明实施例提供一种安全管理平台110,请结合参考图2,安全管理平台110包括:

获取模块1101,用于获取待检测账户集,对待检测账户集中各待检测账户进行预处理以获取与各待检测账户对应的账户操作记录。

构建模块1102,用于根据待检测账户及待检测账户之间的距离构建第一知识图谱,并根据预设分类算法对第一知识图谱中的节点进行分类,以获取包含目标账户的账户簇;根据账户簇中各待检测账户的账户行为构建第二知识图谱,并基于第二知识图谱获取账户簇特征。

验证模块1103,用于基于账户操作记录和账户簇特征对账户参考行为记录库的进行验证。

需要说明的是,前述安全管理平台110的实现原理可以参考前述基于大数据的账户云安全管理方法的实现原理,在此不再赘述。应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,安全管理平台110可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上安全管理平台110的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所描述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。

本发明实施例提供一种计算机设备100,计算机设备100包括处理器及存储有计算机指令的非易失性存储器,计算机指令被处理器执行时,计算机设备100执行前述的安全管理平台110。如图3所示,图3为本发明实施例提供的计算机设备100的结构框图。计算机设备100包括安全管理平台110、存储器111、处理器112及通信单元113。

为实现数据的传输或交互,存储器111、处理器112以及通信单元113各元件相互之间直接或间接地电性连接。例如,可通过一条或多条通讯总线或信号线实现这些元件相互之间电性连接。安全管理平台110包括至少一个可以软件或固件(firmware)的形式存储于存储器111中或固化在计算机设备100的操作系统(operating system,OS)中的软件功能模块。处理器112用于执行存储器111中存储的安全管理平台110,例如安全管理平台110所包括的软件功能模块及计算机程序等。

本发明实施例提供一种可读存储介质,可读存储介质包括计算机程序,计算机程序运行时控制可读存储介质所在计算机设备100执行前述的基于大数据的账户云安全管理方法。

综上所述,采用本发明实施例提供的一种基于大数据的账户云安全管理方法及安全管理平台,通过获取待检测账户集,对待检测账户集中各待检测账户进行预处理以获取与各待检测账户对应的账户操作记录;根据待检测账户及待检测账户之间的距离构建第一知识图谱,并根据预设分类算法对第一知识图谱中的节点进行分类,以获取包含目标账户的账户簇;根据账户簇中各待检测账户的账户行为构建第二知识图谱,并基于第二知识图谱获取账户簇特征;基于账户操作记录和账户簇特征对账户参考行为记录库的进行验证,巧妙地利用了账户操作记录和账户簇特征对作为监管依据的账户参考行为记录库的有效性进行了验证,能够提供一种高安全性的基于大数据的账户云安全管理方案。

出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用,从而使本领域技术人员最佳地利用本公开,并利用具有不同修改的各种实施例以适于预期的特定应用。出于说明目的,前面的描述是参考具体实施例而进行的。但是,上述说明性论述并不打算穷举或将本公开局限于所公开的精确形式。根据上述教导,众多修改和变化都是可行的。选择并描述这些实施例是为了最佳地说明本公开的原理及其实际应用,从而使本领域技术人员最佳地利用本公开,并利用具有不同修改的各种实施例以适于预期的特定应用。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号