首页> 中国专利> 一种基于多层感知器的陷落指标自动提取方法

一种基于多层感知器的陷落指标自动提取方法

摘要

本申请公开了一种陷落指标自动提取的方法,能够自动从网页中分类出安全事件类文章并从文章中提取陷落指标(IoC)。本方法包括:对网页文章所在文件进行预处理生成简化文件;使用自然语言处理技术对简化文件进行处理,去除、替换干扰符号,生成源文件;通过自然语言处理技术从源文件所含文本数据中提取多维特征;通过多维特征训练多层感知器分离出安全事件类文章;从安全事件类文章中,提取出文章中的疑似IoC组;通过关键词匹配方法对于疑似IoC组内的每一个数据进行判断;通过基于HTML结构的关键句查找方法定位关键句,通过关键字匹配方法判断关键句所关联的疑似IoC组是否为真。

著录项

  • 公开/公告号CN112395481B

    专利类型发明专利

  • 公开/公告日2022-08-09

    原文格式PDF

  • 申请/专利权人 四川大学;

    申请/专利号CN201910762037.0

  • 发明设计人 刘亮;李孟铭;郑荣锋;

    申请日2019-08-19

  • 分类号G06F16/951(2019.01);G06F40/279(2020.01);G06K9/62(2022.01);

  • 代理机构

  • 代理人

  • 地址 610065 四川省成都市武侯区一环路南一段24号

  • 入库时间 2022-09-06 00:40:17

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-09

    授权

    发明专利权授予

说明书

技术领域

本发明涉及网络安全领域,特别涉及一种基于多层感知器的陷落指标自动提取方法。

背景技术

目前公开的网络威胁情报来源主要由AlienVault、FireEye、Malwarebyte等安全公司建立的博客或论坛。这些博客、论坛时常发布当前正在发生的网络安全事件,可以方便安全人员了解与安全事件相关的详细信息。随着网络安全事件的激增,与安全事件相关的陷落指标(IoC)信息也在不断被上述公开的威胁情报来源及时地公布、报导。如果能够及时地将计算机系统中发现的IoC信息回溯到与之相关的博客和帖子,就可以极大提高安全人员处置安全事件的效率。

由于安全公司的博客和论坛同时也会发布大量与网络安全事件无关的文章,因此如何自动化地从大量文章中分类出与安全事件有关的文章,并提取出文章中非结构化的IoC数据,构建威胁情报数据库,是本领域技术人员亟需解决的问题。

发明内容

本申请的目的是提供一种陷落指标自动提取方法,能够自动化地从大量网页中分类出安全事件类文章并从文章中提取陷落指标(IoC)。

为解决上述技术问题,本申请提供一种陷落指标自动提取的方法,该方法包括以下方法。

通过HTML处理技术,去除与文章内容无关的HTML标签,生成所述简化HTML文件。

通过自然语言处理技术替换、去除HTML所含文本信息中,为避免读者错误点击而设置的干扰符号,生成源HTML文件。

通过自然语言处理技术对所述源HTML文件所含由的文本数据进行多维特征提取,所述多维特征如下:1)文本数据中出现的各类疑似IoC数据数量;2)通过隐藏狄利克雷分布主题模型提取出的文章数据主题词;3)文本数据的大小。

通过从收集的大量网页文章中组织训练样本,提取所述的多维特征,训练多层感知器模型。使用所述的训练好的多层感知器模型,从大量网页文章中分离出安全事件类文章。

对所述源HTML文件,若其文本数据所含信息与网络安全事件有关,则通过基于HTML结构的聚类方法形成不同的疑似IoC组。

对疑似IoC组内的各个疑似IoC所在语句进行关键字匹配,判断该疑似IoC是否为所述IoC条目。若确认该疑似IoC是所述IoC条目,则提取该IoC数据,并从该所属的疑似IoC组中去除该IoC。

通过疑似IoC组中的各疑似IoC出现在文本数据中的先后顺序不同,推选该疑似IoC组的代表IoC。通过所述代表IoC在HTML结构中的位置关系,查找能够代表该疑似IoC组的关键句。使用关键字对所述关键句进行匹配,判断关键句所关联的疑似IoC组是否为IoC条目。

本发明提供了一种新的IoC提取方法,对网页文章所在HTML文件进行预处理,去除其中无文本显示意义的标签,生成简化HTML文件;通过自然语言处理技术替换、去除所述简化HTML文件中的干扰符号,生成源HTML文件;通过自然语言处理技术,从所述源HTML文件中的文本数据中提取多维特征并训练多层感知器模型,从大量网页文章中分离出与网络安全事件有关的网页文章;对所述与网络安全事件有关的网页文章,通过疑似IoC在源HTML文件中的位置结构关系查找能够指代一组具有相同标签的疑似IoC组是否为IoC条目的关键句;通过关键词匹配算法处理所述关键句以判定该疑似IoC是否为IoC条目。

附图说明

图1为本申请实施例所提供的一种陷落指标提取的方法的流程图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

下面请参加图1,图1为本申请实施例所提供的IoC提取方法的流程图。

具体步骤如下。

步骤S101:通过HTML处理技术,去除与文章内容无关的HTML标签,生成简化HTML文件:

通过HTML文件处理技术,去除只具有文本增强功能的“”,“”,“”,“”,“
”,“
”,“
”等标签;将HTML文件中的“”标签替换为“

”标签,“”标签替换为“

”标签;将HTML文件中的表格标签替换、去除,使之成为按行显示的“
”、“

”标签。总之,本步骤生成的简化HTML文件,就是最大限度的去除原始网页文件中与文章中文本数据本身无关的标签。

步骤S102:通过自然语言处理技术去除简化HTML文件中的、由作者添加的干扰符号:

在简化HTML文件的文章文本数据中,存在许多由作者主动添加的干扰符号,这些干扰符号是为了避免读者错误点击与网络安全事件有关的链接或域名,进而导致相关利益遭受侵害而添加的。常用的干扰符包括使用“[.]”、“[dot]”,“(dot)”代替在域名、链接中常使用的“.”,“hxxp”和“hXXp”代替链接中常出现的“http”,“hxxps”和“hXXps”代替链接中常出现的“https”。总之,本步骤通过自然语言处理技术中的简单的文本替换方法,将作者添加的干扰符替换、去除,生成源HTML文件。

步骤S103:通过自然语言处理技术对所述源HTML文件含有的文本数据进行多维特征提取,所述多维特征包括:

1)文本数据中出现的各类疑似IoC数据数量。源HTML文件中出现的所有域名、链接、IP和哈希值类型的文本数据都有可能是与网络安全事件有关的IoC数据,称为疑似IoC。本步骤中,通过正则匹配方法分别对这四类疑似IoC进行统计,提取各类疑似IoC数量作为文本特征。2)通过隐藏狄利克雷分布主题模型提取出的文本数据的主题词。3)网页文章的长度。

步骤S104:通过从收集的大量网页文章中组织训练样本,提取所述的多维特征,训练多层感知器模型:

首先需要从已经发布的博客和论坛中收集一定数量的网页文章样本,通过专业人员判定该网页文章是否与网络安全事件有关,即收集模型训练样本。使用步骤S103中所述方法提取样本中的多维特征,使用提取的特征训练多层感知器模型。训练好的多层感知器就可以根据网页文章的多维特征分辨一篇文章是否与网络安全事件有关。

步骤S105:对所述源HTML文件,若其文本数据所含信息与网络安全事件有关,则通过基于HTML结构的聚类方法可以将网页文章中出现的各类疑似IoC聚合成不同的疑似IoC组:

本步骤提出的基于HTML结构的聚类方法,充分考虑出现在文章句子中的IoC信息和以IoC列表形式出现在文章中的IoC信息。句子中的IoC信息指的在文章句子中的,经过作者详细描述的IoC信息;列表形式的IoC信息指的是在文章中,以附录、列表等形式出现的IoC信息。通过正则匹配方式,可以很容易地定位到文章中疑似IoC信息所在句子,之后根据该句子所在HTML标签的类型、标签属性值、该标签的父标签值及父标签的属性值,将此四类数值完全相同的疑似IoC信息进行聚类,形成疑似IoC组。

步骤S106:对于所述疑似IoC组,通过关键词匹配方法,判定每一个疑似IoC组内的每一条IoC是否为所述IoC条目。

通过关键字匹配方法对每一个疑似IoC组内的每一条疑似IoC所在语句进行判断,确定该疑似IoC是否为所述IoC条目。若判定为IoC条目,则提取该条IoC数据及相关信息,并从疑似IoC组中去除该条疑似IoC。本步骤主要是为了处理在句子中的IoC数据和在表格中的、被明确标志的IoC数据类型,通过关键字匹配方式首先将这些IoC信息提取出来。

步骤S107:通过基于HTML结构的关键句查找方法,查找能够表征疑似IoC组是否为IoC条目的关键语句,通过关键字匹配方法确认该疑似IoC组是否为所述的IoC条目。

每个疑似IoC组中各个疑似IoC,在文章中出现的先后顺序不同,本步骤中将第一个出现的疑似IoC作为该疑似IoC组的代表IoC。再通过该代表IoC在源HTML文件中的位置关系,首先查找是否存在不为空文本的兄弟节点,其次查找是否存在不为空文本的除去子节点的父节点,最后查找是否存在不为空文本的表兄弟节点。通过在以上HTML节点中进行数据查找,发现能够指代一组疑似IoC组的关键句。通过对关键句进行关键字匹配方法,就可以确定该关键句所指代的疑似IoC组是否是所述的IoC条目,从而实现IoC提取。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号