首页> 中国专利> 监测非法互联网外汇保证金交易平台的方法及装置

监测非法互联网外汇保证金交易平台的方法及装置

摘要

本发明实施例提供一种监测非法互联网外汇保证金交易平台的方法及装置,包括:采集监测对象,所述监测对象包括若干个网址及其html文档;通过预设条件从监测对象中筛选出目标对象;将所述目标对象的html文档输入至预设的非法互联网外汇保证金交易业务判别模型,对所述目标对象开展的业务类型进行判别。本发明实施例通过自动搜索预设关键词库中的关键词、定期爬取涉嫌开展非法互联网外汇保证金交易资讯网站和指定网址名单的方式搜集监测对象,也就是可疑网址名单,并使用预先训练好的非法互联网外汇保证金交易业务判别模型提高识别准确率,识别涉嫌开展非法互联网外汇保证金业务网站,极大减轻了人工排查压力,提升了监测效率。

著录项

  • 公开/公告号CN112417329A

    专利类型发明专利

  • 公开/公告日2021-02-26

    原文格式PDF

  • 申请/专利权人 中国互联网金融协会;

    申请/专利号CN202011523198.3

  • 发明设计人 张黎娜;冯晓飞;刘泓;

    申请日2020-12-21

  • 分类号G06F16/955(20190101);G06F16/35(20190101);G06F16/36(20190101);G06F16/958(20190101);G06F16/951(20190101);

  • 代理机构11002 北京路浩知识产权代理有限公司;

  • 代理人蒋娟

  • 地址 102500 北京市房山区阎村镇阎富路69号院北京金融安全产业园62号楼

  • 入库时间 2023-06-19 10:02:03

说明书

技术领域

本发明属于互联网监测技术领域,具体涉及一种监测非法互联网外汇保证金交易平台的方法及装置。

背景技术

随着互联网的发展和普及,部分平台通过互联网开展非法外汇交易业务,尤其是国内禁止的外汇保证金交易。部分机构持有外国牌照,但未在国内持牌,通过网站向国内跨境提供外汇保证金交易、股票交易等非法金融服务,违反了国家相关的法律法规,为投资者带来了巨大风险,不利于互联网金融的健康发展。

中国证监会发布的《关于严厉查处非法外汇期货和外汇按金交易活动的通知》指出,凡未经中国证监会和国家外汇管理局批准,且未在国家工商行政管理局登记注册的金融机构、期货经纪公司及其他机构擅自开展外汇期货和外汇按金交易,属于违法行为;客户(单位和个人)委托未经批准登记的机构进行外汇期货和外汇按金交易,无论以外币或人民币作保证金也属违法行为。中国证监会等四部门印发的《关于贯彻中国证监会、国家外汇管理局、国家工商行政管理局、公安部〈关于严厉查处非法外汇期货和外汇按金交易活动的通知〉的会议纪要》提到,自1980年以来,国务院有关部门只批准了外汇指定银行和少数非银行金融机构进行代客外汇现货实盘买卖,但从来没有批准任何一个单位代客进行外汇期货和外汇按金交易,所有开展这类业务的机构都属违法经营。客户委托这些机构进行外汇期货和外汇按金交易是我国现行法规所不允许的,因此也是违法的。

有关监管部门密切关注开展非法互联网外汇保证金交易业务的网站,积极开展监测工作。前期所使用的方法主要是:第一阶段,首先,通过人工使用搜索引擎搜索相关关键词,访问非法互联网外汇保证金交易资讯网站,接受举报线索等方式采集网址;然后,通过人工对所获网址一一打开排查核实,查询网站备案信息等,填写数据信息表格。第二阶段,引入爬虫技术,首先,自动调用搜索引擎搜索指定关键词,并针对部分资讯网站定制爬虫程序进行爬取,获得有关网址;然后,爬取每个网址html文档,根据是否包含少量特定关键词(如“外汇金交易”等),判断是否开展非法互联网外汇保证金交易相关业务,再对疑似开展有关业务的网站进行人工访问排查,并引入第三方接口数据补充网站备案信息等。

第一阶段的方法,完全依赖人工完成,监测周期长,整体效率较为低下;受制于人工效率,所获取的网址数量较少,监测覆盖面有限。第二阶段的方法,利用程序自动化爬取,能够获取较多网址,扩大了监测覆盖面,并且对所获取的网址进行了初步筛选。但由于筛选规则过于简单,筛选后非法互联网外汇保证金交易相关业务网站的命中率仍然偏低,从未高于40%,一般在25%上下浮动,导致大量无关网站进入后续人工排查环节中,增加了后续监测工作压力。

除以上方法外,目前市场上暂无专门针对非法互联网外汇保证金交易相关业务的网站进行监测的装置或方法,也并未针对非法互联网外汇保证金交易相关业务类型进行专门的模型定制,导致人工排查压力大,识别准确率低,监测效率低等问题。

发明内容

本发明实施例提供一种能够提高识别准确率、减轻人工排查压力,提升监测效率的监测非法互联网外汇保证金交易平台的方法及装置。

本发明实施例提供一种监测非法互联网外汇保证金交易平台的方法,包括:

S1:采集监测对象,所述监测对象包括若干个网址及其html文档;

S2:通过预设条件从监测对象中筛选出目标对象;

S3:将所述目标对象的html文档输入至预设的非法互联网外汇保证金交易业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:

S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;

S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;

S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。

根据本发明实施例所述的监测非法互联网外汇保证金交易平台的方法,其中,所述S1具体包括:通过预设条件从监测对象中筛选出目标对象;

根据预设关键词库调用搜索引擎,爬取监测对象,所述预设关键词库包括预设关键词和新增关键词;

或爬取与外汇保证金交易网站相关的资讯网站作为监测对象;

或将输入网址或批量导入的网址作为监测对象。

根据本发明实施例所述的监测非法互联网外汇保证金交易平台的方法,其中,所述S2具体包括:

S21:利用白名单对所述监测对象进行筛选,排除属于白名单的网址,得到剩余监测对象;

S22:爬取所述剩余监测对象的html文档,根据获取情况及对html文档内容的分析,排除异常网址,得到目标对象。

根据本发明实施例所述的监测非法互联网外汇保证金交易平台的方法,其中,所述S32具体包括:

S321:根据预设关键词字典,对所述html文档进行分类和打分,其中,所述预设关键词字典以分类关键词为索引,所述分类关键词的值包括所述分类关键词是否启用、属于何种业务类型、所赋分值、所用的计算规则、出现频次,以及根据所赋分值、出现频次、所用的计算规则所计算的得分;

S322:根据所述分类关键词所属的业务类型对所述html文档进行分类,并对每个业务类型的得分分别进行加总,得到所述html文档在三个业务类型上的初始得分,将每个业务类型上的初始得分减去各个业务类型对应的标准分值,得到所述html文档在每个业务类型的最终得分。

根据本发明实施例所述的监测非法互联网外汇保证金交易平台的方法,其中,所述S33具体包括:

若所述目标业务类型的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为目标业务类型,若否,则判别所述目标对象开展的业务类型为无效样本;

若所述资讯的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为外汇资讯,若否,则判别所述目标对象开展的业务类型为一般资讯;

若所述无效样本的最终得分最高,则判别所述目标对象开展的业务类型为无效样本。

根据本发明实施例所述的监测非法互联网外汇保证金交易平台的方法,其中,所述S3之后还包括:

S4:判断所述目标对象开展的业务类型是否为目标业务类型,若是,则执行S5;若否,则记录目标对象开展的业务类型;

S5:引入第三方接口数据,补充所述目标对象的第三方相关信息,所述第三方相关信息包括ICP备案信息、IP地址信息;并对所述html文档进行提取分析,以获取所述目标对象的网站相关信息,所述网站相关信息包括版权信息、网页展示的ICP备案信息;

S6:将所述S1至S5的过程数据进行汇总、保存至数据库。

根据本发明实施例所述的监测非法互联网外汇保证金交易平台的方法,其中,所述预设的非法互联网外汇保证金交易业务判别模型的训练过程具体包括:

选取若干个预设样本作为目标对象,分别将若干个预设样本输入所述非法互联网外汇保证金交易业务判别模型,执行所述S31至S33,输出若干个所述预设样本的业务类型;

以若干个所述预设样本的实际业务类型为参照,统计若干个输出的所述预设样本的业务类型的准确率;

根据所述准确率对所述非法互联网外汇保证金交易业务判别模型的预设门槛关键词、预设关键词字典的内容进行修正。

本发明实施例提供一种监测非法互联网外汇保证金交易平台的装置,包括:

监测对象采集模块,用于采集监测对象,所述监测对象包括若干个网址及其html文档;

目标对象筛选模块,连接所述监测对象采集模块,用于通过预设条件从监测对象中筛选出目标对象;

业务类型判别模块,连接所述目标对象筛选模块,用于将所述目标对象的html文档输入至预设的非法互联网外汇保证金交易业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:

S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;

S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;

S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。

本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的监测非法互联网外汇保证金交易平台的方法的步骤。

本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的监测非法互联网外汇保证金交易平台的方法的步骤。

本发明实施例提供的监测非法互联网外汇保证金交易平台的方法及装置,通过自动搜索预设关键词库中的关键词、定期爬取外汇资讯网站和指定网址名单的方式搜集监测对象,也就是可疑网址名单,并使用预先训练好的非法互联网外汇保证金交易业务判别模型提高识别准确率,识别涉嫌开展非法互联网外汇保证金业务网站,相比于现有技术,极大减轻了人工排查压力,提升了监测效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的监测非法互联网外汇保证金交易平台的方法的流程图;

图2为本发明实施例提供的监测非法互联网外汇保证金交易平台的方法中的部分流程图;

图3为本发明实施例提供的中的非法互联网外汇保证金交易业务判别模型的运行示意图;

图4为本发明实施例提供的监测非法互联网外汇保证金交易平台的方法的整体运行示意图;

图5是本发明实施例提供的监测非法互联网外汇保证金交易平台的装置的示意图;

图6是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1-2为本发明实施例提供的监测非法互联网外汇保证金交易平台的方法的流程示意图,如图1-2所示,该方法包括:

一种监测非法互联网外汇保证金交易平台的方法,包括:

S1:采集监测对象,所述监测对象包括若干个网址及其html文档。

S1中,是通过预设条件从监测对象中筛选出目标对象,即获取可疑网站的网址。具体的可以采用以下三种途径,

根据预设关键词库调用搜索引擎,爬取监测对象,所述预设关键词库包括预设关键词和新增关键词;即,基于一线人工排查的经验,建立独有的预设关键词库,并支持添加当前排查时临时选用的新增关键词,根据预设关键词库和新增关键词调用搜索引擎,爬取所寻获的网址。预设关键词库将根据可疑网站动态及排查人员经验,不定期进行更新。

爬取与外汇保证金交易网站相关的资讯网站作为监测对象;即,对外汇资讯平台进行监测,定期针对性爬取其所导向的网址。

将输入网址或批量导入的网址作为监测对象。也就是,直接输入网址或批量导入网址名单,这一途径适用于举报线索,也可以支持定向排查任务。三种途径获取到的网址,都进入S2。

S2:通过预设条件从监测对象中筛选出目标对象。

具体的,S2包括:

S21:利用白名单对所述监测对象进行筛选,排除属于白名单的网址,得到剩余监测对象;具体是指利用白名单对所获网址进行筛选,目的是排除一部分无关网址。白名单内主要是特定的网址域名,例如政府部门、高校、主流大型媒体网站的网址域名。属于白名单内的网址将被记录为白名单网址,用于汇总数据,经过主域名对比筛除后,剩余监测对象进入S22。

S22:爬取所述剩余监测对象的html文档,根据获取情况及对html文档内容的分析,排除异常网址,得到目标对象。

排除异常网址指排除网址打不开、打开异常等情况。网页打不开或打开异常,可视同未正常开展业务。存在这些情况的网站都并非监测所关注的,因此需要排除。通过爬取网址html文档,根据获取情况及对html文档内容的简单分析,可排除特殊情况。出现特殊情况的网址将记录下具体的特殊情况,用于汇总数据,剩余网址及其html文档进入S3。

图3为本发明实施例提供的监测非法互联网外汇保证金交易平台的方法中的非法互联网外汇保证金交易业务判别模型的运行示意图,如图3所示,S3:将所述目标对象的html文档输入至预设的非法互联网外汇保证金交易业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:

S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;即,如果html文档内不包含任何一个门槛关键词,则输出的业务类型为无效样本。如果html文档中包含任何一个门槛关键词,进入S32。

具体的,正则匹配是指利用正则表达式来进行匹配,正则表达式又称规则表达式(Regular Expression,RE),是计算机科学的一个概念,正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。可以根据多样本对模型的训练以及实际排查经验选取门槛关键词,并以判别准确率为目标,反复调试模型,增减门槛关键词,修正预设关键词字典,确定赋分值及赋分规则。判别结果分为目标业务类型、资讯和无效样本3类,根据网站在3类业务类型中的得分情况进行划分,并记录其业务类型。门槛关键词可以选用外汇、保证金、财经、交易等。

S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;

S32具体包括:

S321:根据预设关键词字典,对所述html文档进行分类和打分,其中,所述预设关键词字典以分类关键词为索引,所述分类关键词的值包括所述分类关键词是否启用、属于何种业务类型、所赋分值、所用的计算规则、出现频次,以及根据所赋分值、出现频次、所用的计算规则所计算的得分;分类关键词可以选用外汇、保证金、财经、金融、交易等。

预设关键词字典的格式如{关键词A:(是否启用,所属业务类型,所赋分值,所用计算规则,出现频次,得分),关键词B:(是否启用,所属业务类型,所赋分值,所用计算规则,出现频次,得分)……}。对于是否启用为“是”的关键词(若是否启用为“否”,则不参与后续统计计算,这一参数的作用在于方便模型反复调试,可停止启用判别效果不佳的关键词,或恢复启用有助于判别的关键词。),通过正则匹配得到每个关键词的出现频次,更新字典内的频次初始值,再结合赋分、频次及计算规则计算得分,更新得分初始值。

S322:根据所述分类关键词所属的业务类型对所述html文档进行分类,并对每个业务类型的得分分别进行加总,得到所述html文档在三个业务类型上的初始得分,将每个业务类型上的初始得分减去各个业务类型对应的标准分值,得到所述html文档在每个业务类型的最终得分。

由于每类业务类型的关键词数量及赋分、计算规则不同,尤其是资讯类涉及范围较广、分类关键词数量偏多,导致得分相对偏高,从而在后续比较中占据不合理优势。因此设定标准分值,一来可以减少模型分类关键词数量差异对结果的影响,二来有助于避免部分网站未达到标准分值,仅仅因为极个别分类关键词而被判别为目标业务类型。分类关键词与门槛关键词可以有相同或重叠,也可以不同。

S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。

S33具体包括:

若所述目标业务类型的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为目标业务类型,若否,则判别所述目标对象开展的业务类型为无效样本;

若所述资讯的最终得分最高,判断所述目标业务类型的最终得分是否大于0,若是,则判别所述目标对象开展的业务类型为外汇资讯,若否,则判别所述目标对象开展的业务类型为一般资讯;

若所述无效样本的最终得分最高,则判别所述目标对象开展的业务类型为无效样本。

其中目标业务类型,指监测所重点关注的业务类型,在此指非法互联网外汇保证金交易相关业务类型;资讯主要指媒体类网站,也包括外汇资讯类网站和一般资讯类网站,由于外汇资讯类网站内容所涉广泛,往往包含对目标业务类型的介绍,导致与目标业务类型网站在业务判别关键词方面有较大重叠,因此单独分类,根据其资讯特征进行判别;无效样本类指与目标业务类型无关的网站,例如游戏网站等。此外,除了关注开展非法互联网外汇保证金交易相关业务的网站,还需关注外汇资讯网站,因此如果资讯网站的目标业务类型得分偏高,将记录为“外汇资讯”业务(即为非法互联网外汇保证金交易资讯,区别于“一般资讯”业务),与非法互联网外汇保证金交易业务网站一同进入下一步骤,判别为一般资讯和无效样本业务的网址则仅作记录,用于汇总数据。

图4为本发明实施例提供的监测非法互联网外汇保证金交易平台的方法的整体运行示意图,如图4所示,进一步的,所述S3之后还包括:

S4:判断所述目标对象开展的业务类型是否为目标业务类型,若是,则执行S5;若否,则记录目标对象开展的业务类型。

S5:引入第三方接口数据,补充所述目标对象的第三方相关信息,所述第三方相关信息包括ICP备案信息、IP地址信息;并对所述html文档进行提取分析,以获取所述目标对象的网站相关信息,所述网站相关信息包括版权信息、网页展示的ICP备案信息(有的网页会显示已过期的ICP备案信息,这一信息通过第三方数据接口无法获取,其显示的ICP备案信息对于寻找运营主体有一定意义)。

S6:将所述S1至S5的过程数据进行汇总、保存至数据库。过程数据指将以上步骤所涉及的各个网址的数据记录结果,供后续展示或导出。

优选的,所述预设的非法互联网外汇保证金交易业务判别模型的训练过程具体包括:

选取若干个预设样本作为目标对象,分别将若干个预设样本输入所述非法互联网外汇保证金交易业务判别模型,执行所述S31至S33,输出若干个所述预设样本的业务类型;

以若干个所述预设样本的实际业务类型为参照,统计若干个输出的所述预设样本的业务类型的准确率;

根据所述准确率对所述非法互联网外汇保证金交易业务判别模型的预设门槛关键词、预设关键词字典的内容进行修正。

预设的非法互联网外汇保证金交易业务判别模型通过训练,根据训练样本中的错误情形不断归纳总结调整,也就是反复执行上述训练过程,对非法互联网外汇保证金交易业务判别模型进行不断优化,直到准确率达标之后可以用于本案实施例的监测非法互联网外汇保证金交易平台的方法,确保一定对准确率。在网址皆为可疑网址的条件下,曾用于搜索关键词库中的关键词,往往不再具备区分业务类型的作用。例如用“外汇”搜索得到的网址,其html文档中一般都含有“外汇”这一关键词,如果再在模型中对“外汇”进行较大赋分并归属于目标业务类型,则整体结果都将偏向于目标业务类型,不但未起到区分业务类型的作用,反倒可能导致分类结果错误地偏向目标业务类型,因此模型关键词的选择及赋分需要更多思考。再次,针对不同的关键词,其分值的计算规则可以不同,因该词的区分作用而异。例如“财经”偏向于资讯类,但目标业务类型也可能有一定的新闻资讯专区,因而对该词的计分应设置一个不太高的分值上限;而“联合国”相对更偏向于资讯类,且出现频次越多越有可能是资讯网站,因而其计分方式可以与其频次相关。最后,部分关键词可能存在多重的区分意义,例如出现次数较少时,偏向于目标业务类型,出现次数非常多时,偏向于资讯或无效样本。

业务类型判别模型以准确率为目标,选取了上千个网站html文档用于训练,以人工排查这些网站得到的结果为参照统计准确率。对结果分为正确和错误,其中错误还分为一般错误和严重错误。正确指业务类型判别无误,一般错误指资讯和无效样本之间的误判,严重错误指把目标业务类型判别为非目标业务类型(资讯或无效样本)或把非目标业务类型误判为目标业务类型。为防止过拟合,最终选取的模型正确率在80%以上,严重错误率在5%以内。

本案实施例通过自动搜索预设关键词库中的关键词、定期爬取外汇资讯网站和指定网址名单的方式搜集监测对象,也就是可疑网址名单,并使用预先训练好的非法互联网外汇保证金交易业务判别模型提高识别准确率,识别涉嫌开展非法互联网外汇保证金业务网站,提高监测效率。经过实际测试,本发明实施例整体运行效果较好且较为稳定,相比于之前所用的方法,准确率大幅提升,极大减轻了人工排查压力,提升了监测效率。

图5为本发明实施例提供的监测非法互联网外汇保证金交易平台的装置的流程示意图,如图5所示,该装置包括:

监测对象采集模块10,用于采集监测对象,所述监测对象包括若干个网址及其html文档;

目标对象筛选模块20,连接所述监测对象采集模块10,用于通过预设条件从监测对象中筛选出目标对象;

业务类型判别模块30,连接所述目标对象筛选模块20,用于将所述目标对象的html文档输入至预设的非法互联网外汇保证金交易业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:

S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;

S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;

S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。

本案实施例的监测非法互联网外汇保证金交易平台的装置的工作原理与上述实施例的监测非法互联网外汇保证金交易平台的方法是相应的,此处不再一一赘述。

图6示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行一种监测非法互联网外汇保证金交易平台的方法,该方法包括:

S1:采集监测对象,所述监测对象包括若干个网址及其html文档;

S2:通过预设条件从监测对象中筛选出目标对象;

S3:将所述目标对象的html文档输入至预设的非法互联网外汇保证金交易业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:

S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;

S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;

S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。

此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行一种监测非法互联网外汇保证金交易平台的方法,该方法包括:

S1:采集监测对象,所述监测对象包括若干个网址及其html文档;

S2:通过预设条件从监测对象中筛选出目标对象;

S3:将所述目标对象的html文档输入至预设的非法互联网外汇保证金交易业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:

S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;

S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;

S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。

又一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行一种监测非法互联网外汇保证金交易平台的方法,该方法包括:

S1:采集监测对象,所述监测对象包括若干个网址及其html文档;

S2:通过预设条件从监测对象中筛选出目标对象;

S3:将所述目标对象的html文档输入至预设的非法互联网外汇保证金交易业务判别模型,对所述目标对象开展的业务类型进行判别,具体包括:

S31:通过正则匹配在输入的html文档中查找、匹配是否存在预设门槛关键词;若是,执行S32;若否,则输出的业务类型为无效样本;

S32:根据预设关键词字典,对所述html文档进行分类和打分,并根据各个业务类型对应的标准分值计算出所述html文档在每个业务类型的最终得分;其中,所述业务类型包括目标业务类型、资讯和无效样本;

S33:基于所述html文档的分类结果以及在每个业务类型的最终得分,判别所述目标对象开展的业务类型。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号