首页> 中国专利> 基于中文标点符号的三重网页文本内容识别及过滤方法

基于中文标点符号的三重网页文本内容识别及过滤方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种基于中文标点符号的三重网页文本内容识别及过滤方法。该方法针对现有的基于URL、基于关键字的网页信息过滤方法中存在的滤准率和滤全率低的问题，提出了一种复合型的基于URL、基于关键字、以及基于文本向量空间知识表示方法的网页文本内容过滤方法。采用基于黑白名单的URL地址过滤方法；采用中文标点符号的统计特征来有效地去除导航信息、相关链接信息、广告链接信息、版权信息等网页内容噪声信息，提取文本内容；采用向量空间模型进行文本知识表示，通过计算文本向量与不良信息模版中特征向量间的夹角余弦，与设定的阈值相比较，确定文本所属类别。该发明可广泛地应用于网络不良信息的过滤及网页个性化信息服务领域。

著录项

公开/公告号CN101035128A

专利类型发明专利
公开/公告日2007-09-12

原文格式PDF
申请/专利权人大连理工大学;
展开▼

申请/专利号CN200710011057.1
发明设计人宋明秋;吴新涛;
展开▼

申请日2007-04-18
分类号H04L29/06(20060101);G06F17/30(20060101);G06F17/27(20060101);H04L12/24(20060101);
代理机构21200 大连理工大学专利中心;
代理人侯明远;李宝元
地址 116024 辽宁省大连市甘井子区凌工路2号
入库时间 2023-12-17 19:07:33

法律信息

法律状态公告日

法律状态信息

法律状态
2019-04-05

未缴年费专利权终止 IPC(主分类):H04L29/06 授权公告日:20100421 终止日期:20180418 申请日:20070418

专利权的终止
2010-04-21

授权

授权
2007-11-07

实质审查的生效

实质审查的生效
2007-09-12

公开

公开

说明书

技术领域

本发明属于网络信息安全领域，涉及中文网页不良文本信息的识别和过滤。

背景技术

在现有的几种网页内容安全产品中，如“网络保姆”和“网络爸爸”等，它们大多采用基于URL地址和关键字的方法来禁止对非法网页和网站的访问，相对于网上非法内容的多样性和动态性而言，这种采用静态的地址库或手动更新网址和关键字的方法远不能满足人们的过滤要求，家长们期待有更加有效而全面的信息过滤产品的出现。

现有的对于网页文本内容的过滤方法主要围绕着向量空间模型进行的。

刘培德等利用向量空间模型、TC3分类算法、Rocchio反馈模型等构造了一个具有反馈机制的网络信息过滤系统(NIFS)，该系统可以实现基于用户兴趣文件的文本过滤。

曹毅、贺卫红建立的基于向量空间模型的信息安全过滤系统则将过滤分为模版训练和自适应过滤两个阶段进行。在训练阶段，通过主题处理和特征抽取建立初始的过滤模版，设置初始阈值；在过滤阶段，则根据用户的反馈信息自适应地调整模版和阈值，该方法的特点主要体现在过滤模版训练算法的设计上。

Shian-Hua Lin和Jan-Ming Ho于2002年提出了一个去除网页中噪音内容的方法，该方法依据网页中<table>标签构造网页的标签树，将一张网页规整为相互嵌套的内容块；然后，对于使用同一个模版生成的网页集，找出在该网页集中多次出现的内容块，作为噪音内容，而在该网页集中出现较少的内容块就是有效信息块。

复旦大学提出了一种基于内容过滤代理(CFA)的互联网过滤系统及过滤方法，系统框架包括：内容过滤代理(CFA)、查询服务器(QS)、内容分析与管理服务器(CAMS)三部分。网络内容过滤系统的过滤流程为：当用户发出对某个URL进行访问的请求时，CFA根据用户设置的黑白名单，允许或禁止该访问请求。倘若该URL不在CFA的黑白名单中，CFA则向查询服务器QS发出查询请求。QS将会在自己的URL库中查询该URL的分级信息并将结果返回给CFA。CFA据此做出反应。同时QS会定期从CAMS中下载更新的URL分级信息。

而微软公司的“用于网络浏览的内容过滤技术”提供了一种控制用户在使用计算机时可否访问某些互联网网站的系统和方法。当计算机用户试图访问一个由指定统一资源定位器(URL)指向的互联网网站时，过滤器通过允许-阻止列表给URL提供参考，并通过参考——交叉引用年龄组查看年龄组允许观看的分类内容映射表，来相应地决定对URL指向的网站的访问。

总结前人的研究成果，可以看到目前互联网信息过滤方法尚存在以下不足：

1.采用URL和关键字的过滤方法，过滤准确率和滤全率较低，过滤器很容易被绕过；

2.单独采用基于文本向量空间的内容过滤方法过滤速度慢，无法满足宽带网络数据传输实时过滤的要求；

3.对于网页的预处理过程研究较少，尤其关于通用网页正文内容提取方法的研究尚未见文献报道，而这方面问题的研究可以有效地提高网页数据处理的速度；

4.针对中文网页特点的内容识别和过滤方法还没有见到报道。

发明内容

为了克服已有网页信息过滤方法滤准率、滤全率和过滤速度无法满足网络流量的局限性，本发明提供了一种将已有的基于URL、基于关键字以及基于向量空间的文本过滤方法有机地融合在一起的三重过滤方法；在URL过滤上，设置了合法URL和非法URL表，即黑白名单，提高过滤的速度；采用Winsock 2 SPI直接在应用层截获HTTP数据包，省去了在底层截获数据包时要进行重组和协议解析的麻烦；提出了基于中文标点符号统计值的中文网页文本正文识别及去噪声方法。

为达到上述目标，本发明采用如下技术方案：

系统采用三级过滤模式，分别是URL过滤、关键字过滤、文本内容过滤。

系统结构如附图1所示，其中：

URL过滤模块

通过预先设置的非法URL列表(黑名单)和合法URL列表(白名单)，来判断用户的请求是否合法。

内容截获和提取模块

先截获从服务器端返回的可疑请求的响应(HTTP数据包)，然后提取出HTML文档，最后分析HTML文档提取链接信息和正文内容。

关键字过滤模块

针对链接信息，用关键字来判断网页中是否含有非法的链接，只要含有非法的链接，该网页也会得到屏蔽。

内容过滤模块

对含有合法链接的可疑网页正文进行分词、去除停用词、计算权重和特征提取，之后表示成向量空间模型，并与训练好的特征向量相匹配，判断其内容是否合法。

本发明系统的操作步骤概括如下：

1.当用户发出链接请求时，将请求URL地址与黑白名单中的地址列表相比较，并进行相应的处理。对于既不属于黑名单也不属于白名单的请求地址，标记为可疑请求。

2.截获可疑请求的响应，即服务器端返回的HTTP数据包。由于Winsock 2 SPI在应用层进行截获，所以省去了在底层截获数据包时要进行数据包重组和协议解析的麻烦，效率高，CPU占用率低。

3.从截获的HTTP数据包中提取HTML文件，从中提取链接信息，并采用基于中文标点符号统计值的网页正文内容识别方法获取网页正文文本内容。

4.采用基于关键字的过滤方法，检查链接信息，如果为非合法链接，返回警告信息，否则转内容过滤模块。

5.建立中文网页不良信息文本分类语料库，作为网页文本内容的样本训练模版。对网页正文实施内容过滤，检查其合法性，对于合法的文本内容返回给用户，非法的文本内容直接屏蔽，并更新URL列表。

本发明的效果和益处是采用Winsock 2SPI函数直接在应用层截获HTTP数据包，省去了在底层截获数据包时要进行重组和协议解析的麻烦。采用基于中文标点符号统计值的网页文本内容识别和获取方法，可以有效去除导航信息、相关链接信息、广告链接信息、版权信息等噪音信息。本发明能够有效地提高网页信息过滤的速度、准确率和过滤精度。可以用于中文网页不良信息的过滤，并可广泛应用于用户个性化文本分类信息服务领域。

附图说明

图1是基于中文标点符号的网页文本内容过滤系统总体结构图。

图2是URL过滤流程图。

图3是网页信息HTML嵌套结构及HTML树知识表示。

图4是内容过滤处理流程图。

具体实施方式

以下结合技术方案和附图，详细叙述本发明的具体实施方式。

步骤1

当用户在浏览器的地址栏中输入某一网址，或点击网页中某一链接信息时，过滤器将该请求的URL地址与黑白名单中的地址列表相比较(如附图2所示)，对于属于白名单中的URL请求，系统放行；对于属于黑名单中的URL请求，系统屏蔽并返回警告信息；对于既不属于黑名单也不属于白名单的URL，标记为可疑请求，执行步骤2。

步骤2

采用Winsock 2SPI技术截获可疑请求的服务器端返回的HTTP数据包。

步骤3

从第2步骤截获的HTTP数据包中提取HTML文件，分析HTML文件提取链接信息；并分析HTML树(如附图3所示)，采用基于中文标点符号的网页正文提取方法，有效地去除导航信息、相关链接信息、广告链接信息、版权信息等噪声信息，获取网页正文文本内容。

步骤4

对于步骤3提取出的超链接信息，用模式匹配的方法查看链接中是否含有非法的关键字，如果有，则该链接被定义为非法链接，系统屏蔽该链接并返回警告信息，否则执行步骤5，进行内容过滤，判断网页内容的合法性。

内容过滤是本系统的核心，其基本过滤流程如图4所示，过滤步骤如下：

步骤5

对于由步骤3和步骤4提取出的可疑的网页正文内容，采用基于词典和正向最大匹配算法进行分词处理。

步骤6

根据停用词表去除分词结果中的停用词，即去除一些无意义的词，削除这些词对判断结果的影响。

步骤7

应用词频统计的方法，进行特征词提取，即提取更能表现文档特征的词，以提高程序效率、运行速度和分类精度。

步骤8

采用TF-IDF公式计算特征词权重。

步骤9

生成该文本的特征向量，计算该向量与特征向量库中样本向量间夹角余弦，得到相似度值。

步骤10

将该相似度值与设置好的阈值进行比较，本发明设置阈值为0.6-08，确定网页内容性质。当相似度值高于规定的阈值，则该网页被定义为非法，系统拒绝访问；如相似度低于规定的阈值，则该文本被定义为合法，系统接受访问。

步骤11

更新合法URL和非法URL列表，即将确定为非法文本的URL地址添加到黑名单中，合法文本的URL地址添加到白名单中，以避免对同一网页内容重复进行内容过滤，提高过滤效率。

上述内容过滤方法的执行需要特征向量库中的样本向量模版，而样本向量模版是通过非法语料库中文本训练获得的，训练过程如附图4所示，步骤如下：

1)建立网络不良信息语料库。

2)对于非法语料库中的文本样本，采用基于词典和正向最大匹配的方法对训练文档进行中文分词处理。

3)根据停用词表去除分词结果中的停用词，得到高维词集。

4)对上述高维词集用词频统计的方法进行特征提取。

5)采用TF-IDF公式计算特征词的权重。

6)生成文档的向量空间模型，存入特征向量库，生成样本向量模版。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于中文标点符号的三重网页文本内容识别及过滤方法 [P] . 中国专利： CN101035128B . 2010.04.21
2. 基于中文标点符号的三重网页文本内容识别及过滤方法 [P] . 中国专利： CN101035128A . 2007-09-12
3. Method and system of adding punctuation and establishing language model using a punctuation weighting applied to chinese speech recognized text [P] . 美国专利： US9811517B2 . 2017-11-07

机译：应用于中文语音识别文本的使用标点符号加权的添加标点符号和建立语言模型的方法和系统
4. Internet page text contents controlling software, has instructions to find and retrieve web pages of domain, and check and compare contents based on preset list, which can contain illegal or undesirable terms, texts, data and/or expressions [P] . 德国专利： DE102005030126A1 . 2007-01-25

机译：互联网页面文本内容控制软件，具有查找和检索域的网页以及基于预设列表检查和比较内容的指令，该预设列表可能包含非法或不受欢迎的术语，文本，数据和/或表达式
5. Method for performing semantic search in e.g. political ontology, based on text segment in semantic web, involves designing pattern in document, and performing semantic search in ontology by application based on designed pattern [P] . 瑞士专利： CH704148A2 . 2012-05-31

机译：在例如网页中执行语义搜索的方法基于语义网中文本段的政治本体，包括在文档中设计模式，并根据基于所设计的模式的应用程序在本体中进行语义搜索