首页> 中文学位 >针对青春期少年的网络色情文本过滤技术研究
【6h】

针对青春期少年的网络色情文本过滤技术研究

代理获取

摘要

在互联网快速发展的时代,人们在充分享受信息共享所带来的便利的同时也饱受“不良信息”的困扰。处于生长发育最高峰的青春期少年,作为互联网的最大用户群体深受“不良信息”的毒害。由于学校及家庭性教育的缺乏,他们从网络上获取青春期性知识来了解自身身体变化的动机更为强烈。而网络色情信息及成人性知识泛滥、见缝插针,严重危害了青春期少年的身心健康。于是各国纷纷制定法律法规、研究不良信息过滤技术等来保护青少年。不良信息过滤技术可以从海量的web文档中识别出含有不良信息的非法文本,将其屏蔽,从而使用户免受不良信息的困扰。
   本文首先分析了在网络色情信息泛滥、学校及家庭青春期性教育又十分缺乏的今天,过滤不良信息中的色情文本及成人性知识对青春期少年的重要意义。随后总结了国内外不良信息过滤技术的研究现状及现有的不良信息过滤应用。接着分析了网页分级法、URL过滤法和基于文本内容分析的过滤等不良信息过滤技术各自的优缺点。最后总结了不良信息过滤的实现途径。
   在理论分析的基础上,本文提出了针对青春期少年的网络色情文本“四级过滤”策略:第一级为URL过滤;第二级通过“涉性词库”快速侦测疑似文本,显示健康文本;第三级采用“限制词库”过滤色情文本;最后利用文本分类对疑似文档进行过滤。
   本研究的主要工作包括以下三方面:
   第一,优化过滤策略。(1)取消白名单制。在调研中发现很多处在白名单下的门户网站,其成人频道及论坛含有不适合青春期少年阅读的大量成人性知识及少量色情文本。因此在URL过滤时取消白名单制,可以在更大范围、更深层次上保护青春期少年。(2)“涉性词库”快速侦测疑似文本。利用“涉性词库”对大规模文档进行初步判断,快速区分健康文本与疑似文本。健康文本直接显示,疑似文本交由系统继续处理,从而缓解了系统压力。(3)“限制词库”快速过滤色情文本。“限制词库”为仅在色情文本中出现的词语集合,过滤时对文档中出现的限制词进行加权处理,当权重达到一定阈值后直接过滤。
   第二,构建色情词库。在通用词库较完备的前提下,领域词库的大小是制约机械匹配法分词的重要因素。本文利用LCS算法构建色情词库,以提高中文分词的准确率。此外通过手工构建色情同(近)义词库,提高色情文本特征描述的精确性。
   第三,分类法过滤边缘文本。针对现有不良信息过滤系统对处于边缘的成人性知识和青春期性知识等过滤存在失误,本文利用Rocchio分类器和支持向量机两种分类器对疑似文档进行色情文本、成人性知识、青春期性知识三类分类,过滤判定为色情文本和成人性知识的文档。此外,本文采用计算机统计和心理学行为实验两种方法构建类别特征,并最终通过分类器的分类效果来比较此两种方法构建的类别特征的优劣。
   实验表明,本文的过滤策略能较好的过滤网络色情文本及成人性知识,且在较大程度上保留了青春期性知识和健康文本。为净化网络信息空间,保护青春期少年健康成长提供技术参考。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号