数字图书馆的中文网页文本分类器研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着计算机和因特网的迅速发展，网上信息的类型越来越丰富，可利用的资源也越来越丰富，这已成为数字图书馆的发展动力。同时网络存储和交换技术的发展，也逐渐带动了数字图书馆相关技术研究的进展。数字图书馆是一个新兴的，涉及到因特网、多媒体、数据仓库、数据挖掘和知识产权保护等诸多技术的计算机应用领域，其应用和商业前景非常广阔。本文是在数字图书馆系统的环境下，对资源库中保存的网页进行有效分类的研究。在研究初期，认真分析了数字图书馆的总体需求，并通过其需求总图、数据流程图和系统模块图的描述，找出了系统的关键问题之一，就是要解决资源库中保存的网页文本分类问题。从而接下来的研究工作就是围绕这个主题所展开的。本文的第三章主要介绍了文本分类中的关键技术，包括文本预处理技术及面向分类模型的特征抽取技术，从而获得文本的特征集合；并从理论上分析了KNN学习算法以及其他六种常用算法，并比较其特性并最终选择了KNN算法；同时也介绍了评价分类器性能的几个评价指标。而后在第四章中对网页信息的自动提取问题进行了描述，并设计了网页信息提取的流程图。第五章是网页文本分类器的方案设计，包括系统结构图、模块图、分类体系设计、涉及的几个算法和总体流程图，同时针对系统的特点与商业搜索引擎的分类系统做了比较，指出了研究工作的意义所在。

著录项

作者
郭琛;
展开▼
作者单位

武汉理工大学;

展开▼
授予单位武汉理工大学;
学科系统工程
授予学位硕士
导师姓名宋德昌;
年度 2005
页码
总页数
原文格式 PDF
正文语种中文
中图分类电子图书馆、数字图书馆;文字信息处理;
关键词
数字图书馆; 网页文本分类; 分类算法; 分类器; 文本预处理; 特征抽取;

相似文献

中文文献
外文文献
专利

1. 一种面向中文敏感网页识别的文本分类方法 [J] . 陈欣 ,张菁 ,李晓光 . 测控技术 . 2011,第005期
2. 基于网页结构与链接关系的中文文本分类方法 [J] . 郭晓 ,蒋宗礼 . 现代电子技术 . 2010,第022期
3. Bagging中文文本分类器的改进方法研究 [J] . 张翔 ,周明全 ,耿国华 . 小型微型计算机系统 . 2010,第002期
4. 朴素贝叶斯中文文本分类器的设计与实现 [J] . 潘忠英 . 电脑编程技巧与维护 . 2021,第002期
5. 基于贝叶斯算法的中文文本分类器设计与实现 [J] . 陆正球 ,王麟阁 ,周春良 . 信息与电脑 . 2018,第005期
6. 网页文本分类中特征压缩对分类器性能的影响 [C] . 梁久祯 . 第五届中国Rough集与软计算学术研讨会 . 2005
7. 基于网页结构与链接关系的中文文本分类 [A] . 郭晓 . 2010

数字图书馆的中文网页文本分类器研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅