首页> 中文学位 >数字图书馆的中文网页文本分类器研究
【6h】

数字图书馆的中文网页文本分类器研究

代理获取

目录

文摘

英文文摘

第1章绪论

1.1选题背景及意义

1.2国内外研究现状

1.2.1数字图书馆

1.2.2数字图书馆的个性化服务

1.2.3分类技术的研究现状

1.3论文所作的工作

第2章问题的描述

2.1系统对象分析

2.2数字图书馆需求概述

2.3总体需求图

2.4总体数据流程图

2.5系统总体模块图

2.6网页文本分类的功能及其作用面

第3章网页文本分类

3.1文本分类

3.1.1文本分类的定义

3.1.2文本分类的应用

3.1.3文本分类的过程

3.2网页文本分类过程

3.2.1网页信息处理

3.2.2文本预处理

3.2.3文本表示

3.2.4特征选取

3.2.5特征匹配和分类

3.3分类算法及其评价指标

3.3.1分类算法

3.3.2分类算法性能比较

3.3.3分类算法的评价指标

第4章网页信息的自动提取

4.1网页信息分析

4.1.1结构信息

4.1.2与分类密切相关的HTML标记

4.2网页数据模型

4.3网页信息提取流程图

第5章中文网页分类器的模型设计

5.1系统结构图

5.2系统模块设计

5.3系统用到的分类体系

5.4分类器处理流程图

5.5系统中用到的几个算法

5.5.1特征选取算法

5.5.2 KNN分类算法及其阈值策略

5.6结果的表示和存储

5.7返回结果对数字图书馆系统的支持

5.8本文设计的分类器与搜索引擎的分类器的区别

第6章总结与展望

6.1全文总结

6.2下一步工作及展望

参考文献

致谢

研究生期间公开发表的论文

展开▼

摘要

随着计算机和因特网的迅速发展,网上信息的类型越来越丰富,可利用的资源也越来越丰富,这已成为数字图书馆的发展动力。同时网络存储和交换技术的发展,也逐渐带动了数字图书馆相关技术研究的进展。数字图书馆是一个新兴的,涉及到因特网、多媒体、数据仓库、数据挖掘和知识产权保护等诸多技术的计算机应用领域,其应用和商业前景非常广阔。 本文是在数字图书馆系统的环境下,对资源库中保存的网页进行有效分类的研究。在研究初期,认真分析了数字图书馆的总体需求,并通过其需求总图、数据流程图和系统模块图的描述,找出了系统的关键问题之一,就是要解决资源库中保存的网页文本分类问题。从而接下来的研究工作就是围绕这个主题所展开的。 本文的第三章主要介绍了文本分类中的关键技术,包括文本预处理技术及面向分类模型的特征抽取技术,从而获得文本的特征集合;并从理论上分析了KNN学习算法以及其他六种常用算法,并比较其特性并最终选择了KNN算法;同时也介绍了评价分类器性能的几个评价指标。而后在第四章中对网页信息的自动提取问题进行了描述,并设计了网页信息提取的流程图。第五章是网页文本分类器的方案设计,包括系统结构图、模块图、分类体系设计、涉及的几个算法和总体流程图,同时针对系统的特点与商业搜索引擎的分类系统做了比较,指出了研究工作的意义所在。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号