首页> 中文学位 >特征选取和SVM算法研究及在股市行业资讯中的应用
【6h】

特征选取和SVM算法研究及在股市行业资讯中的应用

代理获取

目录

声明

摘要

第一章 绪论

1.1 论文研究背景及意义

1.2 文本分类国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 论文的主要研究内容

1.4 论文的组织结构

第二章 文本分类相关技术概述

2.1 文本预处理

2.1.1 文本分词

2.1.1 去除文本停用词

2.2 文本表示

2.3 特征选取

2.3.1 词频*逆文档频率(TF*IDF)

2.3.2 互信息(MI)

2.3.3 信息增益(IG)

2.3.4 期望交叉熵(ECE)

2.4 文本分类算法

2.4.1 朴素贝叶斯算法

2.4.2 K近邻算法

2.4.3 支持向量机算法

2.5 本章小结

第三章 TF*IDF方法计算特征项权重的改进和特征项的降维

3.1 改进的词频和逆文档频率

3.1.1 词对于类别之间的区分能力

3.1.2 词对于类别内部的区分能力

3.1.3 改进的TF*IDF公式

3.2 文本特征项的降维

3.3 本章小结

第四章 支持向量机在多类别问题中的应用

4.1 SVM多类分类方法

4.1.1 一对多分类方法

4.1.2 一对一分类方法

4.1.3 二叉树分类方法

4.1.4 有向无环图分类方法

4.1.5 改进的二叉树分类方法

4.2 实验分析

4.3 本章小结

第五章 文本分类应用与结果分析

5.1 文本分类应用设计

5.1.1 实验环境

5.1.2 分类语料库

5.1.3 分类应用总体流程

5.2 分类应用流程模块

5.2.1 预处理模块

5.2.2 文本表示模块

5.2.3 特征选取模块

5.2.4 分类模块

5.3 文本分类结果分析

5.4 本章小结

第六章 总结与展望

6.1 工作总结

6.2 研究展望

参考文献

附录A 图目录

致谢

攻读硕士期间发表的论文

展开▼

摘要

在信息化时代的今天,随着存储容量的翻倍增长和网络通讯速度的不断提高,海量文本信息的传输和保存已变得异乎平常。很显然的是传统的信息获取技术早已跟不上时代的步伐,如何在信息高速膨胀的文本数据库中及时地检索到我们想要的文本信息问题显得日益突出。文本挖掘也正是为解决这一需求而在近些年得到了迅猛的发展。文本挖掘涉及文本聚类、文本分类、信息提取等多个方面,其中文本分类是当前数据挖掘研究领域的热点内容之一。目前,文本分类技术已被成功应用到多个领域,如邮件服务器使用的垃圾邮件过滤技术、网页搜索引擎公司采用的检索技术等等。
  文本分类就是按照一定的分类规则对未知类别的文本进行类别的划分,这里的分类规则指的是区分文本类别的特征信息。为了实现文本的自动分类,故需将文本分类规则数字化成分类器,也就是由分类器来决定待分文本的类别。文本分类是有监督的机器学习,也就是在训练分类器之前样本的类别是已知的。
  通常情况下,文本分类包含的步骤有:文本信息的预处理、文本特征项的选取、文本分类器的生成、文本分类性能测试、分类效果评价等。其中文本特征项的选取和文本分类器的生成是本文的重要研究内容,不同的特征选取方式和选择不同的分类算法将对分类的性能产生较大的影响。
  本文首先介绍了文本分类研究的背景和意义、国内外研究现状。与国外相比,国内文本分类的研究起步较晚,但随着网络技术取得了突破性的发展,文本分类技术逐渐受到国内各级、各类计算机研究机构的重视,并研究出了一系列符合中文文本分类的技术。
  接着对文本分类的相关技术作了概要的描述,包括文本的预处理、特征项的选取和文本分类算法。针对使用TF*IDF计算特征词的权重时存在的不足,提出了改进的TF*IDF权重计算方法,同时为了有效地降低文本训练的时间和空间复杂度,而又尽量地减少因降低向量维数对分类精度的影响,本文引入了特征相关度的概念,并使用特征相关系数来衡量特征项之间的关联程度。当特征项之间的特征相关系数大于约定的阈值时,采用一级特征项取代二级特征项来降低特征项集中同义或近义的冗余特征项。
  然后对SVM算法如何解决多类分类问题进行了研究,其中二叉树分类方法应用最为广泛,但不同的二叉树结构会产生不同的分类结果。目前在生成二叉树结构时,通常依据样本的分布情况或样本类别间的距离来确定样本在树中节点的位置。本文提出了改进的方法,即在生成多类分类二叉树时,综合考虑了样本的分布情况和样本类别间的距离,通过实验分析比较改进的算法的推广性能较好。
  最后本文设计了一个文本分类应用在股市行业资讯上的自动分类系统,在特征提取模块中采用本文改进的TF*IDF权重计算方法和文本特征项降维方法;在分类模块中采用本文改进的基于二叉树的SVM多类分类方法。之后,总结了本文所做的工作,同时对本文研究过程中未能深入探讨的相关问题,提出了需进一步研究的方向。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号