首页> 中文学位 >蒙古文停用词表和词干提取对蒙古文文本分类的影响
【6h】

蒙古文停用词表和词干提取对蒙古文文本分类的影响

代理获取

目录

文摘

英文文摘

声明

第一章 绪论

1.1 研究背景

1.2 文本分类模型的发展及现状

1.3 研究内容与意义

1.3.1 研究内容

1.3.2 研究意义

1.4 论文结构

第二章 文本分类相关理论

2.1 文本预处理

2.1.1 去除停用词

2.1.2 词干提取

2.1.3 分词处理

2.2 特征选择方法

2.3 特征加权

2.4 分类算法

2.4.1 K近邻算法

2.4.2 朴素贝叶斯算法

2.4.3 支持向量机算法

2.5 评估方法

第三章 蒙古文文本分类系统的设计

3.1 蒙古文文本分类系统概述

3.2 语料收集

3.2.1 蒙古文简介

3.2.2 蒙古文语料

3.3 文本预处理

3.3.1 停用词表

3.3.2 基于翻译的停用词表

3.3.3 词干提取

3.4 特征选择与加权

3.5 支持向量机

3.5.1 SVM线性可分情况

3.5.2 SVM柔性边缘(soft margin)

3.5.3 SVM非线性分类器

3.5.4 SVM核函数

第四章 实验结果与系统评价

4.1 系统评价

4.1.1 蒙古文停用词表

4.1.2 蒙古文词干提取

4.2 实验结果

第五章 结论与未来研究方向

5.1 全文总结

5.2 进一步研究工作

致谢

参考文献

展开▼

摘要

伴随着网络的发展,文本分类技术成为信息处理领域中重要的研究方向,通常用于处理和组织大量文本数据。蒙古语在中国来说是少数民族语言,蒙古文信息处理发展较慢,但在民族文化传承和发展中起着重要的作用。因此研究蒙古文文本分类技术具有非常重要的意义。
   本文的研究工作主要包含了以下三方面:(1)语料对分类系统的影响十分大,直接关系到分类系统性能。收集基于蒙古文国际标准编码的蒙古文文本,进行人工分类,构造用于实验的小型集合。(2)不同停用词选择方法对分类效果的影响不同,迄今为止,关于蒙古文停用词的研究成果还非常少。分析常用的停用词统计方法(主要有TF方法、DF方法、EC方法等),统计出相应的停用词表。在研究蒙古文词法、语法的基础上,提出基于翻译的停用词选择方法。通过实验比较不同停用词表对蒙古文文本分类系统的影响。(3)利用蒙古文后缀表进行词干提取处理。最后采用支持向量机算法作为分类算法,构建蒙古文文本分类系统。
   作者收集了850篇蒙古文文本,共分为9个类别。运用支持向量机算法的开源软件构建了系统。实验结果表明,EC停用词表效果最好,基于翻译的停用词表次之;蒙古文词干提取可以提高分类效率,与去除停用词相结合效果更好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号