文摘
英文文摘
独创性声明及关于论文使用授权的说明
第一章绪言
第二章大规模平衡语料的收集分析
2.1研究背景
2.2国内外语料库概况
2.2.1国外语料库概况
2.2.2国内语料库概况
2.3大规模平衡语料的收集分析
2.3.1通用语料的收集和通用词汇的抽取取
2.3.2专有名词的收集
2.3.3专用词汇的收集
2.3.4注音
2.3.5词典形式
2.3.6大规模平衡语料的分析
第三章基于大规模真实语料的文本分类方法
3.1已有的文本分类方法简介
3.1.1朴素贝叶斯算法
3.1.2 Rocchio算法
3.1.3 k近邻算法
3.1.4支持向量机算法(SVM)
3.1.5决策树算法
3.1.6其他分类算法
3.2特征向量的权重算法
3.2.1常用的特征权重算法
3.2.2特征权重算法的改进
3.3特征向量的抽取
3.4评价函数
3.4.1微平均和宏平均
3.4.2 F-Measure
3.4.3 Break-even point [Aas,1999]
3.4.4 11-point average precision[Taghva,2004]
3.5阀值函数
3.6实验
3.6.1实验:TF*IWF算法和改进后的TF*IWF*DBV算法的对比
3.6.2实验:DBV和DBV2的对比
3.6.3实验:TF*IDF算法和TF*IDF*DBV算法的对比
3.6.4实验:不同特征选取方法的对比
第四章结束语
参考文献
附录
附录1:LC-STAR的词性标记
附录2:专用领域及相应子领域
附录3:SAWA-C音素
附录4:汉语的变调规则
附录5:英文音标与SAMPA-C符号的映射
附录6:XML词典的格式
附录7:DTD文档格式
附录8:本论文的研究工作得到如下项目资助:
附录9:研究生阶段发表的论文和申请的专利
附录10:个人简历
致 谢