首页> 中文学位 >大规模平衡语料的收集分析及文本分类方法研究
【6h】

大规模平衡语料的收集分析及文本分类方法研究

代理获取

目录

文摘

英文文摘

独创性声明及关于论文使用授权的说明

第一章绪言

第二章大规模平衡语料的收集分析

2.1研究背景

2.2国内外语料库概况

2.2.1国外语料库概况

2.2.2国内语料库概况

2.3大规模平衡语料的收集分析

2.3.1通用语料的收集和通用词汇的抽取取

2.3.2专有名词的收集

2.3.3专用词汇的收集

2.3.4注音

2.3.5词典形式

2.3.6大规模平衡语料的分析

第三章基于大规模真实语料的文本分类方法

3.1已有的文本分类方法简介

3.1.1朴素贝叶斯算法

3.1.2 Rocchio算法

3.1.3 k近邻算法

3.1.4支持向量机算法(SVM)

3.1.5决策树算法

3.1.6其他分类算法

3.2特征向量的权重算法

3.2.1常用的特征权重算法

3.2.2特征权重算法的改进

3.3特征向量的抽取

3.4评价函数

3.4.1微平均和宏平均

3.4.2 F-Measure

3.4.3 Break-even point [Aas,1999]

3.4.4 11-point average precision[Taghva,2004]

3.5阀值函数

3.6实验

3.6.1实验:TF*IWF算法和改进后的TF*IWF*DBV算法的对比

3.6.2实验:DBV和DBV2的对比

3.6.3实验:TF*IDF算法和TF*IDF*DBV算法的对比

3.6.4实验:不同特征选取方法的对比

第四章结束语

参考文献

附录

附录1:LC-STAR的词性标记

附录2:专用领域及相应子领域

附录3:SAWA-C音素

附录4:汉语的变调规则

附录5:英文音标与SAMPA-C符号的映射

附录6:XML词典的格式

附录7:DTD文档格式

附录8:本论文的研究工作得到如下项目资助:

附录9:研究生阶段发表的论文和申请的专利

附录10:个人简历

致 谢

展开▼

摘要

语料库和词典是进行自然语言处理研究的重要资源.语言学的研究必须以语言事实作为依据,语言现象的复杂性决定了要全面的了解其特点必须有大规模语料库的支持,否则只能是无源之水、无本之木.尤其是随着统计模型在自然语言处理领域的应用,大规模语料库的作用更加突出,无论对于语言现象本身的研究,还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究和开发,都具有非常重要的意义.同样,词典开发不仅是自然语言处理研究的基础性工作,也是字典编篡、语言教学等工作的重要环节.因此,该论文从事的大规模平衡语料的收集和分析工作,以及在该工作基础上开展的文本分类技术研究,具有重要的理论意义和实用价值.该文首先在欧共体项目(LC-STAR)的资助下,开展了大规模汉语平衡语料的收集与分析工作,其主要目的是建立一个反映现代汉语语言特点的、适用于汉语语言分析、语音识别和语音合成的汉语标注语料库,并以此为基础建立一部相应的信息词典.该工作主要包括:(1)在对大规模汉语平衡语料收集方法进行调研和分析的基础上,收集并标注了规模达3087万字的汉语平衡语料;(2)以收集的语料为基础,建立了一个大规模(10多万词)的现代汉语信息词典,词条标注信息包括词性、注音、词频和专用词的领域信息等.以上述工作为基础,我们对文本分类方法进行了深入的研究,主要创新包括:第一,在特征权重计算方面,通过对常见特征权重算法的分析和比较,提出了在TF*IDF算法中用TF的n次方代替TF,并引入DBV变量的处理方法,使得该算法的F1-Measure测度提高了4~5﹪.第二,类似于上面的处理方法,在TF*IWF算法中用TF的n次方代替TF,并引入DBV变量,使得该算法的F1-Measure测度提高了12.28﹪.第三,在特征向量抽取方面,在Rocchio分类器上对常见的特征向量抽取方法进行了全面对比,然后提出了将TF*ID算法用于特征抽取的处理方法,并通过实验证明,该方法在不同数目关键词下的分类效果均优于其它常见的特征向量抽取算法.

著录项

  • 作者

    陈克利;

  • 作者单位

    中国科学院自动化研究所;

  • 授予单位 中国科学院自动化研究所;
  • 学科 模式识别与智能系统
  • 授予学位 硕士
  • 导师姓名 宗成庆;
  • 年度 2004
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 机器翻译;
  • 关键词

    平衡语料; 语料库; 文本分类; 特征抽取;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号