大规模平衡语料的收集分析及文本分类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

语料库和词典是进行自然语言处理研究的重要资源.语言学的研究必须以语言事实作为依据,语言现象的复杂性决定了要全面的了解其特点必须有大规模语料库的支持,否则只能是无源之水、无本之木.尤其是随着统计模型在自然语言处理领域的应用,大规模语料库的作用更加突出,无论对于语言现象本身的研究,还是对于信息检索、机器翻译、文本分类、自动分词等应用系统的研究和开发,都具有非常重要的意义.同样,词典开发不仅是自然语言处理研究的基础性工作,也是字典编篡、语言教学等工作的重要环节.因此,该论文从事的大规模平衡语料的收集和分析工作,以及在该工作基础上开展的文本分类技术研究,具有重要的理论意义和实用价值.该文首先在欧共体项目(LC-STAR)的资助下,开展了大规模汉语平衡语料的收集与分析工作,其主要目的是建立一个反映现代汉语语言特点的、适用于汉语语言分析、语音识别和语音合成的汉语标注语料库,并以此为基础建立一部相应的信息词典.该工作主要包括:(1)在对大规模汉语平衡语料收集方法进行调研和分析的基础上,收集并标注了规模达3087万字的汉语平衡语料;(2)以收集的语料为基础,建立了一个大规模(10多万词)的现代汉语信息词典,词条标注信息包括词性、注音、词频和专用词的领域信息等.以上述工作为基础,我们对文本分类方法进行了深入的研究,主要创新包括:第一,在特征权重计算方面,通过对常见特征权重算法的分析和比较,提出了在TF*IDF算法中用TF的n次方代替TF,并引入DBV变量的处理方法,使得该算法的F1-Measure测度提高了4~5﹪.第二,类似于上面的处理方法,在TF*IWF算法中用TF的n次方代替TF,并引入DBV变量,使得该算法的F1-Measure测度提高了12.28﹪.第三,在特征向量抽取方面,在Rocchio分类器上对常见的特征向量抽取方法进行了全面对比,然后提出了将TF*ID算法用于特征抽取的处理方法,并通过实验证明,该方法在不同数目关键词下的分类效果均优于其它常见的特征向量抽取算法.

著录项

作者
陈克利;
展开▼
作者单位

中国科学院自动化研究所;

展开▼
授予单位中国科学院自动化研究所;
学科模式识别与智能系统
授予学位硕士
导师姓名宗成庆;
年度 2004
页码
总页数
原文格式 PDF
正文语种中文
中图分类机器翻译;
关键词
平衡语料; 语料库; 文本分类; 特征抽取;

相似文献

中文文献
外文文献
专利

1. 大规模文本分类的训练语料去噪方法研究 [J] . 高雄 ,韩红旗 ,王力 . 情报工程 . 2021,第004期
2. 大规模文本分类的训练语料去噪方法研究 [J] . 高雄 ,韩红旗 ,王力 . 情报工程 . 2021,第004期
3. 大规模语料库中自动搭配获取的统计方法研究 [J] . 姚建民 ,屈蕴茜 ,朱巧明 . 计算机工程与设计 . 2007,第009期
4. 《跨文化语用学语料收集方法研究》简介 [J] . . 浙江师范大学学报：社会科学版 . 2006,第6期
5. 大规模新能源区域互联消纳能力分析及综合评价方法研究 [J] . 高澈 ,牛东晓 ,马明 . 中国电力 . 2017,第007期
6. 基于大规模真实文本的平衡语料分析与文本分类方法 [C] . 陈克利 ,宗成庆 ,王霞 . 全国第七届计算语言学联合学术会议 . 2003
7. 面向命名实体抽取的大规模中医临床病历语料库构建方法研究 [A] . 冯丽芝 . 2015

大规模平衡语料的收集分析及文本分类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅