文本分类中基于熵的词权重计算方法研究

陈科文; 张祖平; 龙军

首页> 中文期刊> 《计算机科学与探索》 >文本分类中基于熵的词权重计算方法研究

文本分类中基于熵的词权重计算方法研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着文本数据量变得很大且仍在迅猛增加,自动文本分类变得越来越重要.为了提高分类准确率,作为文本特征的词的权重计算方法是文本分类领域的研究热点之一.研究发现,基于信息熵的权重计算方法(熵加权)相对于其他方法更有效,但现有方法仍然存在问题,比如在某些语料库上相比TF-IDF(term frequency & inverse document frequency),它们可能表现较差.于是将对数词频与一个新的基于熵的类别区分力度量因子相结合,提出了LTF-ECDP(logarithmic term frequency&entropy-based class distinguishing power)方法.通过在TanCorp、WebKB和20 Newsgroups语料库上使用支持向量机(support vector machine,SVM)进行一系列文本分类实验,验证和比较了8种词权重计算方法的性能.实验结果表明,LTF-ECDP方法比其他熵加权方法和TF-IDF、TF-RF(term frequency&relevance frequency)等著名方法更优越,不仅提高了文本分类准确率,而且在不同数据集上的性能更加稳定.

著录项

来源
《计算机科学与探索》 |2016年第9期|1299-1309|共11页
作者
陈科文; 张祖平; 龙军;
展开▼
作者单位

中南大学信息科学与工程学院;

长沙410083;

中南大学信息科学与工程学院;

长沙410083;

中南大学信息科学与工程学院;

长沙410083;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
特征词权重; 熵加权; 文本分类; 类别区分力;

相似文献

中文文献
外文文献
专利

1. 基于特征词权重的文本分类 [J] . 杨莉 ,万常选 ,雷刚 . 计算机与现代化 . 2012,第010期
2. 基于极大模糊熵原理的模糊产生式规则中的权重获取方法研究 [J] . 王熙照 ,安素芳 . 计算机研究与发展 . 2006,第004期
3. 基于遗传算法和信息熵的文本分类规则抽取方法研究 [J] . 唐华 ,曾碧卿 . 中山大学学报（自然科学版） . 2007,第005期
4. 文本分类中TF-IDF权重计算方法改进 [J] . 隗中杰 . 软件导刊 . 2018,第012期
5. 文本分类中TF-IDF权重计算方法改进 [J] . 隗中杰1 . 软件导刊 . 2018,第012期
6. 基于层次特征词权重的文本分类方法 [C] . 耿增民 ,贾云得 ,刘万春 . 2005第一届中国分类技术与应用研讨会（CSCA） . 2005
7. 基于TF-IDF的文本分类系统中权重计算和特征选择方法研究 [A] . 徐冬冬 . 2014

文本分类中基于熵的词权重计算方法研究

摘要

著录项

相似文献

相关主题

期刊订阅