Web文档分类中TFIDF特征选择算法的改进

段国仑; 谢钧; 郭蕾蕾; 王晓莹

首页> 中文期刊> 《计算机技术与发展》 >Web文档分类中TFIDF特征选择算法的改进

Web文档分类中TFIDF特征选择算法的改进

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

随着海量数据资源在网络中的出现,Web文档分类技术越来越受到重视.在Web文档分类的研究中,特征选择算法有着重要的研究意义.特征选择能有效降低文本向量空间模型的维度,从而构造出更快,消耗更低的预测模型.传统的TFIDF算法仅仅依靠文档中所包含特征词的词频和逆文档频率来判断该特征词对于文档分类的重要性,忽略了特征项在类内和类间的分布以及数据集不均衡现象,从而效果受到制约.针对存在的不足进行改进,提出了类内分布因子以及类间分布因子.基于类内以及类间因子,替代逆文档频率,可以使得改进的表达式能够选择出更加高效的特征词.通过使用SVM分类器进行文本分类对比实验,与改进前的方法相比,该方法能使F1值得到一定程度的提高,在不均衡数据集上同样具有较好的分类效果.

著录项

来源
《计算机技术与发展》 |2019年第5期|49-53|共5页
作者
段国仑; 谢钧; 郭蕾蕾; 王晓莹;
展开▼
作者单位

陆军工程大学指挥控制工程学院;

江苏南京210007;

陆军工程大学指挥控制工程学院;

江苏南京210007;

陆军工程大学通信工程学院;

江苏南京 210007;

陆军工程大学指挥控制工程学院;

江苏南京210007;

展开▼
原文格式 PDF
正文语种 chi
中图分类文字信息处理;
关键词
Web文档分类; 特征选择; TFIDF算法; SVM;

相似文献

中文文献
外文文献
专利

1. 基于信息熵的TFIDF文本分类特征选择算法研究 [J] . 陈国松 ,黄大荣 . 湖北民族学院学报（自然科学版） . 2008,第004期
2. 基于信息熵的改进TFIDF特征选择算法 [J] . 周炎涛 ,唐剑波 ,王家琴 . 计算机工程与应用 . 2007,第035期
3. 文本分类中卡方统计特征选择算法的改进 [J] . . 有线电视技术 . 2018,第012期
4. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程 . 2017,第012期
5. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程师 . 2017,第012期
6. 基于改进TFIDF的文本特征选择算法 [C] . 杨成成 ,贺兴时 . 2008年全国模式识别学术会议 . 2008
7. 中文文本分类中特征选择算法的研究与改进 [A] . 施瑞朗 . 2018

Web文档分类中TFIDF特征选择算法的改进

摘要

著录项

相似文献

相关主题

期刊订阅