基于主成分分析和K近邻的文件类型识别算法

鄢梦迪; 秦琳琳; 吴刚

首页> 中文期刊> 《计算机应用》 >基于主成分分析和K近邻的文件类型识别算法

基于主成分分析和K近邻的文件类型识别算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

In order to solve the problem that using the file suffix and file feature to identify file type may cause a low recognition accuracy rate,a new content-based file-type detection algorithm was proposed,which was based on Principal Component Analysis (PCA) and K Nearest Neighbors ( KNN).Firstly,PCA algorithm was used to reduce the dimension of the sample space.Then by clustering the training samples,each file type was represented by cluster centroids.In order to reduce the error caused by unbalanced training samples, K NN algorithm based on distance weighting was proposed.The experimental result shows that the improved algorithm,in the case of a large number of training samples,can reduce computational complexity,and can maintain a high recognition accuracy rate.This algorithm doesn't depend on the feature of each file,so it can be used more widely.%为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题,在基于文件内容识别文件类型的算法基础上,提出主成分分析(PCA)和K近邻(KNN)算法相结合的文件类型识别算法.首先,使用PCA方法对样本预处理以降低样本空间的维数;然后,对降维后的训练样本集进行聚类处理,即用聚类质心代表每种类型的文件;最后,针对训练样本分布不均匀可能造成的分类误差,提出基于距离加权的KNN算法.实验结果表明,改进算法在样本数较多的情况下,能降低分类的计算复杂度,并保持了较高的识别正确率;而且该算法不依赖文件类型的特征标识,应用范围更为广泛.

著录项

来源
《计算机应用》 |2016年第11期|3161-3164|共4页
作者
鄢梦迪; 秦琳琳; 吴刚;
展开▼
作者单位

中国科学技术大学信息科学技术学院;

合肥 230022;

中国科学技术大学信息科学技术学院;

合肥 230022;

中国科学技术大学信息科学技术学院;

合肥 230022;

展开▼
原文格式 PDF
正文语种 chi
中图分类模式识别与装置;
关键词
文件类型识别; 字节频率分布; 主成分分析; K近邻;

相似文献

中文文献
外文文献
专利

1. 基于变长元组的文件类型识别算法 [J] . 曹鼎 ,罗军勇 ,尹美娟 . 计算机应用 . 2011,第007期
2. 改进的基于内容的文件类型识别算法 [J] . 曹鼎 ,罗军勇 . 计算机工程与设计 . 2011,第012期
3. 基于统计特征值的文件类型识别算法 [J] . 郑洁 ,罗军勇 ,芦斌 . 计算机工程 . 2007,第001期
4. 基于弹性模板和K近邻结合的表情识别算法 [J] . 张杰 . 太原师范学院学报（自然科学版） . 2011,第004期
5. 基于双向PCA和K近邻的人脸识别算法 [J] . 王心醉 ,李岩 ,郭立红 . 解放军理工大学学报（自然科学版） . 2010,第006期
6. 基于K近邻字典的多任务协同表示SAR目标识别 [C] . LI Shan ,李姗 ,LI Feng . 第十四届全国信号和智能信息处理与应用学术会议 . 2021
7. 基于贝叶斯k近邻和主成分分析的教务数据挖掘研究 [A] . 陈秀玲 . 2007

基于主成分分析和K近邻的文件类型识别算法

摘要

著录项

相似文献

相关主题

期刊订阅