基于教育数据的学生学业表现预测：以Hawassa大学为例

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

本研究将数据挖掘技术应用于高等教育领域以辅助提高高等教育的质量。本研究的目的是预测每一名学生在高等教育最后一个学期的学习表现(CGPA8)。并进一步分析和发现在高等教育的前几个学期中，对最终预测结果起着决定性作用的课程因素。根据预测和分析结果，学校可以提早采取相应的措施，辅助学生尽早发现学习中的问题，帮助学生提高学习成绩和表现，进而提高学生毕业时的素质。
　　随着数据挖掘技术的发展，研究人员开始将数据挖掘应用在教育领域，研究如何从学生的历史数据中发现有用的知识和有价值的信息。多年来，教育系统已积累了大量可用的教育领域数据，对这些数据进行分析和利用的需求也日益增加，因此教育领域的数据挖掘问题(Educational Data Mining，EDM)开始逐渐受到学者们的重视。
　　高等教育机构中的一个重要问题是很多学生中途肄业。事实上，学生们可能由于各种各样的原因从大学辍学，如:缺乏所研究领域的背景知识，非常低的考试成绩甚至是没能通过考试，经济上有困难等等。学校的管理者如果可以提前预测学生未来的学习表现，就可以早日采取措施，避免辍学的情况发生。近年来，在教育数据挖掘(EDM)领域，预测学生的学习成绩一直受到研究人员的广泛关注。埃塞俄比亚政府同样认识到了教育对国家发展的重要性，并开始颁布一系列的政策来帮助国家的教育部门加大教育相关管理力度，提升教育质量和水平，以适应国家经济发展的需求。学生作为被教育者，他们的个人素质和成绩反映了学校和国家的教育水平。学校若能研究和分析影响学生学习成绩的因素，及时采取恰当的措施去帮助学生，以防止他们中途肄业。本文所研究的内容就是如何利用教育系统中积累的学生历史成绩数据，而不依赖其他数据源，预测未来学生的成绩。如果可以仅利用学生的历史成绩实现学生最终成绩的预测，学校的教务管理人员就可以早日实现“学生成绩预测系统（Student Performance Prediction System，SPPS）”。
　　本研究使用的数据是来自于Hawassa大学的学生信息系统(SIS)。本文可以使用这些数据是经过学校官方授权的。这些数据包括该大学计算机学院连续三年（包括2015年，2016年和2017年）毕业的学生的数据，这里一共有134名学生。
　　直接从系统中提取的原始数据不能直接用于分析和挖掘。所以，需要对原始数据进行清理，转换和分析，进而整理和构造对于最终预测有帮助的特征属性。在构建预测模型之前，首先需要对数据进行标准化处理。在此预处理步骤之后，本文根据实际需求，设计了三种场景，三个场景的输入不同，预测的目标相同，都是预测学生在最后一年最后一个学期的成绩(CGPA8)。场景1是根据学生的大学入学成绩和在大学前两年的表现，预测CGPA8，即训练一个针对大二学生的预测模型。场景2是根据学生的大学入学成绩和在大学前三年的表现，预测CGPA8，即训练一个针对大三学生的预测模型。场景3是只根据学生大学前三年的表现，预测CGPA8，不利用学生的大学入学成绩。在实验过程中，采用了交叉验证的方法，并选用10折交叉验证。把全部样本数据分成10份，每次利用其中的9份进行训练，剩余的1份进行测试，并重复此过程10次，得到最终对模型预测效果的评价。
　　为了达到本研究目标即提前预测学生的最终成绩(CGPA8)，本文采用了三种预测模型进行实验，分别是:神经网络模型(NN)，支持向量回归模型(SVR)和线性回归模型(LR)。本文利用weka工具包进行实验，分别调用weka中的多层感知机(MLP)，支持向量回归(SVR)和线性回归(LR)三个算法包来实现不同的预测模型。本文采用均方根误差(RMSE)和相关系数(R)来评价和对比不同的模型。社会科学统计软件包(SPSS)也用于分析如何组合利用前三个学期的成绩可以达到最好的预测结果。
　　本文分别训练了基于神经网络，支持向量回归和线性回归这三种预测模型。首先，用统计学的方法分析了在本文研究的问题中，不同特征起到的作用。之后，按着前文提到的三种场景，分别进行了三种场景下的实验。第一个场景下的实验结果表明，SVR模型的预测结果和真实值之间有最小的均方根误差。而且，SVR模型的预测结果和学生的CGPA8之间的相关系数(R)值等于0.9305。第二个场景下的实验结果表明，LR方法优于其他两个预测模型（SVR和NN）。对这个场景，LR可以有效地减少预测值和真实值之间的均方根误差预测，此场景下LR模型对于CGPA8的预测相关系数(R)等于0.9758。最后一个实验场景下的结果表明，LR方法仍然表现了最好的预测结果。此外，此场景下LR方法对于CGPA8的预测相关系数等于0.9805，比起场景二的相关系数增加了0.0047。三种情况下，神经网络的预测模型都表现的最差。
　　SPSS的分析结果表明，大多数的变量（特征）与目标变量（目标值）之间存在着显著相关性，除了一些个别场景下，变量UEER与目标预测值之间的相关性很微弱。然而，为了使得模型更通用，适合所有场景下的预测问题，所以决定仍将UEER作为一维特征。此外，SPSS分析的结果进一步证实了哪些课程对于最终预测CGPA8起着重要的作用。
　　本文的研究表明，在实际中，可以只根据学生的入学成绩和在大学前几年的课程表现，而不需要借助任何其他的学生信息，就可以较为准确地估计学生毕业时的表现。
　　概括说来，本文的研究证明了高等教育机构可以利用数据挖掘技术在早期对学生的最终学术表现进行有根据的预测。所有的实验结果都真实有效，训练的模型可以直接应用到实际的系统中。本文还进行了一系列的对比实验，比较了本文用到的NN，SVR和LR三种模型优劣。总体上讲，SVR和LR模型的预测结果优于NN模型。因为，本文推荐利用SVR模型和LR模型对CGPA8进行预测。这些预测模型都可以嵌入到学校的教务系统中。最后，本文代码实现了利用SVR和LR模型进行学习表现预测的应用程序。

著录项

作者
Obsie Efrem Yohannes;
展开▼
作者单位

北京交通大学;

展开▼
授予单位北京交通大学;
学科 Computer Technology
授予学位硕士
导师姓名 Youfang Lin;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类学绩管理与考试;
关键词
高等教育; 学生成绩; 预测系统; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 高校学生第二课堂投入对学业表现的影响研究——基于教育数据挖掘方法 [J] . 吴士雨 ,杨志禹 ,丁国勇 . 中国教育信息化 . 2021,第023期
2. 基于教育数据挖掘的高校学生学业表现建模研究 [J] . 丁国勇 ,程晋宽 . 黑龙江高教研究 . 2020,第002期
3. 大数据背景下的远程教育学生学业表现预测模型——以H大学为例 [J] . 李红燕 ,薛圣凡 ,李宣妤 . 中国成人教育 . 2019,第22期
4. 基于教育数据挖掘的大学生实验课成绩预测研究 [J] . 丁国勇 ,秦新国 ,王雪 . 中国教育信息化·高教职教 . 2019,第007期
5. 基于教育数据挖掘的大学生实验课成绩预测研究 [J] . 丁国勇1 ,秦新国1 ,王雪2 . 中国教育信息化 . 2019,第013期
6. 大学生在线学习行为对学业表现的影响研究 [C] . 姚佳佳 ,李艳 . 中国教育技术协会信息技术教育专业委员会第十三届学术年会 . 2017
7. 大学生学业表现的分析与建模——以江苏大学数学国际班为例 [A] . 马丽琼 . 2019

基于教育数据的学生学业表现预测：以Hawassa大学为例

目录

摘要

著录项

相似文献

相关主题

期刊订阅