首页> 中国专利> 一种基于自动编码机的在线学习潜在退出者预测方法

一种基于自动编码机的在线学习潜在退出者预测方法

摘要

本发明公开了一种基于自动编码机的在线学习潜在退出者预测方法,包括:首先,将学习平台学习日志数据中的文本和非文本信息并进行预处理;其次,构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;最后,利用网络的重构误差对学习者进行异常检测,识别出潜在退出者。本发明利用在线学习者的行为判断在线学习者的学习状态发现潜在退出者,为学生提供有效帮助与指导。

著录项

  • 公开/公告号CN113077100A

    专利类型发明专利

  • 公开/公告日2021-07-06

    原文格式PDF

  • 申请/专利权人 西安交通大学;

    申请/专利号CN202110409484.5

  • 申请日2021-04-16

  • 分类号G06Q10/04(20120101);G06Q50/20(20120101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构61200 西安通大专利代理有限责任公司;

  • 代理人闵岳峰

  • 地址 710049 陕西省西安市咸宁西路28号

  • 入库时间 2023-06-19 11:44:10

说明书

技术领域

本发明属于在线学习的动态监测与评价领域,特别涉及一种基于自动编码机的在线学习潜在退出者预测方法。

背景技术

随着互联网技术快速发展以及个人移动计算终端设备的广泛普及,在线学习已经成为补充专业知识、拓展职业技能、提升学历水平、实现自我发展、以及实现终身教育的重要途径和手段。在这个过程中,在线学习行为数据的规模呈现指数级增长,并与整个在线学习过程相互交织影响。一方面,在线视频、学生论坛、虚拟实验以及在线测验考试等多样化的在线教学活动不断涌现,海量的教育数据随之源源不断产生。以麻省理工学院2012年发布的电路与电子学课程为例,仅在2012年春季一个学期就吸引了超过15万的全球学习者注册学习。在随后的4年里麻省理工学院联合哈佛大学又发布了290门课程,吸引超过450万的全球学习者注册学习,然而完成整个课程的学习者只有52%。与传统教育不同,在线教育中授课老师和学生无法进行及时的沟通交流,授课教师很难了解学生的学习状态和对知识的吸收程度。因此无法针对性地给学生提供指导和帮助。学生在学习过程中遇到问题不能及时解决导致学生在线学习效率低下,因此许多学习状态不好的在线学习者会中途退出。如何基于在线学习行为数据分析学习者的学习状态,发现在线学习潜在退出者,并提供个性化的帮助和指导已成为一个亟待解决的问题。

目前在线学习行为数据分析方法主要是通过获取在线学习平台的学习者日志数据、学习成绩、学习者的在线学习笔记以及问卷调查等方式,然后利用数据挖掘的方法对学习者的学习状态进行预测。学习者的状态由学习日志的特征决定,在本发明的范围内,我们研究学习者的两种学习状态:潜在退出学习状态和正常学习状态。本发明的学习状态定义为一个[0,1]之间的异常值,该异常值越接近于1,学习者属于潜在退出学习状态的概率越大,越接近于0则为正常学习状态的概率越大。潜在退出状态在学习日志中具体表现为作业未按时完成,在线视频学习时间不足,模拟测试成绩下滑等。然而,由于在线学习中退出者在中途退出后就不会再产生日志数据,导致学习日志信息不完整,而且退出者没有最终学习成绩,只有完成者具有完整的学习日志数据和最终学习成绩。如何利用这部分在线学习完成者的日志数据训练模型并且预测潜在退出者已成为一个重要且具有挑战性的问题。

以下文献提供了可参考的在线学习者行为分析的技术解决方案:

文献1.一种基于在线学习行为分析的个性化学习推荐方法(CN201711417283.X);

文献2.基于在线学习的学情分析系统及方法(CN201510778991.0);

文献1提出了一种基于在线学习行为分析的个性化学习推荐方法,该方法收集学习者的历史学习数据并利用这些数据训练一个神经网络模型,训练好的模型可以对新的学习者进行成绩预测并且对学习者进行性格分析,为学习者做出个性化学习方法推荐。

文献2提出了一种基于在线学习的学情分析系统及方法,首先采集与学生学习相关的数据,并对记录的数据进行预处理后存入数据库,通过监督学习的机器学习算法训练模型,修正测评指标体系的观测点参数,并根据构建的数据模型和修改后的参数对相关数据进行计算与分析,根据模型的结果预测学习者状态。

以上文献所述方法主要存在以下问题:首先,文献1与文献2都依赖于监督学习,前期不仅仅需要花费大量的工作收集学习者的学习状态相关的日志数据,包括学习成绩、性格,学习笔记等,并且给这些收集好的数据做标注需要耗费大量的人力成本和时间成本;其次,两者需要完整的学习日志数据,而中途退出者的学习日志数据是不完整的,因此无法利用现有数据资源和模型识别潜在退出者。

发明内容

本发明旨在提供一种基于自动编码机的在线学习潜在退出者预测方法。首先,将学习平台学习日志数据中的文本和非文本信息并进行预处理;其次,构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;最后,利用网络的重构误差对学习者进行异常检测,识别出潜在退出者。

本发明采用以下技术方案来实现的:

一种基于自动编码机的在线学习潜在退出者预测方法,包括以下步骤:

1)将学习平台学习日志数据中的文本和非文本信息并进行预处理;

2)构建符合潜在退出者检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;

3)基于所构建的深层网络结构,采用BP训练策略通过交叉验证训练在线学习潜在退出者检测网络;

4)利用网络的重构误差对学习者进行异常检测,识别出潜在退出者。

本发明进一步的改进在于,步骤1)的具体实现方法为:

Step1.清理编码异常数据

将所有数据的编码转换为可变长的字符统一编码,然后再针对乱码数据单独从数据源重新采集或删除;

Step2.删除无关数据

删除学习日志数据中包含的浏览器、操作系统和网络状态,以及涉及学生个人隐私信息的一些记录;

Step3.处理异常学习时间的数据

针对异常数据,采用相邻日志记录的时间间隔长度作为替代,相邻日志数据异常则按照学习活动类型选取时间间隔作为替代;

Step4.统一数据格式

由于不同类型的数据量纲数量级不同,在进行模型训练前将同种类型的数据进行标准化。

本发明进一步的改进在于,Step4中,使用z-score标准化方法对数值型属性进行处理,具体步骤为:

对数值型数据进行标准化处理

根据前述两个步骤计算的数值型属性的均值和方差对样本数据进行标准化,具体形式为:

其中,

使用One-Hot对学习者的类别型属性进行编码,详细步骤为:

a.设置K位的数组,每一个状态编码只有一位是1其余都是0,通过这种设置方式将类别型数据的差异转化为欧式空间中的距离;

b.将K种状态编码分别和K种离散值一一对应,确定每个属性的取值都为一个K位数组,该向量表示属性取值的One-Hot编码。

本发明进一步的改进在于,步骤2)的具体实现方法为:

网络结构确定后,确定具体的网络参数;其中,所有的网络层都是全连接网络,第一层,第二层和第四层的激活函数采用Sigmoid形式,其形式化表示为:

第三层层网络的激活函数设置和其它层的不同,该层网络的激活函数为ReLU的激活函数,形式化表示为:

f(x)=max(0.02x,x)

第五层输出层采用tanh激活函数,使得输出层的数据为[0,1]之间的概率值,其形式化表示为:

本发明进一步的改进在于,步骤3)的具体实现方法为:

为了使数据在经过多层神经元后保持在合理的范围,网络参数的初始化采用Xavier初始化,Xavier初始化以均匀分布的方式实施初始化,具体形式为:

其中n

训练自动编码网络包含两个部分的参数更新:编码网络和解码网络,编码网络包括第一层和第二层网络用f

其中X表示学习完成者的特征矩阵;在实际训练中先初始化参数,然后利用BP算法更新编码网络和解码网络参数,更新方法如下:

其中u是梯度下降算法的学习率。

本发明进一步的改进在于,步骤4)的具体实现方法如下:

由步骤3)得到具备对学习者信息数据进行自编码能力的网络模型,然后对测试样本对样本进行自编码处理,计算重构误差,其形式化表示为:

其中,N表示学习者的数量,x

本发明至少具有如下有益的技术效果:

针对以上文献中存在的不足,为了解决因学习退出者的学习日志不完整,现有技术无法从日志中学习到潜在退出者的特征,导致无法及时对学习者的学习状态进行预测并发现潜在退出者的问题,本发明引入了深度自编码网络模型,该模型包括网络编码和网络解码两个过程。网络编码过程利用学习者特征对学习状态进行表征,网络解码过程还原学习者的特征。利用学习完成者的数据训练网络,使得网络具有还原学习完成者特征的能力,但是无法还原中途退出者的特征。因此,该模型利用原始特征数据和还原出来的特征数据之间的差异可以判断学习者当前时间段的学习状态,发现潜在退出者。

本发明利用在线学习者的行为判断在线学习者的学习状态发现潜在退出者,为学生提供有效帮助与指导。本发明改进了现有的技术,使其适用于解决潜在退出者检测问题。与现有技术相比,本发明的优点是:

(1)本发明提出了完全无监督的潜在在线学习退出者预测方法,解决了现有技术需要耗费大量人力和时间进行学习者样本标注的难题。

(2)本发明巧妙地结合了深度学习中的自动编码网络特性,只需要学习完成者的日志数据就能够训练出检测模型,解决了现有技术依赖学习退出者数据,在学习退出者日志数据不完整情况下无法训练出有效检测模型的问题。

附图说明

图1为整体框架流程图。

图2为数据预处理流程图。

图3为统一数据格式流程图。

图4为潜在退出者检测模型示意图。

图5为潜在退出者检测模型实施流程图。

具体实施方式

以下结合附图和实施例对本发明做出进一步的说明。

从某在线教育平台中2017年的所有学习者中选取成绩为优的所有学习者为样本数据。以下参照附图,结合实验案例及具体实施方式对本发明作进一步的详细描述。凡基于本发明内容所实现的技术均属于本发明的范围。

如图1所示,本专利的具体实施中,对在线学习中潜在退出者的检测过程包括以下步骤:

S100.数据预处理

原始的在线学习行为数据主要以学习日志数据为主,其中包含了大量冗余字段和记录,具体包括学习系统记录的会话编号、浏览器信息、客户端信息、多端时间戳等字段,以及与本次课程学习无关的缴费、学籍管理等记录。除了上述冗余字段与记录以外,原始学习日志数据中也包含了许多异常数据。例如,由于字符编码引起的异常编码文本数据、异常学习时间、不同版本客户端的数据格式不一致等问题。针对这些问题,数据预处理按以下步骤对学习日志数据进行了清理:

在线学习行为数据主要以学习日志数据为主,其中包含了大量冗余字段和记录,具体包括学习系统记录的会话编号、浏览器信息、客户端信息、多端时间戳等字段,以及与本次课程学习无关的缴费、学籍管理等记录。除了上述冗余字段与记录以外,原始学习日志数据中也包含了许多异常数据。数据预处理实施过程如图2,具体包括以下步骤:

S101.清理编码异常数据

在处理数据时容易产生由于编码不兼容引起的乱码造成数据丢失,特别是涉及中文字符和特殊符号时。因此,在数据预处理时需要先处理编码问题。具体的实施包括:(1)将所有数据的编码转换为统一编码Unicode Transformation Format;(2)删除乱码字符。

S102.选取学习相关字段

学习日志数据中包含了浏览器、操作系统、网络状态等与本研究关注的在线学习行为分析无关的字段,另外也包含了涉及学生个人隐私信息的一些记录,该步骤会将这些字段和记录删除,在数据库中选取仅与学生学习相关的字段,比如各课程的学习时长,课程笔记内容,学生互动信息等。

S103.处理异常学习时间的数据

在学习日志中记录了学生观看视频、阅读材料等活动的学习时间,若其学习时长超过合理范围或给定阈值,将无法代表学生实际的学习时间,影响对后续学习参与度的分析。针对这些异常数据,采用相邻日志记录的时间间隔长度作为替代,相邻日志数据异常则按照学习活动类型选取时间间隔作为替代。

S104.统一数据格式

在线学习者信息数据库中包含数值信息和类别信息,这些信息对于潜在退出者的检测具有重要价值。

如图3所示,本实施例对预处理后信息详细的处理步骤包括:

S104-1.数值型属性处理

数值型属性的取值虽然可以直接用来计算,但是由于不同属性的性质不同,通常具有不同的量纲和数量级。为了保证经过处理后的数据的分布尽量符合正态分布,且消除不同量纲带来的影响。本实施例采用z-score方法对数值型属性进行处理。

查询在线学习者信息数据库。提取出数值型属性{学生-教师交互次数量,学生-系统交互次数,学生-学生交互次数,在线天数,单日时长,总时长,阅读数量,观看数量,观看时长},然后对上述9个数值型属性进行z-score处理。

具体的,在本实施例中,z-score过程的具体计算形式为:

其中,X

S104-2.类别型属性特征处理

在异常检测算法中,数据之间距离的度量是必要的,然而类别型属性的取值是离散的,离散型取值具体代表一种标识而非数值大小,需要对类别型属性重新进行编码,编码后的属性值可以进行距离的度量。

查询在线学习者信息数据库中学习者的信息,提取6维类别型属性:{课程号,学生类型,学生性别,所属专业,考试类型,所属地区,所属学科}对上述类别型属性进行编码处理。本实施例采用One-Hot技术对上述6种类别型属性进行编码。所述One-Hot编码的过程以属性所属学科为例,编码详细步骤为:

(1)判断所属学科的离散取值个数,该属性取值有13种,分为哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学。

(2)设置13位的数组,每一个数组只有一位是1其余都是0,设置的13位状态码分别是{0000000000001,0000000000010,0000000000100,0000000001000,0000000010000,0000000100000,0000001000000,0000010000000,0000100000000,0001000000000,0010000000000,0100000000000,1000000000000},将哲学、经济学、法学、教育学、文学、历史学、理学、工学、农学、医学、军事学、管理学和艺术学这13个属性分别对应上述的One-Hot编码。

S104-3.合并特征向量

将经过步骤S201和S202处理后得到得特征合并到一个空间,构成完整的样本特征。

S200.潜在退出者检测网络的构建

潜在退出者检测过程中,通过构建自动编码网络实现潜在退出者的检测目的,训练好的自动编码网络有非常好的特征重构能力,并且是完全非监督的模型,因此不需要对数据进行标注,节省了大量的人力物力。在自动编码网络中,把重构误差作为学习退出者的异常指标。异常指标生成和分析的构建步骤如图5所示,详细的构建流程包括:

S201.网络结构设计

首先确定网络结构,根据步骤S100得到的样本特征空间的维数确定网络的输入和输出神经元个数,样本特征空间的维数和图4中N相等,本发明设计了5层的网络。输入层和输出层都是N个神经元,本实施例最终确定N为65。第二层是隐层网络,网络中神经元个数为M,本实施例中经过实验最终确定M为30。第三层是中间隐层网络,网络神经元个数为K,本实施例中确定K为12。第四层网络和第二层网络结构相同。输出层结构和输入层相同,各层网络均采用全连接的方式连接。

本发明构建的潜在学习退出者检测模型具备对样本空间中完成学习任务的学生特征的编码和解码的能力,完成学习任务的学生特征更容易被网络从输入端复制到输出端,而潜在退出者的数据和正常数据分布差异较大,网络对其重构的效果不显著,故利用该模型的这个特点可以进行潜在退出者的检测和识别。

S202.网络参数设定

网络结构确定后,需要确定具体的网络参数。本实施例中所有的网络层都是全连接网络,第一层,第二层和第四层的激活函数采用Sigmoid形式,其形式化表示为:

中间层网络的激活函数设置和其它层的不同,该层网络的激活函数为ReLU的激活函数,形式化表示为:

f(x)=max(0.02x,x)

输出层采用tanh激活函数,使得输出层的数据为[0,1]之间的概率值,其形式化表示为:

S300.网络训练策略

本实施例选取某在线教育平台中2017年的所有学习者中选取成绩为优的所有完成学习的学习者数据为样本数据。网络训练的过程将数据按照6∶1∶1的比例划分训练集、验证集和测试集,然后利用交叉验证法训练网络。

神经网络的训练过程中参数调整是基于梯度下降法进行优化的,梯度下降法需要在训练开始给每一个参数赋予初始值,当网络层数较深时,初值的选取对模型的性能影响很大,所以设置的初值是非常必要的。为了使数据在经过多层神经元后保持在合理的范围,网络参数的初始化采用Xavier初始化。Xavier初始化以均匀分布的方式实施初始化,具体形式如下:

其中n

训练自动编码网络包含两个部分的参数更新:编码网络和解码网络,编码网络包括步骤S201中的第一层和第二层网络用f

其中X表示学习完成者的特征矩阵。在实际训练中先初始化参数,然后利用BP算法更新编码网络参数和解码网络参数,更新方法为:

其中u是梯度下降算法给定的学习率。

S400.潜在退出者的检测

由步骤S203得到具备对学习者信息数据进行自编码的能力网络模型,利用该模型对样本进行自编码处理,计算重构误差,其形式化表示为:

其中,N表示学习者的数量,x

在本实施例中,上述异常值是[0,1]之间的连续数值,该异常值越接近于1代表该学生为潜在退出状态的概率越大,异常值越接近于0代表该学生是正常学习状态的概率越大。但是模型得出的异常值并不能直接给出数据是否异常的结论,需要对结果做进一步的评估。

在潜在退出者检测评估中,设置重构误差阈值ε,如果样本的重构误差大于ε,判定该样本为潜在退出者。本实施例中根据实际的数据对阈值进行微调并确定ε的最终取值为0.08。

本领域的技术人员容易理解,以上所述仅为本发明的方法实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号