研究动态

首 页 > 学术交流网 > 研究动态 > 正文

郑勤华副教授:基于学习分析的学习者综合评价研究

发布: 2017-06-02 浏览:

 

在线学习,师生分离,基于学生在线学习的行为,如何对其进行综合测评?今天就借这个宝地,谈一下基于学习分析的学习者综合评价。

学习分析中的评价

学习分析是对学习者和他们的学习历程加以评量、收集、分析和报告,目的是为了了解学习者的学习及其学习环境并加以优化。我们为什么要做基于学习分析的综合评价呢?选择评价作为切入点,是因为学习分析技术所期待的个性化学习服务,来源都在于有一个科学的评价模型,只有建立了评价基准,才能够做出相应的预警和预测服务,从而为有效的干预提供支持。

我们调研了在线教育实践的现状,发现了一些问题、痛点。在线学习是一个师生分离的状态,老师实际上看不到学生,而且很多时候在线课程面对的是大规模用户群体。因此,老师无法实时监控教与学的过程,也难以获知在线学习者的真实学习体验。在这样的情况下,怎样能够进行有效的学习监测呢?我们以前主要是通过作业和考试,考察学生的认知结果。如今,对人才培养的定位越来越指向综合性,尤其是在线教育领域,我们一直提出的是应用型人才的培养目标。我们如何进行理想的综合性评价呢?

我们对在线教育的评价并没有像对基础教育一样,从认知、情感领域有特别清晰的认识。我们对在线学习者进行评价,首先要做的事情就是建构衡量学习质量的综合评价模型。对学生进行建模,我们要从什么样的角度去描述呢?有多种角度可以表征学生模型,包括人机交互、社会性交互、思维模式、学习坚持、情绪表征等等。

我们要做的第二件事就是采集学生学习过程的数据,将平台记录的有效教与学的行为数据聚合到综合评价模型。教育数据的阐释能力是我们关注的重点,也是我们一直尝试解决的问题。因为数据本身是一个比较冰冷的东西,我们也不敢说我们做的评价模型一定是具备相当教育阐释能力,只能让它尽可能地符合教与学的场景。

学习者综合评价模型

如何构建学习者综合评价模型是我们这一轮工作的重点。学生综合评价模型的理论主要来源于两位老先生,布鲁姆和加涅。对于教学目标,布鲁姆将其分为认知领域、情感领域和动作技能领域等三大领域;加涅将教学目标按照学习结果分为言语信息、智力技能、认知策略、动作技能和态度等五个大类。

 

由于在线学习基本不涉及动作技能的目标习得,因此,我们主要在加涅的目标分类基础上,结合在线教育自身的特点以及在线学习者的特点,构建了五维度理论模型。

智力技能方面,引入了完成度这一维度来反映教学目标的具体完成情况。所谓完成度,指的是学习者按照教师的教学设计,所完成的相应的学习活动的情况。我们认为完成度可以表征出来或者从认知的角度,学生所达到的层次是可测量的。

态度和情感方面,我们考察的是主动性的问题。由于在线学习是以自主学习为核心的学习模式,不同的学习动机和学习需求是在线学习者的重要属性,主动性在一定程度上表征了学习者的学习动机水平与变化情况。

认知策略方面,我们考察的是学生的调控度。在师生分离的情况下,能力、方法上的差异对学生的在线学习效果有着重要的影响,因此需要进行全面的评价,以帮助教师针对不同类型的学习者采取有针对性的教学策略和教学干预。

在在线学习中,学生学习的投入水平也是我们关注的重点。投入度指的是学生学习的过程数量指标,考察学习者在在线学习中的活动参与情况。

从在线学习的发展趋势和对学习者的学习素养要求的角度出发,我们构建了联通度这一维度。在联通主义学习中连接的建立和网络的形成都依赖于交互的开展,整个网络以交互为核心。

学生综合评价参考模型,我们称之为S-SERI模型,包括完成度、主动性、调控度、投入度和联通度这五个维度。我们的维度建模主要来源于理论演绎和专家访谈,下一步的重心是将构建的维度模型进一步细化,提炼出相应的数学结构,从而为量化评估提供可操作的依据。

基于建模的评价应用

第一步,梳理数据资产。如何对数据进行管理,实际上是最困难的事情,我们80%左右的工作量实际上都是对数据进行管理。第二步,完成数据汇聚。第三步,建构评价模型。第四步,实施动态监测。最后,提供角色化支持。

我们为什么要梳理数据资产?假设你想考察学生参与学习的主动性,什么样的数据能够表征学生的主动性呢?是他登录了多长时间?是他做作业用的时长?还是他在论坛中花的时间?再比方说,一个练习学生可能做了两次,平台记录下来了他每一次做的情况。我们要把这些数据整合起来,它才能够真正意义上去表征我们想要去考察的。

 

我们做了一款工具,然后把这款工具嵌入到各个网络教育运行平台中。用户对于模型运行的评测,反馈回来修正我们的体征模型。我们不敢说非常精确,但是这是比较成形的方法和工具。我们平均一个月的时间迭代一次。迭代确实比较痛苦,但是这个过程非常有必要。

对于我们来说最大的挑战是什么呢?是有很好的算法,没有好的数据,或者说数据的质量很好,没有好的算法。这一系列的问题,都让我们操作起来比较困难。现在很多在线的学习,包括强制性要求我们老师参加的线上学习,有多少人是打开了视频就消失了?视频一直在播放,而学习者并没有真正投入到学习中。系统里面记录了很多关于视频播放时长的数据,而一些有意义、有价值的数据可能没有记录。

我们平台记录了学与教的过程及结果、学习者的心理特征、职业发展特征以及其他相关的数据,有大量的非结构化的数据,比如图片、视频等等。在完成数据资产汇集时,要动态抽取多类相关数据、快速清洗,按专题分层汇聚。

我们最有价值的工作,就是把平台记录行为的数据,包括结构化和非结构化的数据,转化为特征变量。特征变量是经过统计分析后,证明具有足够好的数据质量,是进入算法构建的变量。作为技术领域中的研究团队,我们更能够理解教育,更知道从教育的角度来说,应该从哪些变量去分析学与教的过程。

 

学生在平台上的学习活动,涉及到了有监督和无监督的机器学习。有监督的机器学习可以通过问卷、量表或者其他测量方法获得指标因变量的值,而无监督的机器学习构成复杂,且对应因变量的值获取相对较为困难,如何采用无监督的机器学习方法对这些指标进行分析呢?要完成这种分析,需要先将专家知识通过某种方式传授给机器,再由机器完成专家所不能够完成的整合分析。如果对学生的活跃度这个指标进行分析,可以找到在线时长、登录次数等特征数据,由专家对不同活跃水平的学生贴标签,然后再对各类学生进行聚类等各种分析。对分析的结果进行初步的模型计算。根据计算结果,确定学生活跃度的分析算法。

仅仅通过测试对学生的认知结果做评价,过于单一,我们需要通过多个维度,来揭示学生的学习状态。按照综合评测体系给学生打分,如果学生得了86分,这个86分代表了什么?通过综合评测系统,我们要能够更加深入和全面地解读在线学习。如果我们根据综合评测系统给学生的分数与学生考试的分数完全一致的话,我们做这个工作实际上也没有什么意义。

我们给学生86分,如果学生对我们的打分有置疑,如果他的质疑有道理,我们就需要做相应的调整。模型构建,实际上都是在不断的滚动、循环、迭代的,我们已经实践了20轮左右,形成了一个相对比较成熟的模型。

评测是不是绝对的精确?我认为没有绝对的精确。我们能够做到是什么呢?我们与手机APP移动端相结合,可以实时监测学生动态,而不再需要通过一个月度、季度或者一个学期进行总结性评价。我们更想做的事情是干预,给教师、管理者提供学生综合评测服务,通过学情诊断和预测,从而进行干预活动。

讨论

总结本轮研究,我们认为,在基于学习分析技术进行学习者综合评价的研究中,需要重点考虑以下几点。

首先是评价的目的。我们构建的评价模型是针对学习者的全面综合评价,并不一定适合所有的课程类型。在具体的课程教学模式中,有的课程可能采取的是真正意义的自主学习,对学习中交互的发生并没有要求,此时联通度这一维度的价值并不大;而有的课程以师生和生生之间的教学交互为核心,不涉及大量的形成性自主测试,此时的完成度这一维度则对该类课程价值不大。为了考虑不同的评价目的,我们在工具的设计中提供了教师自定权重的相关调整机制,从而保证工具本身的通用性。

其次是特征数据的聚合问题。基于原始行为数据的分析在综合测评中不能直接应用,我们需要按照实际应用聚合成相应的特征变量。特征变量的选择必须有维度的解读意义,即能够表征出维度的某个方面,同时能够用最底层的行为数据聚合而成。教育领域数据的聚合,跟别的领域特别不一样。学习为什么会发生?我们从教育学的角度,从生命科学、神经科学,甚至从医学的角度,以及各个学科相结合去研究学习发生的机制,实际上我们并不能特别清楚地解释学习为什么会发生。同样的一个环境,有的学生能学好,而有的学生就学不好。我们说可能是学生的个性化造成了学习差异。那么,学生的个性化又是怎样造成了他们学好或者没学好呢?

我去很多单位合作的时候,经常被问到这样一个问题,如果要想提高学生学习的质量,我们研究需要采集哪些数据?我现在根本没法告诉他要采集哪些数据,我只能说采集的数据越多越好。和学生学习相关的变量非常多,一系列复杂的因素都会对学习产生影响,这对我们解读数据产生了极大干扰。

最后,模型建构中的应用迭代。我们基本上以一个月为周期做一轮迭代,迭代不仅是在算法这一块的迭代,在每一轮的迭代中,我们将搜集教师和学生的反馈信息,从而对模型本身和工具应用做出修正。学生在学习过程中,哪些因素与学习的质量有相关,这个问题实际上我们的教育学科现在还回答不了,回答不了我们就要做很多新一轮的研究。数据是不是能够驱动教育发生一系列的变革?我们希望做一些这样的探索。当然目前还是刚刚开始,所以今天借会议的机会跟各位做一个简单的报告,谢谢大家。