研究动态

首 页 > 学术交流网 > 研究动态 > 正文

教育大数据挖掘技术与应用案例分析

发布: 2017-06-22 浏览:

精华摘要

  “互联网+”教育的新浪潮下,教与学方式由传统的课堂教学逐渐转化为基于Internet的在线学习或混合式学习,随之而来的海量学生数据在大数据时代的影响下成为教育机构最宝贵的资源之一。利用数据挖掘技术可以从教育大数据资源中提炼出有意义、有价值的教与学信息,并依据实际教学情况将提取的教与学信息应用于教育教学中,以达到调整教学计划、优化教学效果的目标。

 教育大数据挖掘技术

 教育大数据挖掘就是将大量的教育大数据资源转化为有意义的教育信息与知识。目前教育领域内常用的主要数据挖掘技术方法包括分类预测、聚类分析、关联分析和可视化技术等。

分类预测

分类属于预测分类(离散、无序的)标号,是一种有监督的学习过程,它依据训练数据集发现准确描述来划分类别,其实质是对已知的训练数据集表现出来的特性,获得每个类别的描述或属性来构造相应的分类器或者分类;而预测则是建立连续值函数模型,是根据分类和回归来预测未来的趋势与规律。决策树、贝叶斯(Bayes)、人工神经网络(ANN,Artificial Neural Networks)、k-近邻(kNN,k-Nearest Neighbors)、支持向量机(SVM,SupportVectorMachine)、基于关联规则的分类和集成学习(EnsembleLearning)等是比较常见的分类算法,其中决策树算法和贝叶斯分类算法中的朴素贝叶斯(Naive Bayes)算法是利用率较高的分类方法;通常运用比较多的预测方法则是回归分析法,包括线性回归、多元回归和非线性回归。

 聚类分析

 聚类是将大量的数据聚集到不同的群或者簇的一个过程,使得相同簇中的对象极其相似,不同簇之间的对象则存在较大的相异性。聚类分析不同于分类,不必按照已有的分类标准进行分类,而是依据大量的样本数据将其自动划分为未知类,是一种探索性的、无监督的学习过程。聚类分析过程运用的方法不同,往往会得到不同的分类结果。目前常常使用的聚类算法一般分为五类:划分聚类算法(如k-Means、k-中心点)、层次聚类算法(如BIRCH算法、ROCK算法和CURE算法)、密度聚类算法(如DBSCAN算法和DENCLUE算法)、网格聚类算法(如STING算法和CLIQUE算法)和模型聚类算法(如EM算法)。

关联分析

关联分析是从海量数据中发现对象集合或者项目集合之间存在的频繁模式、关联和相关关系,通过利用数据库事务之间相互关联、相互依赖的联系与规律,对这些事务进行预测。数据库事务之间的关联规则挖掘过程一般分为两步:一是需要发现数据库中所有的频繁项集,二是由频繁项集来挖掘数据库事务之间的关联规则。典型的关联规则挖掘算法包括了由RakeshAgrawal提出的Apriori算法和JiaweiHan等提出的频繁模式增长(FP-growth)算法。

 可视化技术

 可视化技术是数据挖掘中一种必不可少的且应用广泛的辅助技术,它通过借助图形、图表、图像等手段以用户易理解的方式形象地展示数据分析的最终结果,因此又被称为“绘制大数据的藏宝图”。可视化技术的独特之处表现在其持有的艺术性与交互性的特征上,不仅能够呈现多种艺术形式的效果图,而且实现了用户与数据之间的双向信息沟通。数据可视化运行的一般流程为获取、分析、过滤、挖掘、表示、修饰、交互七个步骤。在解释数据信息过程中可视化技术比较注重将抽象的、复杂的、模糊的数据转化为具体的、直观地、清晰的以视觉形式表达的信息与知识,以方便用户对可视化结果的掌握与理解。可视化技术应用的最终结果很好地揭示了隐藏在大数据背后的潜在价值。

教育大数据应用案例

大数据在教育领域内的广泛应用是挖掘教育大数据潜在价值的具体体现。在大数据思维的启发和理论与技术的支撑下,教育大数据的应用已经渗入到教育教学的各个方面,如美国搭建的立体化教育数据网络,旨在支持教育科学决策;美国马鞍峰社区学院的高等教育个性化服务助理系统,利用学生数据成功实施了个性化教育;加拿大的Desire2 Learn公司开发的学生成绩系统实现了数据驱动下的学业预警与干预服务等等。这些教育大数据的实际应用逐渐突破了传统的教学模式,改善了教学效果,促进了教学质量的提升。接下来,以普渡大学的课程信号系统、奥斯汀佩伊州立大学的学位罗盘个性化课程推荐系统和Knewton自适应学习系统3个典型案例着重分析教育大数据应用驱动下的学业预警干预、个性化教育和自适应学习等的发展与创新。        

 普渡大学的课程信号系统

 为了解决普渡大学面临的新生保有率(Retention Rate)和学生课程通过率日渐下降的问题,课程信号系统(Course Signals)于2007年被引入学校并正式实施,其目的在于帮助学生尽可能的融入课程学习中,以促进其取得课程学习的成功。课程信号是一个典型的以大数据为基础的预警干预系统,该系统通过收集分析学生个体的基本信息和学习过程数据,利用学生成功算法(SSA,Student Success Algorithm)建立预测模型,以判断学生是否存在学习危机;如果教育数据分析与预测的结果表明该学生可能存在学习危机,那么系统会向其发出相应的预警信号,并给予及时的干预指导。基于SSA算法建立预测模型是整个课程信号系统的核心环节,系统依据SSA算法得到的预测值,分别在学生学习界面和教师控制界面上显示与交通信号灯相似的信号提示,其中红灯表明该学生的课程学习存在极大失败的可能性;黄灯表明课程学习的过程存在问题,有可能会导致学习失败;绿灯则代表着该学生会有极大可能取得课程学习的成功。教师根据系统发出的预警信号,以电子邮件、短信或谈话等形式向学生提供干预引导,也可以通过系统为学生推荐合适的学习资源,以帮助学生顺利通过课程学习。普渡大学课程信号系统的运行不仅能够协助学生获得课程学习的成功,辅助教师完成课程教学,提高教学质量,优化教学效果,而且还诠释了教育大数据在学业预警干预方面的价值,为大数据在教育领域其他方面的应用奠定强有力的基础。

 奥斯汀佩伊州立大学的学位罗盘个性化课程推荐系统

 奥斯汀佩伊州立大学有近50%的成人学习者,这使得该校的课程教学安排难于满足大多数学生的个人需求,不利于学生学业成就的提升。基于此种情况,学校通过学习分析技术建构了一个学位罗盘(Degree Compass)个性化课程推荐系统,旨在帮助学生依据自己的需求选择合适的课程。整个系统的运行过程如下:首先系统需要对学生的历史学习数据进行全面收集,然后从学校存储毕业学生或者高学年学生的数据库中检索查询出与该学生学业情况相似的学生数据,利用学习分析技术分析两个学生的历史成绩与课程学习之间的相关性,用于推测该学生未来所取得的课程学习成绩,最后与学生的专业学习要求、课程重要程度相结合,向学生提供一份个性化的课程推荐表,表中的课程推荐指数按照不同等级呈现。学位罗盘个性化课程推荐系统利用学生学习数据之间的匹配程度,帮助学生在选课阶段选出能够满足自身需求的课程,以促进学生学业成就的提升。奥斯汀佩伊州立大学基于学习分析技术建立的学位罗盘个性化课程推荐系统,依据每个学生特有的学习风格和习惯,为其提供个性化的教育教学,以满足学生个体的不同学习需求,实现真正意义上的个性化教育,从而促进教育公平的发展,同时也为教育大数据在个性化教育方面的应用提供可靠的依据。

 Knewton自适应学习系统

 教学过程中如何依据学生的学习背景、学习特征、认知水平和学习环境等为其提供满足自身学习需求的教学资源、定制符合实际情况的学习计划,并以学生的学习过程为参考设计相应的教学活动,最终使学生实现自适应学习的目标,是教育工作者关注的热点问题之一。Knewton是世界著名的提供自适应学习方案的公司,其开发的自适应学习系统能够实时监控学生的学习过程,依据学生的学习数据为其推荐合适的学习路径及学习资源,及时调整教学活动,帮助学生进入最佳的学习状态,以实现基于大数据的自适应学习。Knewton构建了一个基于规则的自适应基础设施,它支持大量教育数据的实时处理,利用项目反应理论、概率图模型、记忆和学习曲线等理论与方法对学生进行精确地评估与预测,根据预测结果向学生提供可选择的个性化学习路径。为了保证自适应学习的连续性,Knewton自适应学习系统持续跟踪挖掘学生的海量学习数据,分析学生的学习方式、学习兴趣和学习盲点等,利用相关技术与算法将学生的数据信息加以关联处理,提炼出最适合学生的学习路径,以促进学习效果的最优化。有效的自适应学习离不开教育大数据的应用,可见大数据是教育未来的根基,未来的教育教学发展建立在分析与挖掘海量数据的基础之上。

 教育大数据应用挑战

 教育大数据的应用在促进教育教学的同时,由于数据挖掘技术应用的限制、数据专业人才的缺乏以及存在的伦理道德与隐私安全风险等挑战,致使教育大数据不能够完全释放其价值,在一定程度上阻碍了大数据在教育应用方面的健康发展,不利于大数据背景下未来教育的改革与创新。技术应用的限制

  教育大数据应用过程针对数据挖掘技术的运用存在一些困难与限制,具体表现在数据收集、数据存储、数据分析和数据可视化等环节中。数据收集过程面临的困难在于需要对来自网络学习和传统学习的大量数据附上时空标志,去伪存真,还要与历史数据相对照,多角度地验证数据的全面性和可信性;存储数据过程由于其低成本、低能耗、高可靠性的目标,使得数据需要通过冗余配置、分布式和云计算等技术进行过滤、去重,减少存储量,这就增加了数据管理的难度;教育大数据的复杂性和多样性难以用传统的技术方法描述与度量,需要在数据分析环节将高维的非结构化数据降维后再进行度量分析,运用上下文关联从海量动态及模棱两可的数据中提取信息;数据可视化的输出结果必须是较为直观的、易于接受的,以方便用户观察与理解,而且最终展示的效果图还要符合用户的视觉审美,这样以来,就对可视化技术的应用提出了更高、更难的要求。

 专业人才的缺失

 2012年10月,美国国家教育部发布的《通过教育数据挖掘和学习分析促进教与学》报告指出教育大数据应用面临的技术挑战,可以通过技术研发和基础设施去克服,然而大数据教育应用过程有80%以上的挑战和限制来源于“人”。在教育大数据资源转换成教育大数据价值的过程中数据专业人员发挥着至关重要的作用,不仅需要精通数据收集、数据存储和管理、数据分析和数据解释等方面的资深型数据人才,还离不开数学和统计学专家、心理学专家等领域人才的支持与合作。目前由于数据分析专家、数据工程师、数据科学家等数据专业人才的稀缺,导致了教育大数据的潜在价值不能被充分挖掘提炼出来,造成了大数据在教育领域诸多方面的应用困难。教育大数据的分析与挖掘起步较晚,中国的教育大数据应用更是刚刚兴起,人才资源的缺失将成为一个限制其发展与前进的重要因素。伦理道德与隐私安全的挑战

 伦理道德与隐私安全问题也是教育大数据应用过程面临的一个严峻挑战。保证个人隐私安全是实现教育大数据分析与挖掘的重要前提,教育机构在利用学生的学习记录数据和信息时必须要注意规避隐私伦理风险和相关法律政策,一旦在学生的个人隐私安全方面出现问题,教育大数据的分析与挖掘就会面临巨大的伦理道德和法律法规压力。利用教育数据挖掘和学习分析技术进行教育大数据价值的提炼,将会更大程度地增加学生个体的透明性,加大个人隐私泄露的风险,造成一系列的伦理道德问题。尽管目前就伦理道德与隐私安全问题做出了防范措施和法律法规方面的建设努力,但是在应用教育大数据时必须还要充分考虑数据挖掘过程涉及到的隐私安全问题,以及由数据转移与访问造成学生行为公开化而带来的伦理道德问题,以避免由此而造成更深层次的社会性问题。

 利用数据挖掘技术实现教育大数据资源向教育大数据价值的转换能够充分发挥大数据在教育领域的作用,有利于促进教学方式的变革、教学效果的优化、教学质量的提升。通过介绍4种常用的教育数据挖掘技术,分析教育大数据在学业预警干预、个性化教育和自适应学习等方面的典型应用案例,证明了大数据在教育应用诸多方面的理论与实践意义,有助于加快教育大数据的挖掘进程,推进数据变革教育的快速发展。然而,教育大数据应用过程存在的技术限制、人才缺失、隐私安全与伦理道德等问题在一定程度上阻碍了教育大数据价值的挖掘,限制了大数据在教育领域的健康发展。因此,为了更好地发挥教育大数据的潜在价值,数据挖掘技术的改进、数据专业人才的培养以及伦理道德与隐私安全的维护与防范等需要加快步伐,与教育大数据的应用同步,以优化教学效果,提升教学效率。