研究动态

首 页 > 学术交流网 > 研究动态 > 正文

高校教育创新如何应用大数据

发布: 2017-03-24 浏览:

       高校的大数据创新(应用)大多是一种倒逼式的创新,即大数据技术成熟促使互联网教育企业采取创新模式来改变学习方式(大多以营利为目的),这种方式在社会上引起关注,最终被高校关注,并应用到高校教育创新中。

  无论是在科技文献、论文还是技术演讲、讨论中,提到大数据,通常会听到两种解释,一是数据本身,即海量、高增长率、多样化和真实的数据,本身无法使用传统工具或流程处理或分析,是一种有价值的数据资产;二是大数据分析及应用技术,指通过数据挖掘、云计算、分布式存储等技术对具有价值的海量真实数据进行处理,从中获得数据中隐含的联系、规律、价值。这里有必要阐明,以区分数据和数据处理技术。本文中提到的大数据,多指大数据分析及应用技术。

  大数据分析在一些领域取得了不错成绩而且技术也比较成熟,如互联网、销售、人口迁移等,2014、2015年央视和百度联合推出的“百度迁徙”,更是将大数据推向了风口浪尖。大数据分析在教育领域的应用可以说是凤毛麟角,相对较少,大多是在互联网教育领域,在高校中的应用鲜有出色且技术储备也不充足。而部分发达国家已经将大数据提升到国家战略层面,并投入巨资对大数据相关核心技术进行研究,尤其是在教育层面,2012年美国教育部发表《通过教育数据挖掘和学习分析促进教与学》报告及2014年美国政府发布的《大数据》白皮书,指出大数据将变革生活中的每一个领域,教育领域已经进入了一个“数据驱动学校,分析变革教育”的大数据时代,大数据必将改变传统教育的面貌。

  教育大数据分析架构

  数据来源

  大数据的来源种类繁多,格式不一,常见的来源包括物联网应用中的传感数据;用户上网浏览网页产生的浏览记录;玩游戏、聊天产生等社交网络应用产生的交互数据;消费者网络或者实体的消费记录等等。教育大数据有自己独特的特点,如数据产生范围比较集中;数据量达到一定规模,但不是特别大;数据格式不一,多为半结构化数据等。类型大致可分为以下几类:一是教育教学中课程资料及对应的各种文本、音频、视频资料;二是老师、学生在线学习中产生的交互记录、浏览资料产生的行为记录;三是高校等教育机构的师资、学生资料;四是师生上网行为资料及网络社交行为资料;五是消费资料尤其是校园一卡通的消费记录;六是学校的固定资产资料;七是图书馆的书籍资料及用户的借阅资料等等。其中,最主要的来源是师生在学习、生活和工作过程中留下的大量数字化足迹碎片,如在线学习和网络社交行为、一卡通的使用等。

  这些资料有的增长、变动快慢不一。有的变动较慢如师资、学生资料,固定资产资料等;有些资料变动较快,如各种课程资料,图书馆的书籍资料等,这些都成为教育大数据分析中的辅助资料;有些资料则呈指数级增长,如各种文本、音视频资料,师生的交互资料、社交资料、消费资料、图书借阅资料等等,这些则是数据分析中最有价值的信息,也是分析的重点。

  大数据分析相关技术概述

  1.数据采集及处理

个步骤。常用的ETL工具包括Informatica、Datastage、OWB、微软DTS及开源的eclipse插件cloveretl。ETL工具负责将网页上的,分布式或者关系数据库中结构化、半结构或者非结构化的数据抽取到临时中间层后进行一系列处理,包括清洗、转换、集成,最后加载到核心数据库中,成为后续分析处理、数据挖掘的基础。

  常用的网络爬虫工具种类繁多,既包括通用型的爬虫VietSpider、Heritrix、Nutch、MetaSeeker、Nagios等,也包括专题型的爬虫BaiduSpider、Yahoo Slurp、Googlebot等。这些工具大多是开源的,采用Java语言编写,具有很高的扩展性和适用性,方便根据不同的网页类型采取不同的抽取规则,采集的数据更加规范。

  常用的数据处理工具包括一些常见的Java中间件,如SSH工具,即Spring+Struts+Hibernate。还包括一些成熟的框架结构如Hadoop、Tableau等,在此基础上基于Map-Reduce机制做数据清洗和分析。通过这些工具可以将不同数据库中不同格式的数据进行整理、分析、提取,最终形成格式统一的有价值的初步数据。

  2.数据存储

  数据存储技术的发展,经历了关系数据库,NoSQL数据库,分布式存储、云存储等技术。不同的数据类型、数据量对数据存储技术的要求也不同。大数据分析技术要求对各类数据进行整理、交叉分析、比对,对数据进行深度挖掘,实现对非结构化数据的特征提取,以及半结构化数据的内容检索、理解等。

  常见的大数据存储技术包括基于Hadoop环境下的各种NoSQL技术,分布式云存储技术等。

  3.数据分析

  数据分析技术主要是基于各种算法对存储于分布式数据库或者分布式计算集群中的海量数据进行计算、分析和分类汇总,以满足大多数常见的分析需求或者实现一些高级别数据分析的需求。

  常用数据分析工具包括EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

  4.数据可视化

  数据可视化是对数据分析结果的最终呈现方式,信息只有展示出来,呈现给最终用户才能显示其价值。而且这种可视化、直观展示给用户的是一种“信息地图”,使用户能够更好地理解数据分析结果,使结果得到更好利用。

  常用的数据可视化工具繁多,既包括常用的入门级工具如Excel、XCEl、JSON,也包括一些在线的数据可视化工具如Google Chart API、Flot、D3,还包括GU(I互动图形用户界面)控制工具如Crossfilter、Tangle,其他的还包括地图工具、一些高级进阶工具如OpenLayers、Processing等。

  


应用场景分析

  场景分析

  大数据的应用场景多发生在互联网、销售等领域,如沃尔玛超市利用销售大数据调整商品摆放排列提高销售额度。2014、2015年春节期间,中央电视台和百度联合推出的“百度迁徙”,利用基于地理位置服务的大数据进行计算分析,在PC和移动客户端提供可视化的呈现方式,实现了全程、动态、即时、直观地展现中国春节前后人口大迁徙的轨迹与特征。这是大数据首次在国家层面直观应用,更是将大数据推向了全国数亿用户,是大数据的一次成功应用案例。

  大数据应用场景颇多,但教育领域相对较少,却颇有创新,大多发生在互联网教育领域,高校、教育事业单位应用不多。而且高校的这种创新(应用)大多是一种倒逼式的创新,即大数据技术成熟促使互联网教育企业采取创新模式来改变学习方式(大多以营利为目的),这种方式在社会上引起关注,最终被高校关注(实际是被高校中活跃人士关注,这部分人往往占少数,但却是高校领域引领教育创新最活跃的一群人),并应用到高校教育创新中。MOOC模式在国内的大热就是技术倒逼教育创新的最典型案例。

  教育企业应用

  教育企业中大数据应用大多应用在课程定制、课程设计、学员在线学习行为分析以及由此产生的课程推荐、后续营销等。数据来源既包括网络中的文本、音视频资源,也包括学员学习过程中浏览记录,课上课下的交互记录等。通过网络采集、数据存数、分布式计算等技术,对这些数据进行分析,发掘其中关联项,以用作课程改进或者后续课程开发。

  教育企业大数据应用的另一个方向就是数据本身的买卖(需要在保证用户隐私的前提下,但往往无法保证)。企业通过一些技术手段或者通过较低的成本从数据产生企业(这些企业往往缺乏数据分析能力)购得海量数据,通过运用自身技术优势对这些数据进行整理,发掘其中的规律,如用户的行为习惯,常用的学习模板,有效的交互方式等,然后再把这些有价值的信息卖给其他用户甚至是原本数据生产企业。大数据分析技术催生教育资源信息买卖。

  高校应用

  高校大数据应用多是围绕教学、学生开展的,但也有部分应用涉及教育政策制定、行政领域改革。常见的创新应用包括教学类,如个性化课程分析、个性化教育、学科规划、学术研究趋势分析等;助学类,如学习行为分析、学习策略探讨、辍学行为预测、助学需求预测、就业分析、心理咨询等;辅助类,如智慧图书馆、智慧后勤、数字保卫、信息公开、校友联络等。

  教学类应用主要通过对历年来某一门课或某几门课甚至某一学科课程教学过程中选课人数、教学方式、完成作业情况、课下交流、考试成绩、未来就业情况、工作应用情况等数据资料进行搜集整理,分析其中课程受欢迎程度、学习成绩差异原因,工作待遇差别等,找出影响这些差异的原因,同时分析学科间、课程间关联,以便在未来个性化课程开发、学科规划等方面有所创新。

  助学类应用更加广泛,是目前高校教育创新核心,主要是通过对历届学生日常生活、学习、工作中产生的海量数据进行汇总分析,这些数据可以是课程选择、学习成绩、参加的竞赛及获奖情况、社团活动、实习情况等学习信息,性格特点、消费状况、在线社交,课外活动,论坛发帖、婚恋状况等生活信息,以及就业单位、就业岗位、工作福利待遇、晋升状况等工作信息。通过综合分析这些信息,可以找出历届学生辍学、就业等行为共同特点,再通过比较在校学生的相关属性,分析发现是否存在面临辍学、需要补助或者心理辅导学生,及时对学生和班主任老师给出预警,以便其在后续的学习和生活中加以关注。同时也可以计算出学生之间(往届和应届)在就业方面相似度,为即将毕业的学生推荐适合的就业单位和岗位,提供个性化的服务。

  辅助类应用相对较少,主要是针对改善高校行政管理,方便师生学习、生活和工作等。如通过分析图书馆图书借阅数据,可以为后期图书购买,书籍分类,优化摆放等提供依据;通过分析高校食堂、超市等一卡通消费信息,可以帮助高校在更新菜肴、商品,每日饭菜制作量,商品购买量等方面更加合理。

  实际案例

  建立学生多元评价体系,打造学生第二张成绩单

  目前,高校学生评价体系,多以成绩为主,例如奖学金评定、优干评定等,而我们收集的成绩信息,并不总是正确的信息,即便正确,信息的数量也远远不足,缺乏一套有效的多元化评价体系。学生在大学中的成长经历,往往缺乏有效记录,造成信息缺失。大数据技术的发展,为全面评价学生的成长提供了技术翅膀。利用大数据技术,南方某高校开发了一套记录大学生在校期间所有活动的第二课堂评价平台。其中既包括学生参加的通识类、思想教育类课程记录,也包括学生参加的社会实践、志愿服务,校内外实习等社会活动类记录,还包括学生参加的各种比赛及其获得的奖项,发表的论文、专利等成绩类记录。通过不断累积学生在校期间的成长轨迹记录,利用大数据技术分析这些鲜活、真实数据中包含的有价值信息,一方面为学生以后工作提供第二张多元化的成绩单,另一方面为学校人才培养模式改革提供重要的参考依据。

  拥抱大数据时代,一卡通掌握师生生活

  在高校校园里,几乎所有学校都采用一卡通方式来维持学校的日常运行,每天这些卡片都产生大量数据,然而这些校园卡所积累的数据却很少得到利用,上海某高校在这方面进行了尝试。小小一卡通虽然体积很小,但是它包含的信息确实不少,几乎涉及学校的方方面面。师生的图书借阅信息,食堂、超市、浴室、水果店的消费记录,医院的看病记录,楼宇的出入记录等等。数据时时不停地产生,每天都会生成大量的记录,每个人都会对应产生自己的数据资料库。通过对这些资料库分析,既可以分析出某人在消费等方面的变化,从而针对性地对其做出预警提示;也可以把这些资料库综合起来,分析出某一方面将来变化趋势。如通过对数据分析,该校成功建立起对高校在校生的全面助学预警模型,当某个学生在一段时间内消费记录或者看病记录有异常波动,就可以启动预警机制,判断其是否需要帮助,彰显校方对学生的关爱。

  整合校内外信息资源,提升学生竞争力

  通过对学生在校积累的大量数据进行个性化分析,有助于学生了解自身学习状况进行完善,学校也可由此随时了解学生学习状况,并结合校内外资源为学生提供个性化指导,提升学生职场竞争力。台湾某高校利用大数据技术全方位整合学工、教务、科研、后勤等多方面校务信息,通过对海量数据分析,有针对性开发学工、教务等智能化运行的各项应用系统。同时深化与企业合作,开发学生学业发展指导、学习成效长期追踪分析等应用系统,协助建立校内大数据相关课程、人才培训和实习机制,使学生自入学就开始不断提升其未来职场所需的关键竞争力,进一步促进高等教育学用合一,缩小学校教育与企业需求之间的差距。大数据的高校创新应用案例还有很多,如智能实验室管理,智慧图书馆,招生与就业情况预测,教育质量以及舆情的分析等。

  大数据分析技术在电子商务、物流、医疗、能源、通信等领域取得了巨大成功,在教育领域也取得了一些成绩。但是,在高校教育创新应用中,还存在一些困难和挑战,如技术挑战、组织体制挑战、隐私和伦理道德限制等。目前的创新应用还多限制在具体应用层面,真正涉及教学改革、教学政策制定等宏观层面的应用较少。这些都是在后续的教育创新应用中需要注意的问题。