研究动态

首 页 > 学术交流网 > 研究动态 > 正文

星环信息科技杨洪山:高校大数据应用发展与实践

发布: 2017-04-28 浏览:

我讲的题目《高校大数据应用发展与实践》。报告分为三个内容:第一,讲一下大数据的来龙去脉,发展历程;第二,星环科技的简单介绍;第三,共同探讨教育大数据怎么做。

 一、技术发展趋势

 什么是大数据?每个人的理解都不同,后来总结了一下,我们认为,首先第一个,它是一个新的技术的综合,不是简单的分布。第二,大数据是一个系统,有很多工具支撑,因为国际上的定义,大数据是指用目前技术无法处理的数据集。第三,大数据一定要有数据,数据是最重要。大家看一下,以Hadoop为代表的大数据的发展与现状,后来开始做搜索,发布版本,作为一个顶级项目,现在整个生态体系建立起来了。


这里再讲一个技术趋势,我们认为,大数据和云计算必将走向融合。大数据的体量很大,维度很多传统的架构难以适应,从而提高了云计算的用户接受度。其次,“大数据+云计算”的基础设施;第三,本身来说大数据是完全分布式阶段,这个将来也是云提供了非常重要的基础服务;另外一个趋势,未来大数据市场很大。 

二、星环科技简介

 星环是在2013年成立,经过三年多时间,现在整个公司300多人,在全国实施了300多个项目,我们可以很自信地说,我们在大数据方面的技术积累,不差于任何一个公司。

 我们公司,是一个具有前瞻性的大数据厂商,公司没有其他背景,我们是从英特尔出来一帮创业者做的,他们是在08年的时候接触了大数据,后来开始创业。一些主要的行业,如电信、智能交通、电力、金融等都是我们客户。我们现在最大的集群在全国960多个节点,超过几十个P的数据量。

 Gartner对我们评价,认为我们在技术上是很领先的,这是他给出的数据仓库关键能力给我们的评价,我们在第七的位置。在整个大数据的生态体系里面的定位,最底层基础设施层,我们有一个产品,往上有一个产品,是数据仓库,我们也不会做其他的一些客服方面的东西。我们也会跟开源的很多工具整合,进行数据挖掘与机器学习,我们把每一个算法,把数据连起来,这是我们的数据库,通过索引的方式才能够提高查询的效率。

 简单地吹一吹星环,第一个,我们对SQL支持是最好的,支持存储过程;第二个,性能真的非常好,用户用了之后就觉得非常好,处理过程当中,数据千万不能丢,一定要保持一致性;第三,我们是唯一支持分布式事务处理;第四,业界唯一支持分布式流式SQL,最后提供了一些工具。 

三、星环科技与金智教育在教育大数据的发展策略

 我们跟金智教育之间怎样合作的?我们两家都有特点,也不是一样的公司,但是可以合作,合作点主要有这么几个方面,一个信息化建设,会采集更多的数据;一个是建大数据中心,然后做分析,还有共同做培养。

 最后,我们和金智教育共同打造一个校园的或者教育的大数据,也是解决到底大数据能干什么。我们规划,基于大数据和我们现在校园业务之间的关系,要以应用为出发点,结合业务。在大数据方面,从技术角度来讲有这么四个层次:大数据决策支持、数据探索与预测,数据统计分析以及一卡通的分析,用户的轨迹、作息规律等,对我们非常有帮助。

在数据探索和预测方面,我们在其他行业也做,如用户画像、数据集成和综合查询。在教育方面,比如说可以面向一些院系,提供每一个学生的数据,或者每一个班的数据,或者对比的数据,为上层提供决策支持。通过这样的数据整合,大数据还可以预测么时候可能会发生故障,发生什么故障,要怎么样预防。还有,过去我们的数据比较偏重于结构化数据,很多过程数据没有保留,我们只有学生成绩、选课,学生充值刷卡结束了,但是还有很多数据,可以融合。那么,我们就可以建一个数据中心,采集更多数据,形成大数据池,借助数据开放平台的能力做更多的应用。所以,未来,主数据和大数据也是开放的。 

最后跟大家分享一下我们设想的大数据应用场景,应用是关键,数据是基础,模型是难点,工作量最大的,是数据清洗准备,考虑大家的创新能力就是应用场景。 

先讲一下数据服务中心,大数据可以提供很丰富的数据查询功能,提供数据服务本身就是很重要的事情,以人为例,在校信息,日常成绩,都可以整合起来,这是科研的一些数据,我们老师、课题经费等等数据,这是对个人的评价,这个老师一些特点,在哪些方面比较强,哪些方面比较弱,哪些方面应该加强自己努力的方向,都可通过数据进行分析。 

另外,数据服务中心还可以做面向学生域、教师域和运营管理域的标签数据库,据此进行各种画像分析,提升数据中心服务的能力。画像之后可以很明显地掌握每个学生真实的情况,这对我们学校管理非常重要。

 数据服务中心还可以对数据预测和分析结果,给到一些指导性建议。同时,统计分析还可在大数据上做报表,比如说做各种各样统计、教职工项目,招生等,这个数据可以很快生成,进而可以横向的和纵向比较,各个学科优势在哪,专利比较多,还是论文比较多,缺的是项目还是什么,都可以做分析。面向人才培养,比如说从学院角度来讲,学院是总体评价,我们可使用分类,聚类、关联规则挖掘等算法对数据综合分析,甚至还可以做一些心理健康预警,比如说他很孤单,所有行为都是他一个人的,没有小伙伴,另外几个都是一起去图书馆学习,一起刷卡,吃饭,这样的话,他有没有群体性行为。还有“标签”,通过数据预测学生可能的成绩,有没有可能挂科等等。 

关于大数据专业的学科建设,第一个,课程方面建设,基于大数据方面的能力,可以跟大家一起开发课程;第二,可以给大家设计很多的实验环境,比如说银行里面风险分析,或者一个传感器分析,我们告诉你一个模拟数据,你怎么处理,实践性还是非常强的;第三个,可以跟学校做一些科研上的支持。

 最后总结一下,我们“技术能力+金智教育领域业务能力”就可以是一个成功的大数据项目。我认为,大数据应该是一个很好的上升的阶段,今天,听了前面这么多老师的报告,我觉得更有信心说教育这一领域,未来会是大数据的爆发点。好,谢谢大家!