专家风采

首 页 > 学术交流网 > 专家风采 > 正文

【BDTC 2015】教育大数据分论坛:大数据解码教育

信息来源: 云计算 发布: 2017-04-27 浏览:

2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,以“数据安全、深度分析、行业应用”为主题的 2015中国大数据技术大会(Big Data Technology Conference 2015,BDTC 2015)在北京新云南皇冠假日酒店盛大开幕。

2015中国大数据技术大会第三天上午9:00,教育大数据分论坛正式开始。跟谁学大数据部副总裁罗斌用大数据解码教育O2O,详解互联网时代,学生老师边界重构、空间距离限制被打破;英语流利说联合创始人、首席科学家林晖基于流利说的语音大数据处理与挖掘架构,剖析了帮助用户更高效地学习语言所采用的具体方法与实践;北京光量子教育科技有限责任公司CTO丁文鹏对于利用Simhash进行题目去重和搜索优化分享了自己的经验;拓维信息架构师许崇博介绍了图像文字识别问题的内在关系和核心解决办法。

跟谁学大数据部副总裁罗斌:大数据解码教育O2O

跟谁学大数据部副总裁罗斌分享了《大数据解码教育O2O》。“跟谁学”团队创业至今有一年半时间。他分享了大数据在营销层面的价值,如何通过合理的数据分析精准地找到并吸引潜在用户。罗斌他们分析了多个渠道的用户转化率。他们发现用户获取信息的渠道碎片化,很多用户在选择课程、老师的时候,用户更加信任熟人关系的推荐。


互联网平台教师呈现高学历化和年轻化趋势,平台上生效老师中有42%是个体教师而非来自机构。在平台上,有26.2%的教师还会购买其他教师的课程,老师与学生的边界在互联网时代会有更大的改变。最后,他分享了教师平台上的好评GMV(交易额)最大化搜索模型,以及向教师披露平台机制和数据信息的价值。

英语流利说联合创始人、首席科学家林晖:语音大数据挖掘及其在语言学习中的应用

英语流利说联合创始人、首席科学家林晖详解了语音大数据及其在语言学习中的应用。大数据分Volume、Variety、Velocity、Veracity四个方面,英语流利说以自适应学习,积累了250万小时的语音数据,这也就意味着单机语音识别需要60年(假设0.2的实时率),需要有2万+CPU的集群才能在短时间内完成处理。流利说语音数据处理架构包含了由Spark支撑的实时算法服务、基于深度学习模型的语音分析服务,以及Redis、Kafka等。


林晖主要介绍了在用户口语水平量化方面的应用,以学习过程中的行为产生的结果都作为最后水平评价的指标,让用户在游戏中学习、学习中测试,采用协同过滤算法进行分数预测,函数的构成包括学生 u 在题目 i 上的得分、学生 u 的隐含因子(在细分知识点上的水平)以及题目 i 的隐含因子(难度等)。

北京光量子教育科技有限责任公司CTO丁文鹏:基于Simhash的题目去重与搜索

光量子教育科技CTO丁文鹏分享了《基于Simhash的题目去重与搜索》。目前有一些通用的检测算法,比如汉明距离、更偏向数学描述的Jaccard index、编辑距离、向量空间的余弦相似性。但是使用通用检测算法来比较两个题目的相似性的效率比较低,所以我们需要使用Locality-sensitive Hashing,比如MiniHash和SimHash。


丁文鹏举例分析了如何利用SimHash进行题目去重。在实际使用中,他们直接使用near-duplicate特性进行聚类,新题目可通过索引定位到对应的cluster,只有与cluster已有题目相似才会录入,防止拉链。在搜索中,会使用k=3来进一步去重,保证搜索结果最优。

拓维信息架构师许崇博:拍照搜题的图像识别技术

在拍照搜题应用中,图像文字识别环节是重点也是难点。整个识别问题可以分解为:字块提取、字块识别、行结构分析、公式结构分析等关键子问题。现场,拓维信息架构师许崇博详细剖析了这些问题的内在关系以及核心解决方法。以字块提取及识别为例,前者逻辑思路从背景灰度均衡、局部二值化、连通量提取到组合成字块,后者利用了CNN,以将字体打印到图像上,加随机背景色、噪声、高斯模糊、扭曲变换生成样本,并训练样本。行结构的构建过程,则是先按x坐标进行排序,再按顺序创建行或加入已有行。


许崇博最后介绍了训练模型需要解决的一些长尾问题,包括:

 

  • 由手机摄像头质量、抖动、压缩等因素引起的图片质量不佳;

  • 类似减号、下划线、破折号和分数线等相似符合的识别;

  • 字母粘连;

  • 相似数字和符号的误判,比如“1”和“\”,“1)”和“D”。