理性认识数据
在人们的日常生活中,存在着很多资料形式,如文件、记录、报告、表格、图片、歌曲等,资料是对社会经济生活片断的记录。如果资料存放在计算机上以编码形式存在,那就是数据。数据是以编码形式存在的信息载体,是资料的数字化形式,大数据是大而复杂的数据集,具有海量性、时变性、异构性、分布性等特征。
反映真实世界的数据(碎片)量己达到可以从一定程度上反映其真实面貌的程度,随着信息获取的发展,数据在积累过程中从量变发展到质变。量变是指数据量增加,质变是指量增加到了一定时刻使得人们通过数据的片断就能大体判断它背后的故事。
信息技术的革命性发展,使得人类社会已进入大数据时代。大数据泛指一个时代、一项技术、一种文化、一个挑战,通常用四句话概括:拥有大数据是时代特征、解读大数据是时代任务、应用大数据是时代机遇;能够对复杂海量数据进行实时获取、传输、存储、加工和利用的高新技术;任何人都要以数据说话;现有的数据采集、传输、存储、处理与分析技术己无法适用于现有的需要。
大数据的价值有四个方面值得大家关注。
第一,提供社会科学的方法论:实现基于数据的决策,支持管理科学与实践的革命;
第二,提供科学研究的新范式:支持基于数据的科学发现;
第三,形成高新科技的新领域:推动行业深化发展并形成大数据产业;
第四,形成社会进步的新引擎:深刻改变人们的思维、生产、生活方式,推动社会进步。
发展大数据具有迫切性与极端重要性。大数据技术是解决众多国家重大需求问题的共性基础,必将成为重构社会和经济的基本生产资料和生产力(底层架构和标配),它是国家创新驱动发展的核心驱动力。
大数据技术是解决众多国家重大需求问题的共性基础,必将成为重构社会和经济的基本生产资料和生产力(底层架构和标配),它是国家创新驱动发展的核心驱动力。
准确把握机遇
联合国2012年行动计划报告中指出,大数据是一个历史性的机遇,人们如今可以使用极为丰富的数据资源来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。
一是管理创新机遇。管理问题难以有普适方法论,决策问题难以精确建模分析,大数据认识论与方法论为管理与决策科学研究与实践提供了历史性机遇。管理包括市场分析与精准营销、舆情分析(社会、商业等)、政策分析与评估、金融风险分析和监控、工业系统智能控制、公共安全监控与治理、产业与经济形势评估等方面,这些都需要用到大数据。
二是产业发展机遇。人们都希望能够弯道超车,实现中华民族崛起,但是中国的优势到底在哪里?中国的优势就是市场大、人口多,铸就了大数据资源优势,带来弯道超车的可能性;为产业的不断升级、形成新价值、新产业提供无限可能性。
三是科学研究机遇。数据收集、处理与分析能力的提升,将显著提升人们对客观世界的洞察的深度和可程序化探究问题的广度。帮助人们发现新知识,创造新价值,形成新理念。
四是学科发展机遇。大数据摧生了数据科学,数据科学与人文社会科学、管理科学等学科的深度交叉与融合,将彻底打破和革新学科领域;“解读大数据是时代任务”的要求将深刻改变和影响所有学科,这一改变将对大学的学科设置和人才培养产生重大影响,为大学培养适应国家创新发展所需要的人才提供机遇。
科学应对挑战
在传统统计方法中,以样本趋于无穷的极限分布为基础进行推断,而大数据分析方法需要自然数据,依靠数据量和超强的计算能力直接进行分析。
在此过程中,出现很多认知论证的困惑:样本等于母体?相关性能替代因果性?查询能替代推断?大数据可代替理论?同时,数据特征也发生改变,从中小规模、固定尺寸、非时变、单一结构、集中存储,转变为超大规模、分布存储或数据源、流数据、超高维、异构等。如何科学应对挑战?
一是重建分析基础,包括重建统计学基础和计算理论。在大数据分析与处理的统计学与计算基础方面取得突破性进展,建立起若干新的理论,推动形成数据科学的基础理论体系。
二是创新计算技术,包括创新计算模式和计算方法。在环境上,从单一结构(CPU,MIC)向混合结构(CPU+GPU+MIC共存协作计算)转变;大数据到来之后,既要计算密集型,也要数据密集型,从传统并行转为分布式并行。提出适应异构计算环境下多粒度分布并行计算模式的系列高效算法(大数据算法),形成大数据处理与分析的领先核心技术。
三是建立真伪性判定准则,其目标是在国家重大需求的若干典型领域,形成大数据分析与处理的行业核心技术,促进相应领域新模式的形成,推动各行各业利用大数据的能力与水平。
目前,我们在实施系列重大研究计划,聚焦大数据分析与处理的核心基础与共性关键技术研究,力求在分析基础、处理算法、真伪性判定、结合典型领域的示范应用等方面取得突破,为各行各业大数据应用提供科学支撑和共性技术支撑。
另外还有三个“不等于”也是需要人们关注的:
第一,基础设施不等于大数据,尤其是云计算不等于大数据;
第二,信息化也不等于大数据,信息化是长远的过程,它有不同的阶段、不同的升级,是永恒的一件事情。大数据是从侧面反映,是收集信息,更多讲的是标准化、科学化、便捷化等;
第三,数据处理不等于数据分析。要明确目标是前提,拥有数据是基础,计算平台是支撑,分析技术是核心,产生效益是根本。
总之,大数据技术是一个正在发展中的技术,在我们国家尤其应该解决的是公共政策问题,比如数据共享、数据质量、数据开放等问题,只有解决了这些问题才能让大家共同使用。此外,大数据技术本身尚未成熟,科学基础也还在建立之中,因此,当前首要任务是齐心协力按照自己的特长为社会做出贡献,让大数据为人们带来大的价值。