您现在的位置是:首页 > 头条新闻 >
有效挖掘大数据将为产业发展带来机会
2013-05-28 11:36:33作者:怀进鹏来源:
摘要虽然有摩尔定律、存储墙等一系列当前无法跨越的障碍,但是在过去的20年中,正是由于IT的快速发展给我们带来很多机会。...
IT从过去到现在,一直以多快好省作为发展理念,微电子和通讯技术的繁荣和发展带来了很多的机会。虽然有摩尔定律、存储墙等一系列当前无法跨越的障碍,但是在过去的20年中,正是由于IT的快速发展给我们带来很多机会:计算和存储容量的加快,使得网络带宽成为廉价资源;终端也不再需要复杂的系统、复杂的资源和软件。所有的这些都是因为IT本身的技术变革和大规模的应用,导致了所谓的互联网和互联网未来的发展。
为什么会有大数据
究竟什么是大数据,目前还没有统一的说法。维基百科的定义是超大复杂的数据集,现有的数据处理技术无法解决;而IDC说,大数据技术要用最经济的方法提取数据中的价值;还有一种流行观点,认为大数据是一种具有数据量大、传播速度快、数据多样性特征的数据集合……但不管怎样,通过数据反映出的政府监督、舆情监督都在这里涵盖。
2009年,Google一些研究人员通过用户搜索和网页数据提前两到三周预测出H1N1流感的传播,这个消息引起疾病学家的特别注意,也引起了计算机技术人员的广泛关注,通过用户习惯、有什么样的症状、买什么药等这些经网络通讯来搜索和发布的信息,建立了大概四亿多个模型,选择了几十个亿的数据计算,最后不仅预测出H1N1爆发的可能性,同时预测出哪个人种、哪类群体可能感染。
再比如,一个西方人为了参加婚礼三个月前就订了票,他上飞机之后发现周围的人机票比他便宜,他很后悔,不久之后,他做了一家公司,专门分析航线的情况,以便给用户推荐什么时候买票最好。
举个国内的例子,当前我们用户微博的数量非常大,有人说有了互联网的公司能使我们掌握用户的浏览习惯、购物习惯以及思维习惯。这些问题可以通过背后数据有效的挖掘和思考,给经济社会甚至产业带来很多的机会。
类似的案例太多太多,我们也从中得到了重要的启示,通过大数据的分析得出有价值的信息,预测的结果往往更有效。
大数据有没有价值?从一个方面来看确实带来了价值。在Gartner去年做的价值分析中指出,四年之后全球大数据相关产业规模会变得非常大,而且会引起新的认识和变革。如今,教育、交通、医疗和能源行业已经在做大数据投资,而即将要加入其中的还有零售业、通信、媒体等行业,可见,未来大数据的发展在产业和经济当中具有相当乐观的前景。
在学术与技术中的较量
近几年来,大数据作为一种自然现象引发各方广泛讨论,尤其在很多重要的国际信息技术会议和期刊当中也开始关注大数据。那么,大数据背后的科学问题、技术问题有哪些呢?特别是因为数据的多样性使得其复杂度升高,不光有文本还有视频,不仅有在线还有流数据、离线数据和批处理数据,所以我们应该如何获取、建模、存储、查询、共享、分析和可视化这种多样化的数据呢?
举一个简单的例子:2007年,Facebook用传统数据库存15TB数据仓库,到2010年每天就有70TB的压缩数据放在数据仓库里,以往并行商业数据库当中超过100个节点非常少。同时,传统的数据库处理的模型完全不适用,主要原因是成本太高,从这样的角度来看经济性也反应出来。另外,传统数据处理模型是在节点上,没有可扩展性,基于某个单机或节点系统CPU处理器和网络的革新,没有办法在低成本上实现扩展。
由于数据规模急剧增大,假如数据是X,怎么用F(X)找到最有效的,实际上是不可能的。如果找到近似的,把极大规模的数据变成小数据,把相应的计算方法复杂性降低到不是太复杂的内容,这对挖掘大数据的价值和有效的服务提供了一条新途径。
同样在2007年,Google研究了机器翻译领域中基于单词训练数据集的语言模型。随着数据的急剧增加,特别是达到十的六次方的时候,简单的算法反而成为最好的算法。从这里看到一个问题,我们原来处理问题的思路和方法似乎在这里要发生一个大的变化。
深入挖掘大数据
传统的操作系统和数据库是科学计算、商业计算的方式,未来这样的大数据将会有新的变革,而这样的变革应该是颠覆性的。特别在新型算法设计上,追求算法精度和好坏上会有本质的变化,这个变化会随时间来解决我们对问题分析的关联性,使我们不再追求对特定问题的采样。
另外,针对数据层面上的多元异构量化表示,会给我们带来新的机会。比如在众多的数据下我们如何对数据度量的复杂性进行分析,以及抽样统计特征和模型等,都需要在这个新领域中找到新方法。再有,我们过去对数据平台的处理是基于并行结构,如今遇到的问题是流式和增量的计算,以满足数据不能成块的批处理情况,那么我们怎么进行归纳的融合而不是简单的堆加也是值得思考的。
最后,就是关于大数据的分析方面,在传统的数据分析中,如何去学习、建立新的业态,这里存在很多新的问题,包括现在在大量的数据下怎样找的快,找的有效,是非常值得我们深入探究的。
在这样的背景下,我国和英国、美国的学校在去年酝酿了一年多组织了一个大数据的科学研究中心,试图解决上述提到的问题。而且,我们还成立了云产业联盟,这是企业自发建立起的组织,完全是民间的。而这个联盟成立后的第一件事就是做了中国云移动互联网创新大奖赛,大赛的宗旨也体现在创新思想和新的方法上。真实的数据来自百度、北京智能交通实施数据、国家科技大平台上的数据。持续的半年来开始竞赛,同时,我们还做了很多论坛,期望得到中小企业的从业者和IT领域的青年人才、大学生们的支持。
很多人没有机会接触大数据,而大数据也存在了很长的时间,但是非常奇怪的是,我们几乎无法驾驭和处理大数据。原因是我们没有与之对应的大的数据包来研究算法有效性,并判断挖掘出的东西是否有利。
今年1月,中国联盟战略委员会和云产业联盟白皮书正式发布,与之配合的相关活动也在紧密的部署中,我们希望通过各式各样的举措来支持新的人才、发现新的思想,同时也支持他们创业的方式。
数据是资源,数据也是产业,数据更是科学。但是,在我国的现有发展环境中,我们已经有了一大批数据资源,也有了围绕数据资源所形成的巨大的产业和能力,而眼下所缺的正是需要形成一个生态链,同时需要在大量优秀的头脑和支撑下,创造出一个真实的数据平台。因为,无论是中国还是世界,我们都需要一个新的系统来处理日益增长的数据,尤其是那些非精确数据。
【财富箴言】
如果新产品只是对现有产品的简单升级拓展,那么,为其做提前宣传的效果将弱于革命性新产品。——舒亚?埃里亚斯贝格
(本文不涉密)
责任编辑:
上一篇:国家从概念到推进智慧城市建设
下一篇:试点为智慧城市发展提供新动力