您现在的位置是：首页 > IT基础架构 > 软件与服务 >

向巨头学习：如何应对海量数据的挑战？

2011-05-25 00:55:00作者：来源：

摘要在20日下午的 “云计算中心技术架构”主题论坛上，来自百度首席科学家威廉·张、RackSpace CTO John Engates、Yahoo!北京全球研发中心架构师韩轶平、SAP中国区企业信息管理资深顾问杜韬就“应对海量数据库的”这一话题进行了深入的探讨。 ...

在20日下午的 “云计算中心技术架构”主题论坛上，来自百度首席科学家威廉·张、RackSpace CTO John Engates、Yahoo!北京全球研发中心架构师韩轶平、SAP中国区企业信息管理资深顾问杜韬就“应对海量数据库的”这一话题进行了深入的探讨。

　　随着物联网、社交网络等新的互联网技术的发展，在为人们带来便利的同时，也产生了大量的、结构化的非格式化的数据。如何通过数据挖掘，从海量数据中获得有用的信息，为用户提供好的用户体验，增强企业的竞争力，这对企业来说是一个挑战。

　　各巨头的数据量级大曝光

　　百度威廉.张表示，“数百PB，每一天需要处理的数据是数十个TB，许多数据要在几秒钟之内处理，很多数据在几分钟之内要处理，更多的是几个小时之内处理就够了，几个小时处理数十个PB的数据，也是很困难的。所有的策略都是针对实时性和数据处理的时效性理来做的。互联网用户的需求是更加实时，如微博、团购、秒杀等，所以说实时处理十分重要。”

　　Yahoo!周轶平谈道，“雅虎的云计算平台综述超过三万台机器，最大的超过4000太左右，总存储容量超过了100PB。”他表示，雅虎最近放了很多精力在保护用户的隐私和数据安全性上，欧盟规定雅虎不能够存储用户的数据超过一百天，虽然不能保存，但是雅虎做很深入的数据挖掘，从数据瓦局得到一些真正有价值的信息，并把这些信息保存下来。”

　　SAP杜涛也介绍了其需要帮助客户处理的数据量的级别，“SAP作为企业级应用的提供商，更关注客户的数据量是多少，这些客户包括中小型企业到大型的客户，其中有数据密集型的企业，如电信、金融、政府、零售等等，客户的数量级包括从几个TB到数百个TB。”同时，SAP自己有一个很大的数据中心，主要是为SAP的客户提供服务，有三万台服务器，数据量大概是15TB并且有越来越多的客户的数据会在SAP的数据中心。

　　如何存储并利用这些海量的数据?

　　如此海量的数据，如何进行存储、分析、处理?并基于海量数据的挖掘，为企业创造更大的商业价值?针对海量数据的挖掘的技术架构，几位专家分别介绍了自己的法宝。

　　SAP杜涛从两个方面介绍SAP的海量数据处理方法，“一方面，在SAP的数据中心，采用了标准的云计算所用的虚拟化和分布式存储;另一方面，针对单独的企业，SAP在4月16号在德国发生了内存计算技术。海量数据的读取和分析，在传统的架构下，基于磁盘的IO是以毫秒级来计算的，而在内存RAM中处理时间是nm级的。所以SAP把客户的数据经过压缩的处理放到内存中去，进行读取和分析，把之前在应用层的分析放到内存里面去做，提升性能，帮助用户充分利用他们的数据。”

　　Yahoo!的云计算的体系是以Hadoop为中心的，周轶平介绍到，并从数据采集(HDFS)、数据存储和处理、数据服务三个层面入手，介绍了雅虎的海量数据处理的方案。数据采集方面，yahoo建立了Data Have负责从雅虎遍布全球数据中心中的几十万台机器上实时收集数据，它有2个干道，主干道负责把数据以很高的一致性经过各种过滤清理以后，放到Hadoop的平台上。但是这样的处理方法实时性不是很高，为了满足实时性的需求，还有一个旁道系统，能够在秒级直接将数据源导入到Hadoop上。雅虎的数据处理都是基于Hadoop的实时的服务，同时Yahoop还有一套很大的不同业务逻辑所需求的服务系统，超过一半的数据处理都是使用Hadoop Pig数据引擎。

　　百度威廉.张表示，面对互联网的云计算，大搜索是基于索引的，如何对数据进行实时地快速的更新，就需要进行一些优化。比如说根据数据更新的频率，建立在更新系统快或是更新系统慢的系统之上，根据地域的登录跟重要性的登录把它放到南方或者是北方的机房里，也就是说，主要是根据数据的应用来策略。机器学习的算法，内存里面的数据进行高复杂度的计算，可能要花费很长的时间，这在百度的环境中是不行的，无论是判断用户的需求、从用户行为中得知需要推荐什么内容和什么广告，这些都需要非常高的时效性和极规模的机器学习。

(本文不涉密)
责任编辑：

上一篇：云计算VS晕计算如何消除落地隐患(图)

下一篇：我国云计算标准框架确定计划2012年推出