您现在的位置是:首页 > IT基础架构 > 计算存储 >
云存储会拖累大数据分析?
摘要云计算存储在大数据分析方面面临的挑战可分为两类:容量和性能。从平台的角度来看,扩大容量是所有云计算供应商需要高度密切关注的事情。...
有鉴于云计算大数据分析对网络、存储以及服务器的严格要求,我们毫不奇怪有些客户会把麻烦的任务、花费较大的任务都外包给云计算。虽然云计算供应商们表示,他们欢迎这个新的业务机遇,支持云计算大数据分析可以迫使他们面对可管理的不同架构困难。
根据几位云计算供应商的说法,云计算的弹性特征使它成为大数据分析的理想选择,大数据分析是指通过快速实施大容量非结构化数据可识别模式和完善业务策略。与此同时,云计算分布的特性也将成为大数据分析的问题。
“如果你正在运行Hadoop集群和诸如此类的工具,他们给存储带来一个真正的高负载,而在大多数云计算中,存储的性能并不足够好,”CloudSigma的共同创始人和CTO说,CloudSigma是一家位于苏黎世的基础设施即服务(IaaS)供应商。“云计算的大问题就是使存储以某个水平运行从而确保这种计算,而这也就是为什么有些人不会对大数据处理使用云计算的最大原因。”
但是Jenkins和其他的云计算供应商们强调,这些挑战并不是不可克服的,很多供应商们已经有计划调整他们的云计算架构以改善他们所有云计算服务的容量、性能以及敏捷度,他们预计还可为云计算中的大数据分析提供更好的支持。
“这与越来越多的公司实施云计算时我们所采取的措施一样:我们如何继续为需求提供支持?”Evolve IP的云计算副总裁Joseph Corvaia说,Evolve IP是一家位于宾州Wayne的云计算供应商。“但是,我不知道我们现在在做的一切与我们之前所做的有什么样的不同。我们只是对观察所消费的东东极具洞察力,根据在一个特定测量时期中我们所得到的测量数据,保持被消费的速度和所需新增的容量的协调比例。”
根据SHI国际(这是一家位于新泽西州Somerset的大型经销商、管理服务供应商(MSP)和云计算供应商)首席技术专家和管理合伙人Henry Fastert的说法,制定一个支持云计算大数据分析的架构并不比满足一般云计算服务快速增长需求的挑战更艰巨。
“作为一个云计算供应商,特别是此时此刻在这个市场,我不知道是否将会有一些大的需求,”Fastert说。“近来,我遇到这样一个情况,有一家小额博彩公司向我咨询,我是否能够在一周的时间内增加两千台八路虚拟机。幸运的是,我们有能力实现这一点。我们需要定期增加容量,但有时候我们需要在很短的时间内增加容量。“
云计算存储会拖累大数据分析
云计算存储在大数据分析方面面临的挑战可分为两类:容量和性能。
从平台的角度来看,扩大容量是所有云计算供应商需要高度密切关注的事情。
“数据保留以每年两倍或三倍的速度增长着,这是因为客户方面的原因。当然,这也会影响我们,因为我们需要提供容量,”Corvaia说。
在一个高度虚拟化、分布式云计算中的存储性能会对它自己非常苛刻,而大数据分析的需求放大了这个问题,几个云计算供应商都做出了这样的表示。
SHI国际的云计算战略是基于该公司的vCore模式而建立的,其资产品牌为“服务器、存储器和路由器的有限集合”,Fastert说。分布式存储架构可使SHI国际能够“真正地优化我们基础设施的性能,因为它是以粒度形式进行设置的,”他说。
“存储也是受到特定类型虚拟化发展影响的,因此你在你的存储设备中传播任务的方式也将总是会影响你的性能,”他所。“vCore模型允许我们基于负载的特性传播这些负载,因此我们就能在我们的vCore基础设施上查看客户负载的特性,然后我们就能够从一个存储性能的角度出发实现跨整个基础设施的负载平衡。”
CloudSigma是参与Helix Nebula联营企业的几家供应商中的一家,而Helix Nebula是一家专为科研机构提供服务的欧洲云计算供应商组合。其客户包括欧洲航天局(ESA),ESA将使用CloudSigma的基础设施来存储从明年即将发射的新卫星上采集来的海量数据,Jenkins说。他们将从地球发射的卫星将采集环境数据,其中包括气温和土壤状态等,传送回ESA云计算的数据流可供实时分析。
诸如ESA这样的大数据客户并没有要求CloudSigma升级其存储设备,但是毫无疑问他们肯定能存储设备升级中受益。该公司升级其架构,以便于在开始其生态系统战略前几个月就能够提升整个存储设备系统的性能,Jenkins说,没有什么比在云计算中使存储设备运行良好更困难的工作了。
“当你拥有了这个多租户的环境并把每个租户的活动都混合在一起时,它往往看上去就变得越来越随机了,“Jenkins说。“磁盘式存储设备并不适合于跳动读取,这是因为这类设备都是旋转运行的,所以它读取数据就变得更具随机性,对于用户来说其性能就下降了许多。这是一个内在的本质问题,所以这就是为什么我们希望迁移系统,让系统变得更具分布性,从而能够更好的处理这一类的负载。
通过使用开源平台和内部开发的组合,CloudSigma建立了一个分层存储架构,它可实现固态硬盘(SSD)和磁盘存储器的更高效使用,Jenkins说。其结果就是,当数据分布在超过50或100台服务器而不是一台服务器上时,整个架构就变得具有较少的变异性和较高的性能,他说。
“我们正在整合在每一台服务器的本地存储设备,使其成为一个大型存储池,”Jenkins说。“除了它不是一个SAN(即存储区域网络)以外,这几乎就是一个SAN。
云计算网络和架构方面的考量
支持客户在云计算中进行大数据分析的挑战并没有随着存储设备问题的解决而结束。云计算供应商们表示,针对网络和整个云计算架构,它需要一个更为全面的方法。
这就意味着承认大数据分析并不适合使用云计算,Savvis公司的云计算解决方案副总裁Jonathan King说。但是,这也是互补性托管服务集合能够大显身手的所在,他说。
“你总是有需要满负荷运行的大块数据引擎,这就意味着它与其他组件不同,是专用基础设施的理想选择,它是负载可变、是适合使用云计算技术的,”King说。“有很多这样的工作是批处理的,你将在不同的时间运行四个或八个小时,因此实现从专用到虚拟的转变是真正有必要的。”
云计算中的大数据分析还为服务供应商们提出了网络方面的问题。通过把所有的合作伙伴和客户聚在一个云计算中以及运行着一个10千兆以太网网络,CloudSigma实施者他的生态系统战略,“这意味着你可以真正真正快速、低价地掌控TB级的海量数据,”Jenkins说。去年由CenturyLink收购的Savvis也正在考虑云计算大数据分析中网络因素的影响。
“你不会希望总是传输TB级和PB级的数据,”King说。“把数据保存在那里,然后你可以进行分析。”
随着SHI国际开发的一个大数据云计算服务即将问世(有可能将于明年正式发布),云计算供应商正在利用其在云计算高性能计算(HPC)方面的经验,通过与HP公司的合作关系向互联网2联盟提供基础设施即服务(IaaS)。除了改善了存储设备的性能以外,SHI国际的vCore架构还同样实现了网络和服务器性能的“自我优化”,Fastert说。
“事实证明,相同的方式完全能够正常运行,我们为HPC设计和优化vCore的方法完全适用于大数据分析应用,”他说。“大多数云计算供应商们基本上都是一个单片架构,他们可以有大量的服务器、关系存储设备等等,但所有这些都是单一架构的。当你使用vCore模式时,它允许你很容易地优化基础设施的分段。这就证明了,相同形式的优化对于大数据分析也具有预期的良好效果。
(本文不涉密)
责任编辑:
上一篇:云存储会拖累大数据分析?