您现在的位置是:首页 > 数字化转型 >
大数据:CIO必须了解的五个方面
摘要大数据分析业务已经全面开花,以谷歌、雅虎及Twitter为代表的网络服务巨头们纷纷投身其中,希望将自己手头的用户数据转化为实实在在的生产力。而普通企业客户则迫切需要通过大数据分析把握用户心理,进而增强自身市场竞争力。 ...
大数据分析业务已经全面开花,以谷歌、雅虎及Twitter为代表的网络服务巨头们纷纷投身其中,希望将自己手头的用户数据转化为实实在在的生产力。而普通企业客户则迫切需要通过大数据分析把握用户心理,进而增强自身市场竞争力。
一:认真思考大数据的意义
大数据分析业务已经全面开花,以谷歌、雅虎及Twitter为代表的网络服务巨头们纷纷投身其中,希望将自己手头的用户数据转化为实实在在的生产力。而普通企业客户则迫切需要通过大数据分析把握用户心理,进而增强自身市场竞争力。
大家所在的企业可能规模不大,但数据量却没准不小。GigaOm研究公司的大数据项目主管Jo Maitland指出,即使是一家小型套保基金同样会拥有以TB计的海量数据。咨询企业麦肯锡公司也在最近的一份报告中预测,在未来几年中,包括医疗保健、公共事业、零售及制造业在内的诸多领域都将从数据分析工作中获得更理想的经济利益。
Hadoop及其它大数据解决方案正在全球掀起一波技术浪潮,Hortonworks公司首席技术官Eric Baldeschwieler评论道,这是一家隶属于雅虎的Hadoop分布式产品供应商。大数据技术广泛适用于各种客户群体庞大的产业,企业将通过对交易数据的收集与分析深入了解客户的偏好与消费习惯。在大数据的帮助下,企业不仅能够创造出符合消费者要求的产品及服务,更能够迅速发现并及时纠正业务中出现的问题。
二:只要认真提炼,任何数据都是有价值的
很多朋友都不相信自己的企业会有上PB的数据值得加以分析,但不管大家是否认同,这就是事实。大数据的任务是将那些以往常常被忽略掉的信息加以收集,因此最终整理出的数据量很可能远超各位的意料之外,Baldeschwieler说。
举例来说,大数据很可能源自你的服务器日志文件。服务器会追踪每位网站访问者的浏览轨迹,记录他们所点击过的页面;而将这部分数据合理加以统计将帮助企业准确把握用户感兴趣的内容。虽然日志数据分析不算什么新技术,但大数据的出现将会将此类分析工作的效果提升至全新的高度。
传感器则是另一大数据源。多年来,分析人士们一直在讨论将成本低廉的传感器连接到互联网,并保持监控状态始终在线的可能性。传感器的适用范围非常广泛,从车辆安全、桥梁状况到冷饮贩售机存货量都可以由它追踪。微软Windows嵌入工程总经理Kevin Dallas认为,“这类设备最大的价值在于捕捉数据的能力,对这类信息合理加以分析能够大幅提高业务效率。”
三:大数据需要新的知识储备
来自Forrester研究公司的分析师James Kobielus告诉我们,目前创建大数据分析系统的最大障碍在于寻找合适的管理人才。只有具备专业知识的人选才能利用合理的工具准确分析数据,遗憾的是目前有能力担当大数据项目负责人的IT人士相当匮乏。
大数据高度依赖于稳固的数据建模,因此企业必须始终关注数据科学,Kobielus指出。要让项目取得成功,企业得聘请统计建模师、文本分析专家以及专门从事情绪分析事务的人才。基本上,大数据项目所需要的技能组合完全不同于目前常见的商务智能分析工作,因此传统的分析专家很难帮上什么忙。
这类人才很可能供不应求。根据麦肯锡公司的预计,截至2018年美国将面临14万至19万个资深分析职位短缺,而了解如何使用大数据分析来制定决策的经理与分析师岗位更是存在150万个空缺。
另一大必备技术则是处理大量硬件的能力。既然要跟数据打交道,必然需要大量用于存储及分析数据的设备,而管理这么多设备同样是一门学问。可以说照顾100台服务器跟照顾10台服务器完全不是一回事,Maitland指出。大家可能需要从本地的大学或者研究机构处聘请一些超级计算机管理员来专门处理这项工作。
四:大数据需要企业进行前期准备
向来喜欢严格规划每一类数据的CIO们终于获得回报了,在企业数据仓库(简称EDW)的帮助下,他们将能够更轻松地部署大数据项目。大数据的固有规则其实很简单:首先收集数据,之后再考虑怎么让它们发挥作用。
有了数据仓库,我们还要在真正将数据部署进去之前认真进行数据规划。“基本上来说,我们必须预先掌握自己的未来需求,”MapR公司市场营销副总裁Jack Norris表示。因为“一旦前期基础没有打好,那么企业终将失去潜在的商业机遇。”他还补充称“而且日后面临发展方向变更或者总结历史分析时,粗糙的前期规划肯定会令人叫苦不迭。到时候再后悔实在不够明智。”
“大家可以使用(大数据仓库)作为运作平台,并尝试在其中进行分析工作并发现信息的内在关联,”Norris告诉我们。大多数企业可能直到真正开始甄选数据时才意识到自己需要哪些信息,因此前期的懈怠必然会造成未来的麻烦,请大家务必引以为戒。
五:大数据项目的核心不仅仅是Hadoop
每当人们谈起大数据,他们首先想到的可能都是Hadoop这款数据分析平台。“Hadoop作为大数据领域的先驱可谓人气爆棚,无论是预算还是人力,企业对它的重视都远超同类产品,”Kobielus这样评价Hadoop在多数企业中受到的追捧。然而,最终我们可能仍然会使用Hadoop之外的其它软件。
法律咨询业巨头LexusNexus公司就始终在孜孜不倦地拓展大数据分析业务,最近他们刚刚将自己打造的HPCC分析系统平台进行开源化处理。MarkLogic公司同样将自己的数据库MarkLogic Server拿出来,帮助其它企业解决非结构化数据领域的工作。另一款获得极大关注的工具则是Splunk搜索引擎,它的作用是搜索并分析由设备生成的数据,例如服务器中日志文件。“无论是哪种类型的数据,只要大家能从自己的日志中引导出来,Splunk就能对其加以分析并为你的业务提供帮助,”来自Monash研究公司的Curt Monash指出。
(本文不涉密)
责任编辑: