您现在的位置是:首页 > 行业 > 金融 >

大数据存储多少不重要 分析应用更关键

2016-05-16 14:16:17作者:来源:

摘要 “把大量数据通过低成本的方式存储起来并不是最重要的,你有多少大数据也不是最重要的,最重要是分析数据,使其发挥出最大价值。”5月6日,在北京国贸大酒店举办的“2016 Teradata大数据峰会”上,Teradata天睿公司首席技术官宝立明(Stephen Brobst)如是说。...


 
“把大量数据通过低成本的方式存储起来并不是最重要的,你有多少大数据也不是最重要的,最重要是分析数据,使其发挥出最大价值。”5月6日,在北京国贸大酒店举办的“2016 Teradata大数据峰会”上,Teradata天睿公司首席技术官宝立明(Stephen Brobst)如是说。
 
本届峰会邀请到了全球不同行业的领先企业,例如德国沃达丰、沙特电信STC、富国银行、中国建设银行、中国光大银行、浦发银行、中信银行、英国TSB银行、美国太平洋燃气和电力、加拿大航空以及eBay等,分享了他们有关数据分析、商业和开源技术发展,以及如何应用这些技术满足业务需求,以数据驱动企业发展的经验。
 
数据的收集、策管与分析
    
宝立明认为,企业探索大数据主要分为收集(Capture)、策管(Curation)和分析(Analysis)三部分。数据收集主要是将内外部数据采集存储至平台,供数据工程师或者数据科学家来存取使用;数据策管,也就是数据治理,主要是采用不同的策略方法对不同格式、不同来源的数据进行处理,建立可描述的数据存储模式和治理结构,进行周期性管理,这是现在企业的痛点和难点所在;但实际上,对企业最有价值的是数据分析,只有找出数据之间的关联性或者可分析预测的模式才是最重要的。
 
Teradata天睿公司大中华区首席执行官辛儿伦(Aaron Hsin)在会上用“三度、两性、一量”来概括总结目前企业对数据的具体需求特点:即在深度上,企业需要更快速地整合分析来自不同部门的关系性强、结构性强的业务数据;在宽度上,企业需要进一步融合企业内外的关系不明确的结构不清晰的大数据;在跨度上,企业在上下游产业链甚至是不同产业间的建立跨界的数据共享机制。
 
辛儿伦演讲时介绍,企业数据分析流程是IT、数据部门与公司内外部的最终用户共同定义一个认可的价值场景,并进行数据采集、获取、整合、建立模型、查询以及分析应用的过程。在这个过程中,常常会遇到不同数据来源的数据结构度不同,不同应用场景对数据的精确度要求不同,数据分析应用所要求的反应敏捷度不同,以及数据在不同来源之间的关系性不强或者不确定,数据本身的易用性不同,数据对每个场景的价值和含金量也不同等问题。为有效满足这些需求,就像本届峰会提出的主题“数据仓库、开源融合、极致演绎“一样,企业需要融合各种技术来发现数据的价值。
 
辛儿伦表示,当今数据分析专业领域,已经无法通过采用单一平台,或是单一技术就能有效满足大数据分析需求,需要构建下一代大数据分析生态系统。如何有效应对数据之间的差异,建立数据管理体系及架构,整合统一管理数据,提升使用者满意度,是所有企业都要面临的问题。而Teradata提供的方法就是采用“统一数据架构”(Unified Data Architecture)。
 
记者在以前的采访报道中曾经写过,“统一数据架构”是将多种技术整合到一个紧密结合的、透明的开放架构中,等于给数据分析人员一把“瑞士军刀”,用不同样式的工具让用户发现大数据中潜藏的价值。而近来Teradata积极拥抱开源技术,让这把“瑞士军刀”的刀片越来越丰富了。
 
开源 融合
 
作为CTO,麻省理工博士毕业的宝立明是业界公认的数据仓库技术的一流专家,他于1999年就加入Teradata,此前他曾任教波士顿大学和麻省理工学院,也曾成功创办三家数据库相关企业,同时他也是个不折不扣的开源拥护者。
 
在峰会上演讲时,宝立明介绍了目前数据分析领域的最新技术和做法,包括延迟绑定(Late Binding)、QueryGrid、Presto、Kafka、JSON(JavaScript Object Notation)等。
 
所谓延迟绑定技术是一种数据处理模式,它与以前做法不同的是,这种技术不会在获取数据时就定义数据结构,而是要在使用数据,也就是在查询、读取时才建立数据结构,做加载、清洗和转换,如此一来,可以为企业降低数据成本并保持数据应用的灵活性。
 
宝立明介绍,QueryGrid是一种互操作技术,可以实现Teradata与其他数据库产品的互通操作。据记者了解,几年前,Teradata 和 Hortonworks合作开发了 Teradata SQL-H和 Teradata Aster SQL-H连接器,用于在 Hadoop 平台上的 Hadoop 分布式文件系统 (HDFS) 与 Teradata 或 Teradata Aster 系统之间移动数据。这些连接器的创新之处在于,通过将一个平台上的处理单元映射到另一个平台上进行平行数据移动,实现高达百倍的吞吐速率。Teradata 现在已经将这些较早的连接器合并到更广泛的 QueryGrid 连接器套件中。这种效率不仅能够消除瓶颈,而且还改变了分析的工作流程。只要有足够的时间,任意数量的数据可以在两个平台之间移动。如果数据移动需要消耗一整天,则工作流的速度就太慢并且脱节。使用 QueryGrid,业务分析人员每分钟可以提出更多问题并获得更多答案,从而实现更深入的探索,更好地研究业务问题。其实,QueryGrid在2014年Teradata已经推出,功能已经越来越完备,目前已经能实现对ORCALE、 SAS、 MONGDB等数据库的无缝查询。
 
“我们也与Facebook联合开发了Presto。”宝立明介绍说。Presto是一个开源的分布式SQL查询引擎,适用于交互式分析查询,数据量支持GB到PB字节。众所周知,Facebook创造了Hive,它会把输入的查询SQL解释为MapReduce,极大降低使用大数据查询的门槛,让一般的业务人员也可以直接对大数据进行查询。但弊端是查询速度慢。怎么办?Facebook又创造出了Presto来解决像Facebook这样规模的商业数据仓库的交互式分析和处理速度的问题。Presto支持在线数据查询,包括Hive、Cassandra、关系数据库以及专有数据存储。一条Presto查询可以将多个数据源的数据进行合并,可以跨越整个组织进行分析。Teradata为Presto提供经验丰富的可靠支持,有20多位经验丰富的开发人员专职向开源 Presto 代码库提供技术支持,而其两年前收购的大数据技术服务Think Big也可以帮助企业客户灵活部署Presto,利用所掌握的全面知识和经验来帮助用户优化其软件体验。
 
宝立明也提到,Teradata也在与LinkedIn共同开发基于Kafka的应用。Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据。
 
另外,对于 JSON 这样一种处理Javascript和Web服务器端的之间数据交换的轻量级数据交换格式,Teradata也在做技术跟进与应用。
 
“1968年以前,跳高运动员都是用剪刀脚动作,80年代以后运动员才采用背跃式,用了12年,背跃式真正超越剪刀脚成为跳高界的主流技术。”宝立明以跳高技术的演变作类比介绍,“大数据技术、新的数据分析技术不会马上完全取代传统数据技术,但如果不跟进新技术,那未来就会有被淘汰的风险。”


Teradata天睿公司大中华区首席执行官辛儿伦(Aaron Hsin)
 


Teradata天睿公司首席技术官宝立明(Stephen Brobst)


用户观点:
 
万物皆可分析指的是每一个设备都能够捕获数据,我们需要利用这些数据产生业务价值。沃达丰新西兰公司有800万台设备,我们需要实现快速的网络覆盖和客户体验,保证VIP客户获得最好的网络使用体验。数据分析对我们而言,变得非常重要。
——沃达丰新西兰公司分析及数据战略经理David Bloch
 
沙特电信有很多监测数据,比如客户在网上的搜索偏好是什么,一天收集类似数据60亿条。我们需要基于这些数据,对客户进行全生命周期的管理,提升客户体验,提供更好的服务,预测他们可能购买哪项产品或者服务。另外,当客户态度变了、行为变了的时候,公司要觉察到并跟进服务,防止客户流失。
——沙特电信客户生命周期管理总经理Luca Decarli
 
数据分析与IT是什么关系?打个比方,数据人员是建筑师,他们理解终端客户的需求,解决的问题是设计房子该怎么建会更漂亮,通过数据建模反复尝试;而IT人员则是施工队,去落地数据人员的想法,把房子建好。
——富国银行企业模型风险部副总裁刘维政
 
数据已经成为银行的“血液”。数据对银行来讲是一个契机,是把这些长期积累的数据资产变现,使其发挥价值的时候了。无论从管理方式,还是生产方式,包括决策制定、组织架构调整、风险管控、精准营销、客户管理等都可以通过数据进行变革。
——中信银行总行零售银行部客户服务管理处处长助理袁东宁
 
 

(本文不涉密)
责任编辑:

站点信息

  • 运营主体:中国信息化周报
  • 商务合作:赵瑞华 010-88559646
  • 微信公众号:扫描二维码,关注我们