您现在的位置是:首页 > 大数据 >
从ETL到NoETL Aloudata实现了数据管理的自动化、智能化蜕变
2023-12-22 10:28:28作者:路沙来源:信息主管网
摘要在业务需求增长百倍的情况下,我们的数据生产力是否能同步增长百倍?显然,按照常规逻辑,这几乎是不可能实现的。在Aloudata CEO周卫林看来,为实现这一目标,需要采用全新的思维方式、新的架构和新的技术。...
在业务需求增长百倍的情况下,我们的数据生产力是否能同步增长百倍?显然,按照常规逻辑,这几乎是不可能实现的。在Aloudata CEO周卫林看来,为实现这一目标,需要采用全新的思维方式、新的架构和新的技术。
当然,采用新思维、新架构以及新技术的目的是要解决原有的,并且长期存在的数据管理及应用难题。而这一难题就是在数智化运营过程中,“用数需求”的复杂性和不确定性与实时性、高效率、低成本之间的矛盾。
周卫林表示,企业内部的数据需求可以分为数字化管理和数智化运营两个方面。数字化管理围绕商业模式展开,以营收等顶层指标评估为基础,主要服务于管理层的日常决策和战略制定,因此“看数需求”变化较少,节奏更为稳定。相反,在数智化运营方面,由于有众多团队和员工从事大量短周期的微决策运营工作,从而导致“用数需求”不仅充满不确定性,对实时性的要求也更高。
现有的ETL工程体系将不可持续
“同一个指标,在管理层看来很直接,但当它到达业务运营层面时,会引起分析师和业务人员的广泛数据需求,产生新的数据链路。这个链路涉及到创建大量宽表和汇总表,以满足用户的具体需求。随后,还将引发更多的明细层数据的建模,以及更多数据源的引入,从而形成一个复杂的需求网络。”周卫林说道。
从ETL(抽取、转换、加载)的角度来看,如果每一条数据链路都代表一系列的ETL研发作业流程,而每个研发作业流程都代表着数据的搬运和处理过程。随着数据的实时更新,不仅会涉及大量的数据搬运和处理工作,还会使得每个任务都将经历排期、研发、测试、上线发布等复杂步骤,从而影响整个链路的开发和优化。
不仅如此,我们还将面临技术成本的失控和数据目录失真的挑战。“当业务从数字化管理转向数智化运营的过程中,我们通常会面临数据源、数据需求和用数人群的快速增长。这意味着ETL作业数量将会呈指数级增长。然而,尽管需求在快速增加,但我们招聘的ETL工程师数量却有其限制。同时,ETL工程师个人可以管理的任务量和处理系统复杂度的能力也是有限的。因此,在这样一种看似不可调和的矛盾下,如何凭借有限的能力处理更多的事务,就成为一个巨大的挑战。而这种挑战也预示着现有的ETL工程体系将不可持续。”周卫林如此说道。
对此,Aloudata产品负责人肖裕洪也表示,Aloudata的初衷其实很简单:业务部门需要数据,必须通过ETL过程来交付,这导致ETL团队不得不长期加班,且满意度极低。因此,Aloudata认为要从ETL的泥潭中爬出来的唯一途径,就是让那些重复性低价值的工作被自动化替代,从而减轻企业负担。
此时,就会涌现出一种典型的思考方式:既然传统的模式,即依靠ETL工程师驱动的模式是不可持续的,那么是否存在一种无ETL的新模式可以替代它?答案自然是肯定的,而求解的方式将由Aloudata向我们娓娓道来。
让NoETL不再是奢望
从ETL到NoETL,看似简单的解题方式,其实内在则有着极大不同。
毋庸置疑,NoETL的模式旨在寻找一种不再依赖于传统ETL工程师驱动的方法,从而实现数据生产力的可持续和大规模增长。从需求端来看,传统的数据工程体系在满足管理层需求时可能表现良好,但对于底层业务人员而言,他们需要的其实不是报表,而是多维度、细粒度、口径明确的指标。因此,企业需要一种全新的交互界面,在该界面上,用户不需要知道表存放的具体位置,只需要清楚理解指标口径以及指标的准确数值即可。
同时,企业还需要一种全新的数据集成方式,进而找到一种快速完成数据集成和自动化构建ETL链路的新方法,进而能够大幅提高数据准备的效率。此外,还需要一种基于主动元数据驱动的数据管理模式,以及一套能够感知当前系统状态的精准的元数据系统。“我们通过数据语义引擎提供全新的交互界面,通过数据虚拟化引擎实现逻辑数据集成与自动化构建ETL链路,通过主动元数据引擎实现数据治理的辅助驾驶。这三个技术引擎是我们最核心的技术创新与突破。”周卫林如此说道。
周卫林进一步表示,Aloudata设计的NoETL模式可以充分利用企业现有的数据湖、数据仓库和其他数据源,盘活全部数据资产,实现平滑升级,而不是完全重构。通过这一全新的架构,将能够消除传统数据工程的障碍,例如繁重的管道、运维任务和高企的预计算成本,同时提高效率和生产力。从实际的业务效果来看,一方面能够缩短需求交付周期,从按月或按周交付变为按天或按小时交付,另一方面,能够将存算成本和人工工作量降低70%以上。
让核心技术具象化
正如周卫林所说,数据语义引擎、数据虚拟化引擎以及主动元数据引擎,是Aloudata在探索实现NoETL的过程中所积累的三大核心技术。而基于这三大核心技术,Aloudata又通过具体产品的形式,将Aloudata的技术优势进行了场景化、具象化的延展,使其能够真正贴近业务需求,解决企业的实际业务难题。
“在全新的架构下,我们推出了三个主要的产品:Aloudata AIR逻辑数据平台,主要负责多源异构数据的整合;Aloudata BIG主动元数据平台,拥有算子级血缘解析能力;Aloudata CAN自动化指标平台,负责指标定义、管理和系统自动化开发。”周卫林如是说。
具体来看,Aloudata AIR是国内首个基于Data Fabric(数据编织)架构的逻辑数据平台,能够实现多源异构数据的虚拟化集成。这种方式类似于淘宝模式:数据源就像是不同的商家,而我们的平台则像是淘宝,提供了一个集中的购物平台。此外,Aloudata AIR还通过自动化链路编排和智能查询下推技术,实现了自适应的查询加速,提高了处理效率。同时,通过提供统一的安全管理界面,进一步强化了数据的合规管控。
关于Data Fabric,肖裕洪也谈到了自己的个人理解。他认为,依托Data Fabric,无论数据存放在哪里,无论其格式如何,当企业需要时,系统都能够在正确的时间向正确的人提供正确的(即质量有保障的)数据,从而让数据安全、规范地流通。总体来看,Data Fabric为我们提供了一种新的数据管理模式,它通过逻辑化集中、动态集成、智能治理和增强型数据目录,实现了对数据的更高效、更智能的管理与应用。
以在某证券企业的成功实践为例,他们不愿意使用传统的数据湖仓架构,因为这种方式对开发人力投入的要求过高,维护负担较重。转而采用Aloudata AIR平台构建逻辑数仓之后,他们实现了数据的逻辑集成和自动化ETL流程,大大降低了数据工程的人力和成本投入。
Aloudata BIG是一个拥有算子级血缘解析能力的主动元数据平台。关于什么是算子级血缘解析能力,周卫林解释道,企业中存在着巨量数据,同时伴随着一系列问题,如数据交付缓慢、难以管理、难以理解、难以治理等。要解决这些问题,就需要更精细的管理能力。Aloudata BIG的目标是通过算子级血缘解析,看清楚线上SQL代码逻辑,从而实现真正实时、精准的数据理解和更高效的产品应用。
周卫林用一个形象的比喻说明了算子级血缘解析能力的优势所在。他表示,传统的地图可以查询到建筑物级别的精度,类似于表级血缘。但在导航时,这样的精度可能无法找到某个人具体所在的房间。算子级血缘解析在深入理解代码逻辑的基础上,能够精确到具体位置,找到特定的人。
Aloudata CAN是一个全新的自动化指标平台,用户在这里定义指标,定义完成后,系统自动进行指标开发。这意味着,定义即生产,定义即服务,定义即管理,无需额外的开发和发布工作。这样,就实现了指标的一致性,并解决了口径不一致和指标不能充分复用的问题。
周卫林表示,在传统的指标平台中,指标管理面临着诸多挑战。例如,ETL工程师开发数据表,然后利用BI工具为业务指标配备度量和维度。但这种物理指标的生产依赖于数据工程,而指标的定义则又在BI工具内,这两者之间往往难以统一和复用。此外,如果通过建立指标管理平台进行指标的注册和管理,再由IT人员进行开发,也会面临指标管理和实现之间的脱节,以及工程师在理解和编写代码时产生偏差的问题。
(本文不涉密)
责任编辑:路沙