数据中台底层逻辑
作者|赵壮实
01 什么是数据中台
2015年,阿里正式数据中台的概念,并在集团战略的层面去推进,其来源于芬兰游戏公司supercell“大中台小前台的”组织特点。supercell人数不到200,在2015年成为全球营收最高的游戏公司,其推出的四款遊戲:《部落冲突》(Clash of Clans)、《海岛英雄》(Bomb Beach)、《卡通农场》(Hay Day)《皇室战争》(Clash Royale),总日活突破一亿。
除了对于游戏本身的洞察,其组织上的特点是,不是自上而下的组织设计,而是由非常多的小团队(3-7人)共同构成,每个团队充分自治,而公司会提供强大的游戏基础能力(中台)。
回看阿里的数据中台的定义是:方法论 + 组织 + 工具。其中,方法是OneID+OneModel+OneService;组织为从 IT 支撑到业务赋能的数据、技术、产品相匹配的人才结构,包含数据产品经理、数据研发、数据科学家等多角色;工具为采集、构建、管理、服务等。广义上,数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。
02 我们为什么需要数据中台
① 指标口径不一致。在建立数据中台之前,阿里数据有30000多个指标,其中,即使是同样的命名,但定义口径却不一致。例如,仅dau这样一个指标,就有十几种定义。带来的问题是:都是uv,我要用哪个?都是uv,为什么数据却不一样?
② 数据重复建设,需求响应时间长。随着需求的增长,运营和分析师不断抱怨需求的交付时间拉长,面对快速变化的业务,需求响应时间已经无法满足业务对数据的敏捷研发要求。
③ 取数效率低。面对数十万张表,我们的运营和分析师找数据、准确地理解数据非常困难,想找到一个想要的数据,确认这个数据和自己的需求匹配,他们往往需要花费三天以上的时间,对新人来说,这个时间会更长。
④ 数据质量差。数据经常因为BUG导致计算结果错误,最终导致错误的商业决策。不同的模型带来不同的口径的数据,每个工程师都需要从头到尾了解研发流程的每个细节,对同样的“坑”每个人都会重新踩一遍。
⑤ 数据成本线性增长。这里面的成本,包括研发成本、计算存储成本等诸多问题。
03 数据中台的原则
① 组织原则
原则一:五指成拳,核心资源给到核心项目
业务上一般都是研发算法、工具、数据十八般武艺都会一点;中台是资源、引擎、数据、算法专业研究细致入微。如果说业务是赛马,那中台一定是五指成拳。
原则二:通用平台而非BP制
平衡业务支持的程度,优先支持的通用性。
原则三:不能急功近利,朝令夕改
中台就应该“慢工出细活”、“老火炖鲜汤”,以半年或一年为粒度在技术、产品等领域出引领性的东西。
② 方法论原则
原则一:onedata“一个生产“
原则二:onemeta“一个资产”
原则三:one service“一个服务”
③ 技术原则
最后,数据中台和业务的关系,就是鱼和水的关系,谁也离不开谁,不能把它们完全分开来看。业务想要获得更大的增长,就必须依赖数据中台,数据中台想要存活下去,就必须依赖业务的口碑和认可。
-END-