解读大数据平台产品体系
我们先简单说下各层的功能以及涉及到的产品模块,然后再详细介绍各个产品模块。
(一)
数据收集层捕获用户在各个产品端的行为数据,加载各业务系统结构化数据、非结构化,导入流量平台数据、通过第三方平台的API接入微信、微博数据、广告投放数据,使用爬虫采集企业舆情、电商商品评论等第三方数据。 相对应的产品有用户行为日志采集系统、第三方对接平台、数据爬虫。
数据加工层清洗、转换数据,把不同业务系统的用户归一化生成统一的UniID,统一不同系统中的相同字段的数据类型、数据值(例如流量系统中的渠道和营销平台、广告投放中定义的渠道不一致),建立合理的维度、度量以及数据模型。这一层的产品模块有元数据管理、指标库、作业调度管理、数据质量管理,都是为了让数据可追溯、可管理,持续改进数据质量,产出高质量的数据。
数据计算层解决数据开发和挖掘、标签制作和使用、算法调用、数据调用等问题。对应的数据产品模块有:开发管理、标签平台、算法平台、数据接口、运维监控。数据加工层和数据计算层是数据平台建设的核心。
数据应用层是业务人员、用户可感知的系统和产品功能。内部包括日常报表系统、用户画像系统、标签查询、CRM、营销平台,对外包括改善用户体验的个性化PUSH、推荐系统。
用户画像系统是在标签的基础上定期生成企业、产品线用户画像报告,宏观、汇总显示用户主要特征,同时可以自助查询单一用户、某个渠道、某条产品线的用户画像。供管理层、销售、运营、产品经理日常使用。
标签功能是需要构建一个标签服务平台,最大限度的规范标签的体系(大类、中类、小类)、标签的格式、组合方式、调用方式等,可以基于标签进行二次加工发布新标签。自定义标签是根据数据维度、度量自行生成新标签。每发布一个新的标签,就意味着新增加一种数据能力。标签是可以直接被外部系统调取,例如在CMR中的客户信息页面显示消费者类型(购物冲动型、目标明确型、理性分析型、犹豫型)。
CRM常规功能有客户管理、潜在客户管理、业务机会管理、营销活动管理、客服记录管理。借助大数据可以为CRM扩展这些能力: 用户轨迹分析、挖掘潜在用户、用户流失分析、流失用户挽回、用户等级分群、用户价值分析等。大数据时代,CRM也会同步进化,不再是单纯的业务过程记录,应该是和大数据走向融合,大数据的分析结果直接嵌入CRM中,供业务人员即时使用,但数据不会直接写入大数据平台,业务变更的数据还是进入CRM系统,加工后再汇入大数据平台
营销平台常规功能有营销全流程管理(推广计划、广告投放、效果、人群定向)、费用审批、渠道管理、短信邮件推送、营销策略、营销执行。 营销平台大数据应用有: 生成种子客户群、消费者特征分析、消费者类型分群(购物冲动型、目标明确型、理性分析型、犹豫型)、渠道衡量、营销效果分析。 标签库的用户群要能推送到营销平台,它们内嵌于生产流程,致力于端到端的解决问题,从而真正的赋能于业务人员。
CRM、营销管理平台既是数据消费者,又是数据生产者,DT时代,CRM、营销管理平台也一起同步进化, 大数据应用和业务系统不断融合,对产品架构、技术架构也都是不小的挑战。
报表系统说一点,为了促进业务人员经常看数据报表,培养数据化运营理念,除了报表门户外,报表也要直接嵌入业务系统,因为业务系统他们是每天都要登录的,这也是数据平台和业务系统融合的一个表现。
个性化PUSH、推荐系统的产品功能比较明确,这里就不再赘述。
(二)
下面对数据管理平台的产品模块做个梳理,数据管理平台是大数据产品体系建设的核心和地基,实现数据管理、数据开发、以及对生产过程的管理。这些产品模块不一定全部需求,视数据规模及进化阶段而灵活裁剪。
- 开发管理: SQL开发、Spark开发、作业调度、API管理等
- 数据接口:对外提供数据访问能力,CRM、营销平台可以直接使用数据平台的数据,让数据成果在业务系统中落地。
- 算法平台: 解决数据开发和挖掘的问题,支持分类、聚类、关联、回归等常见数据挖掘算法,用于实现一些预测性标签、做用户分群、个性化推荐等,如果业务线很多,还可以对业务线输出算法能力供其直接使用,避免另起炉灶。
- 元数据管理: 元数据采集、数据字典、影响分析、血缘分析
- 质量管理:质量规则管理、质量规则检查、质量问题管理
- 运维管理: 资源管理、运行监控
- 指标库: 指标库准确定义数据指标的含义、计算方式, 例如流失用户、活跃用户如何定义,这两个指标不像PV、UV有着明确通用的定义,适用于行业的定义。 指标库重在企业内部形成统一的指标口径,避免沟通误差,影响对数据的解读。
日志采集系统需要能够支持网站、App、微信小程序不同终端的用户行为数据收集,行为包括浏览、收藏、分享、评论、搜索、加入购物车、登录、注册、购买等等,尽可能收集所有有价值的行为数据。可以使用Facebook开源的Scribe,或者Flume、Kibana搭建。
公网数据采集系统就是我们常说的网络爬虫,从公网上采集微博话题、电商评论、行业数据、营销活动数据等。可以采用开源软件自己搭建,也可以购买现成的数据爬虫服务。
第三方数据对接平台通过API从微信公众号获取文章阅读、用户、用户留言、客服记录等数据,从广告系统获取投放计划、投放结果数据。
到此,我们把通用大数据平台的产品体系梳理了一遍,可以看出来大数据博大精深,非常繁杂。就单个产品来说工作量都已经非常大,不是一朝一夕能够建成,但我们先画定一个较合理的蓝图,择近期的核心需求先行建设,然后根据需要不断迭代前行。
本文由 @百川 原创发布。未经许可,禁止转载。
题图来自 Pixabay,基于 CC0 协议