为什么要搭建大数据分析平台?如何搭建企业大数据分析平台?
企业为什么要搭建大数据分析平台
1、搭建大数据平台离不开BI
在大数据之前,BI就已经存在很久了,简单把大数据等同于BI,明显是不恰当的。但两者又是紧密关联的,相辅相成的。BI是达成业务管理的应用工具,没有BI,大数据就没有了价值转化的工具,就无法把数据的价值呈现给用户,也就无法有效地支撑企业经营管理决策;大数据则是基础,没有大数据,BI就失去了存在的基础,没有办法快速、实时、高效地处理数据,支撑应用。所以,数据的价值发挥,大数据平台的建设,必然是囊括了大数据处理与BI应用分析建设的。
2、大数据拥有价值
企业发展会沉淀大量的数据,数据中囊括了企业业务各种维度指标,通过数据挖掘和数据分析,让企业业务了解过去、现在和未来将要发生什么,从而更好的调整企业发展方向。
如何搭建企业大数据分析平台
首先,在构建大数据分析平台之前,我们要明确业务需求场景和用户的需求,通过大数据分析平台,获取有价值的信息,需要访问数据,明确基于现场业务需求的大数据平台具有基本功能,确定平台的流程使用大数据处理工具和框架。面对海量的各种来源的数据,如何对这些零散的数据进行有效的分析,得到有价值的信息一直是大数据领域研究的热点问题。
大数据分析处理平台整合目前主流的各有侧重点、各有侧重的大数据处理分析框架和工具,实现对数据的挖掘与分析,大数据分析平台所涉及的组件众多,如何将其有机结合起来,对大量数据进行挖掘是一个复杂的过程。在构建平台之前,明确业务需求以及用户需求,通过大数据分析平台,想要获得有价值的信息,需要访问数据,明确基于场景业务需求的基本功能,确定大数据处理工具和框架。
具体的整体架构可以由以下几个部分组成:
1、业务应用:其实指的是数据采集,你通过什么样的方式收集到数据。互联网收集数据相对简单,数据可以通过网页和应用程序收集。例如,许多银行现在都有自己的App。这便能够更深层次的分析用户行为数据,可以切分出来很多维度,做很细的分析。但对涉及离线的行业来说,数据采集需要借助各种业务系统来完成。
2、数据集成:实际上是指ETL,是指用户从数据源中提取所需数据,最终根据预定义的数据仓库模型将数据加载到数据仓库。而这里的Kettle只是ETL的其中一种。
3、数据存储:指的是建立数据仓库,简单地可分为业务数据层(DW)、指标层、维度层(DWA)。
4、数据共享层:在数据仓库和业务系统之间提供数据共享服务。Web Service和Web API ,表示一种数据之间的连接方式,以及一些其它的连接方式,这些方法可以根据自己的情况决定。
5、数据分析层:分析函数就相对比较容易理解了,就是各种数学函数,比如K均值分析、聚类、RMF模型等等。列存储使磁盘中的每个Page只存储单列值,而不存储整行值。这样压缩算法会更加高效。进一步说,这样能够减少磁盘的I/O、提升缓存利用率,因此,磁盘存储会被更加高效的利用。
分布式计算可以将需要大量计算能力解决的问题分为许多小部分,然后将这些部分同时交给许多计算机,然后将这些计算结果结合起来,以获得最终结果。综合这两种技术,就能够大幅度提高分析环节的效率。Yonghong MPP目前在这两个方面都做的最好。
6、数据显示:结果以何种形式呈现,实际上是数据可视化。在此推荐使用敏捷BI,与传统BI不同,它可以通过简单的拖拉方式生成报告,而且学习成本更低。
7、数据访问:相对简单,这取决于你如何查看这些数据。图中的示例是由于B/S架构,通过浏览器访问最终的可视化结果。