商业数据分析三大类(一):描述性分析
企业管理人员对于理解和使用数据获得竞争优势很感兴趣,数据代表着机会,而数据分析涉及的理论、算法和计算能力,对企业的人员配置、IT架构等资源配置需求也提出了挑战。越来越多的企业雇佣懂得如何处理和分析数据的分析师和科学家,也投入大量的资金购买服务器、数据库、分析软件等,为“数据掘金”做好准备。
随着企业在产品,运营,供应链,市场营销各方面的数据日渐积累不断增长,很多公司的管理人员开始言必称大数据,但是研究发现,不同企业在数据应用上的方法和层次差距很大。
我们可以将企业数据分析中用到的方法和功能进行归类,可以分成9个技术阶段,分别为:常规报表、即席查询、描述统计、数据可视化、统计分析、数据挖掘、预测建模、模拟分析、决策优化。从左往右看,每个技术阶段的实现难度递增;从下往上看,企业获得的竞争优势逐步提高。
一般而言企业在商业数据分析中的技术应用会经过由易到难的路径,也可以通过借鉴业内领先企业的方法在技术和软硬件架构上一次性到达较高阶段。由于数据积累和实践路径的差异,大部分企业都会从最基本的应用开始随着实际应用产生成效,再网上推进到更加复杂的方法,由此企业产生了自身的竞争优势。
由于不同企业的数据特性和数据分析流程不同,导致企业的数据洞察能力不同,并不是所有企业都能达到高级方法的运用阶段,但每一步往上的探索都有可能给企业带来更强的竞争优势和策略。下面我们逐一分享描述性分析阶段用到的方法。
描述性分析
描述性分析,又称为“描述统计分析”,是用于描述已经发生过的事情的一系列数据分析方法,比如数据查询,报表,描述性统计量,可视化仪表盘,部分基础数据特征挖掘技术等。
为什么描述性分析里面含有“统计”的含义?我们看下面一张表-1:
这个表是某电信公司区域分公司用户清单,原文件有20多万行(用户),这里仅截取19行,在商业数据分析领域,20多万行的数据是一个中等规模的数据集。我们应该如何着手分析20多万用户的数据?
描述性分析的作用就是对收集的原始数据进行初步分析,以获得对当前分析商业场景下数据特征更好的认知。认知科学研究表明,人脑难以处理3个以上变量的相互关系,再加上庞大的数据量,已经完全超出了一般人的认知能力,所以我们必须采用统计方法对原始数据的特征进行提炼。下面我们介绍描述性分析中常用的分析方法。
01.频数分布
在表-1中有两种类型的数据,月度费用、总费用都是以数字形式表示的,能够进行加减乘除等算术运算,有计量单位(元)的数据,称为定量数据。
其他数据例如性别,在表格中以文字形式呈现,代表事物的某个属性,不能进行算术运算的数据,称为定类数据。定类数据在计算中也会转化成数字表示,但不影响其性质。
我们在商业数据分析中主要用到这两种数据类型。
定类数据分布
通过计算变量中不同取值出现的次数,我们可以计算其频数分布。我们在spsspro.com上使用描述性分析-频数分析功能得到频数分析结果如下:
频数表示男性和女性用户的人数,很明显不同性别的用户数与用户总量有关,所以我们更关心频率 —— 即男性跟女性用户占总用户人数的比例。
进一步的,如果我们将性别和开通宽带业务一起考虑其频率分布,在spsspro.com上使用描述性分析-列联(交叉)分析功能,结果如下:
将两个变量一起分析,可以帮助我们进一步发现不同性别在开通宽带业务上是否有差异,发现更细致的特征。
定量数据分布
定量数据也可以编制其频数分布。从表-1可以看到,在用户缴纳的月度费用中并没有相同的数字,所有取值的频数都应该为1,我们应该如何编制频率分布?对此我们需要将月度费用按从小到大分组。我们在spsspro.com上使用描述性分析-频数分析功能,得出结果如下:
SPSSPRO自动按照25%、50%、75%、100%四个分位点将数值分开四组,然后计算在该组别取值范围内的频数。在结果我们看到,消费在[107.91~116.8]的用户是最多的,用户价值较高。
02.位置测度
定量变量的描述性分析方法比较多,在统计学中有多种计算方法,目标都是对定量变量的特征进行刻画,典型的描述性统计量如下。
平均值
平均值是使用最为频繁的方法,是一种数值中心位置的度量,由于其含义简单,被过度使用的情况较为严重。
中位数
中位数是另一种中心趋势的测度,是按升序排列的观察值居于中间位置的值。对比平均值,中位数更少受到极端值的影响。
我们可以假设企鹅公司有5名员工在2022年的收入是下表-2:
经过计算我们知道这五名员工的平均收入高达2018万元,而中位数是25万元,中位数更能反应企鹅公司的收入水平情况。
极差
极差是测量变量差异性最简单的方法,就是把观测值的最大值和最小值相减。我们可以看到表-2的极差有9988万元,说明了企鹅公司收入差距巨大。
方差和标准差、分位数等均可以作为差异性统计量,一般是在统计分析过程中使用,文中不作过多数学解释。
小结
在上一篇文章中我们分享了一个典型的BI仪表盘,可以说这个仪表盘中用到的所有原始数据和统计量都是上文中提到的描述性分析的应用。据Gartner报告,91%的企业在数据和分析方面尚未达到“转型”的成熟阶段,仍处于描述性分析阶段(数据查询阶段),问题主要出自企业的数据分析业务流程与数据特性。
企业需要不断提升自己的数据洞察能力,不仅是招聘的数据分析师、科学家需要懂分析算法和模型,企业管理人员、一线业务人员也应该具备基础的数据分析素养,全面提升数据洞察能力,将数据分析和科学决策融入企业的管理流程中,才能在白热化的市场竞争中脱颖而出,