做数据分析,需要懂多少统计学?

独孤剑
独孤剑 这家伙很懒,还没有设置简介...

0 人点赞了该文章 · 30 浏览

做数据分析,需要懂多少统计学?

大家好,我是爱学习的小xiong熊妹。

很多小伙伴会问:做数据分析,需要懂多少统计学知识?今天简单跟大家分享一下。

一、统计学是个啥

统计学是个历史悠久的学科,有着300年以上历史。随着近代科学的发展,人们不再满足于“普天之下”“众所周知”这一类含糊的描述,希望用精确的数据来描述事物,因此诞生了描述性统计(descriptive statistics)。这是统计学最早,也是最普遍的应用。我们经常说的平均数、中位数、众数等等概念,都是描述性统计的概念。另一方面,人们发现:获得数据太难了!尤其在300年前,遍地文盲,口述手抄的时代,想获取数据难如登天。怎么办呢?人们开始思考:能否从总体中,抽一些样本,通过样本情况推断总体情况。这样就一定程度上解决了数据获取难的问题,是所谓的推断性统计(inferential statistics)。上过《统计学》课的小伙伴,都对假设检验、统计量、分布函数等概念记忆深刻。这些东西很难搞懂,实际工作中似乎又很少用到。因为这些东西,都是推断性统计的概念。

二、统计学有哪些内容

随便百度一本统计学术的目录,可以看到,有以下章节(如下图)

图片

其实大部分统计学书都是这么布局的,大同小异。一般四大部分

第一部分:描述性统计。

第二部分:概率与抽样。

第三部分:假设检验。

第四部分:统计模型。(如下图)

图片

那么,到底需要掌握多少呢?

三、初级数据分析师,要掌握哪些

第一部分描述性统计是人人必会的。因为这是做数据分析的最基础知识和基本概念,不管做什么工作都要用到。而且这一部分概念简单,很容易掌握。所以入门的新人,最好人手必备。

包括:

基础变量概念(连续、定序、分类)

描述集中程度(均值、中位数、众数)

描述离散程度(平均差、方差、标准差)

描述数据分布形态(箱型图)

数据图形展示(8种基础图形)

很多基础的数据分析方法,比如分层分析、矩阵分析等,其实就是描述性统计+数据交叉表。所以如果真的是小白入行,统计学数一般看到前四章就能打住了。不用自己难为自己。当掌握基础知识,要参加面试的时候,可以适当补充第二部分:概率与抽样的知识。并非因为这一部分用处多,而是很多企业喜欢在面试时候问这些问题(就是一个字:卷)。学这一部分,最好的办法是对着章节后边的习题做。做对题,通过面试是第一目标。

四、中级数据分析师,要掌握哪些

第三部分知识,是中级以后数据分析师要掌握的。因为这一部分,讲的是用抽样方法做统计推断。实际工作中,大部分场景不需要做抽样。比如统计销售、运营、产品情况,都是全量统计,很少做抽样。只有特定场景需要。最典型的就是质量检测。比如检查产品的使用寿命、耐用程度、物理强度等指标,就一定得对产品做破坏性检测。这就意味着不可能100%检测,一定得抽样。类似的场景,在供应链上还有很多,比如检测生产线生产质量,比如检测药品服用效果等等。之所以在供应链应用多,还有一个深层次原因,就是:供应链的检测,检测的是一个有固定物理/化学属性的事物。这样有可能通过小样本抽样,推断出总体的物理/化学属性。这样使得抽样检测的结果很稳定,有指导意义。在营销端也有类似应用,一般是用在未上线的产品/概念/价格。比如传统企业流行的包装测试/口味测试/价格弹性测试,或者互联网企业流行的ABtest。因为这些测试,都是挑选一小批用户参与测试,因此涉及小样本推断总体情况的判断,就得用到概率和假设检验。但要注意的是:抽样方法,往往和具体业务场景捆绑紧密。都是抽样,质检端可能就是按产品编号抽;调研则得先拦截受访者,再甄别特征;互联网产品的ABtest,则是先对流量做分桶。因此孤零零看统计学知识,无法满足实际工作需要,得结合具体业务场景学习才行。

五、高级数据分析师,要掌握哪些

第四部分回归/预测模型,建议缓看。因为这一部分涉及知识量大,且平时工作中不怎么用得上,并且现在机器学习流行,其计算模型思路和统计学不太一样。所以这一部分,建议在自己已经有积累情况下再看。另一个问题是:统计模型经常被错用、乱用。特别是相关分析和回归分析,因为这两个非常简单,用excel就能做,所以经常被一知半解的小白拿出来乱用。结果,要么是业务表示看不懂,不认可;要么是做的错误百出,无法自圆其说。所以新人真的慎用。如果新人真的想看这一块,建议只看时间序列预测。因为时间序列预测使用范围非常广,特别适合领导扔几个数据过来,让我们“做个预测看看”的场景。至于其他方法,建议找个现成的工具(比如SPSS),把数据怼进去,然后对着输出参数做解读。以上就是我个人在工作中运用心得,供大家参考。估计有小伙伴会表示:“小熊妹,你这完全不够呀!最近招聘越来越内卷了,问的统计学知识越来越多,咋办!”从我的面试经历看,一般这些卷王们,喜欢卷三个话题:

ABtest(涉及假设检验、抽样)

因果推断(涉及统计推断、控制变量)

预测模型(时间序列/因果关系模型)

-END-

发布于 2023-01-14 04:41

免责声明:

本文由 独孤剑 原创或收集发布于 火鲤鱼 ,著作权归作者所有,如有侵权可联系本站删除。

火鲤鱼 © 2024 专注小微企业服务 冀ICP备09002609号-8