回答数据分析的两个基础问题
越是沮丧的时候,越要学会自我拯救。
导读:2020年注定不平凡 ,年初新冠疫情爆发,形势陡然紧张,武汉、中国,成为全世界的关注点和话题。也许出于职业的原因,我对几个数据分析话题饶有兴趣。
预测感染人数的增长趋势
评论新冠病毒致命性
预估西方的终极感染人数
彼时,对这三个话题的参与者可谓鱼虾俱下,往往煞有介事。笔者自愧学术能力差、分析技术单薄,没敢掺和其中。其实也是“耻于”此事。为何?这些哄洋洋的家伙都是唯技术论者,完全忽略了两大最核心因素的影响——①病毒的特征、②人为努力。在病毒特征(尤其是潜伏期时长、传染性)还不明确的情况下就敢预测走势?扯淡!埃博拉、寨卡、新冠所面对的国家防疫力量完全不同,就敢简单用死亡率来评判他们致命性大小?扯淡!彼时居然很多人煞有介事地说西方国家最终会将感染人数控制在一两万人内。笑话!
说来好笑,彼时得知病毒潜伏期时长后,笔者的一个判断和担忧却不幸/有幸言中——“我国的疫情很快会得到控制,但国外估计悬了,如何防控海外输入将是个难题!中国很可能成为世界抗击疫情的大后方。”做这个判断除唯一数值型数据依据(病毒潜伏期时长)外,全凭“直觉”,但为什么判断对了呢?
这,就是我们在数据分析工作中最常面对的基础问题。
01 数据分析师是谁?
相信相当比例的数据分析师认为自己属于技术人员,更大比例的领导同事会把数据分析师看作技术人员。确实,数据分析师职责很宽泛、知识面需求更宽,确实需要必备的技术能力;但是如果我们真把自己当成“技术人员”,就难免陷入尴尬——高大上的数据分析师,成了跑数出报表的小催吧。
笔者认为,技术乃为达到目的之工具,而业务、解决业务问题才是数据分析的根本、立足点、出发点。所以,了解业务、熟悉业务、理解业务是数据分析人员必须要做到的,且是首要的。其对业务的理解程度往往要比一线业务人员更透彻、更全面、更系统,只有这样,我们才能知道:
我们需要收集、抓取哪些数据?
无法采集到的数据可以用什么数据来替代使用?
各个数据所代表的意义,才能确定最恰当的数据口径。
各分析要素的逻辑关系,因果关系?相关关系?无关系?
结论是否有价值?结论是否可以落地?
……
对业务不熟悉、理解不够透彻,那么所谓的数据分析就易于流于想当然、形而上,不能解决实际问题。从而得不到公司、领导层、业务层的认可,也是自然而然的情况。
这是数据分析师的自我认知问题。
02 数据分析需要面对哪些局限?
数据是什么?数据是客观存在的陈述。客观存在本就复杂,客观存在间的关系更加复杂,全面掌握对某个客观存在的认知,对任何一个人都是巨大的挑战。而数据分析人员恰恰要直面这个挑战。
1)分析对象依次受到哪些因素的影响?冥冥中,其实我们很容易忽略某些关键因素。比如上面所说的“病毒潜伏期时长”“人为努力程度”、比如天气对人行为的影响等。即便我们通过大数据分析从诸多因素中筛选关键因素,却也难保证我们罗列了全部关键影响因素。
2)各种影响因素的权重如何?要知道,权重是变化的,随着时间环境的改变,各要素影响力是不同的。
3)许多关键因素我们难以量化、或获取到数据。比如上面的“人为努力程度”该如何量化?假设通过资金投入来进行简单衡量,我们也发现很难获取到准确数据;更遑论应对埃博拉病毒的投入。
4)技术能力是否足以对各类因素进行有机分析?自诩为技术人员的数据分析师们更有发言权。我们所学习的基本都属于西方思想的方法论,其具有无法穷举、分化割裂的弊端,我们往往陷于以(局限于环境的)先验去证未验,以(自以为的)已知去证未知。譬如西医,胳膊是胳膊退是退,似乎明明白白,却常就此失彼。业务环境一变,一切作废。
如果理解了上述两个关键问题,我们便很自然地理解了:
数据的欺骗性
数据的时效性
数据的局限性
理解了为什么优秀业务人员的判断常常比经过复杂数据分析得出的结论更加准确,理解了为什么哪些个业务人员不鸟我们。优秀的业务人员如老中医一般懂得系统性、辩证地看待、分析问题,过程有时犹如玄学,但有其逻辑,但却有效。
为什么我对疫情发展有那样得判断,还判断准了?我的逻辑其实很简单——
新冠病毒由于具有很长的潜伏期,所以无症状患者自此期间会产生大范围的传播。
除非对人员进行有效的隔离。
我国无论从体制、文化、民族性上,都具有人员有效隔离的可行性。
但西方“自由主义”、个人主义盛行,再加上无系统的基层组织条件,所以进行隔离几乎是不可能的。
这里无关乎任何其他数据,只有类似于阴阳五行的推演。这里没有其他数据,但我们不能说这不是数据分析,至少不能说这不是分析。“数据分析”的主体词是“分析”,而非“数据”。
-End-