数据加工(数据分析(中篇):数据加工)
数据分析(中篇):数据加工
《信息快餐时代,你一定要对数字保持敏感》(点击阅读)。数据,让科学取代感觉,让逻辑替代经验。
数据分析,首先基于数据收集,然后进行数据处理,最后才能进行数据分析。
数据处理包括数据清洗和数据加工。
数据收集方法包括市场调研、资料查阅等,不在本系列内容范围内。
本系列内容为大家分次介绍上篇数据清洗、中篇数据加工和下篇数据分析。
其中,数据清洗,前期已在公众号“供应链重构”《数据分析(上篇):数据清洗》(点击阅读)中阐述,本文接着阐述数据加工。
经过数据收集、数据清洗后,我们基本上得到了可以加工的数据。数据加工我们首先要基于我们需要分析的内容进行定向加工。比如,我们在公众号“供应链重构”《如何培养自己的品类专业性》(点击阅读)中提到的:
(一)要了解行业供给数据(产能、产量),需求数据,周期性变动情况及影响因素(查行业数据、问供应商);
(二)要了解行业的全球供需结构,以及进出口数据,了解对外依存度,了解国际因素对国内价格的影响(查行业数据、海关数据);
(三)要熟悉行业主要(头部)供应商的背景、市场占有率和质量情况(查行业数据、向A供应商打听B供应商);
(四)要了解行业主要(头部)供应商近几年的市场增长率、主流市场评价,以及是否出现重大的正负面新闻(查行业数据、问供应商)。
那么,关于(一),我们就要将零散的生产厂家的家数、设备数、开工率等数据,再考虑他们的市场占有率,推算全行业的供给数据。
数据加工,可以简单到用EXCEL表求和、平均值、标准差、方差、同比/环比的变动率等,但如果说得“学术”一点,数据加工按工作步骤,可以分为,数据抽取、数据转换和数据计算。
数据抽取指对数据库中现有字段进行整合加工,这样就能够形成分析需要的数据。它又分为字段拆分、字段合并和字段匹配。
数据转换指将数据转换成规范、清晰、又易于分析的结构。它又分为结构转换、行列转换和逻辑转换。
数据计算指对数据根据需要进行加工,以便得到直观的、可供分析的决策数据。它又分为运算计算(加减乘除等)、分析计算(按时间序列的推算)和逻辑计算(基于逻辑上的推算)。
如果本文就这么结尾了,估计很多读者要骂我了,一堆绉绉的空洞玩意儿。这当然不是“供应链重构”的初衷,我们始终基于实践并深度思考,然后输出让大家可落地、实用又科学的方法论。并且永远公益,让新手快入场,让高阶更高阶。
因此,我们以要得出“福建省建筑模板原料供需平衡表”为例,通过数据收集、清洗和加工,得出下表,以此介绍数据加工。
假设我们要了解福建省建筑模板原料单板的供需情况。那我们首先要了解,单板上游的原木供给、刨板厂的产能和产量、建筑模板的产能和产量。
这些数据,是直接查不到的,这时候就要通过收集到的数据进行数据转换和数据计算。
比如,2021-2025年松林改造共计1000万亩,其中2022年200万亩。改造又分为三种措施,皆伐、带伐和择伐有一个指标比例,分别为24%、36%和40%。又了解到,每亩松木皆伐的出材方数为6方。又了解到,政府文件对皆伐、带伐和择伐有明确量化的规定:
皆伐改造提升在坡度小于30度时,集中连片的采伐面积要求不超过20公顷,坡度大于30度小于35度的,集中连片的采伐面积要求不超过5公顷,发病小班不受面积限制,鼓励采伐时保留原林分中的阔叶树。带状采伐改造提升要求采伐带宽度不大于20米,保留带宽度应大于采伐带宽度,采伐带内的阔叶树尽量保留,人工生态林(三级保护)更新性采伐可采用小块状,集中连片面积不超过45亩。天然商品林、天然生态林(三级保护)采伐带的面积累计不超过40%,采伐木蓄积量不超过林木总蓄积量的40%。择(间)伐抚育改造提升适用松类树种占2成以上的林分,要求伐后保留木不少于30株/亩,伐后郁闭度要大于0.3,伐后松树平均胸径不小于伐前胸径。
那么我们就可以推算出2022年福建省的松材供给:
2022年全省择(间)伐抚育改造提升16万方;
2022年全省带状采伐改造提升172.8万方;
2022年全省皆伐改造提升288万方。
合计476.8万方。
由于篇幅关系,表中其他数据加工过程从略(本文数据已经脱敏处理,仅为介绍数据加工方法之用,本公众号不对数据准确性负责。据此投资,风险自负)。如感兴趣,可后台留言交流。
供应链重构点我关注,和2万读者一起精进职场。供应链重构,商业新知·采购十佳创作者,360图书馆职场领域优质作者,持续输出供应链实践方法和创新理论。128篇原创内容
公众号
声明:本文首次发布于微信公众号“供应链重构”。近期在多个平台发现部分自媒体抄袭本公众号文章的侵权行为,现重申:公众号如需转载本公众号文章,必须先申请获得授权;其他平台转载,必须在文首注明:本文来源于微信公众号“供应链重构”。否则追究侵权责任。