还在为收集来的数据不会处理而发愁吗?
数据清洗是整合数据后所需要进行的数据预处理工作。在这一步,我们将脏数据清理为相对比较规整的数据,数据如果不清洗,那很可能后面的分析结果都没有意义了。
不同的数据,可能有不同的清洗方法,但无论是何种数据,在整个数据清洗过程中,总是有那么一些步骤和方法是通用的,例如缺失值分析和处理。
那有没有一种工具,可以完成数据清洗的这些通用流程,减少数据清洗的时间和简化繁琐的清洗流程呢?答案当然是有的,那就是SPSSPRO里的数据处理模块。
如果掌握了这一数据清洗神器,你就可以事半功倍。
问卷处理主要分为两步
无效问卷数据的剔除
有效问卷数据的替换
1、无效问卷处理
无效样本的常见使用场景
问卷研究中乱填问卷的样本;
数据库下载的数据中有大量缺失数据;
二手数据中包括无效或缺失数据;
其它收集数据中有无效样本时。
例如,在某项问卷调查中,查看数据发现,某个被调查者有多道题目未作答,问卷数据有缺失,无效样本如果不加处理会干扰分析结果,对数据结果产生严重影响。
1.1 缺失数据处理
1)如果问卷漏答数过多,一般以总题数的60%为准,例如有10题问项却漏答6题以上者,这是我们就要考虑把这份问卷剔除。
2)整份问卷所勾选的选项皆为同一个,例如通通勾选1。
具体参数可自行设置
1.2 重复数据处理
一人重复填两份以上的问卷,则该人填第二份之后的问卷皆视为无效。
2、有效问卷处理
在剔除了无效数据之后,剩余的数据难道就没有问题了么,其实不然,留下的有效数据中也可能会存在部分异常值,我们需要对其进行替换。
2.11 自动识别
我们可以使用软件自带的识别异常值(MAD、IQR、3slgma)的方法,将识别后的异常值替换成相应的数值(平均值、中位数等)
MAD异常值识别
IQR异常值识别
3slgma异常值识别
2.12 自定义识别
也可以使用自定义识别的方法。首先,要给定异常值判断标准,如数字缺失、数字范围、数据波动范围等,接着我们可以将识别到的数据置换为空值或者替换成平均数、中位数等
数字为空:在选中变量范围内检查列数据出现缺失的情况(如图)
数字 ≤、数字 ≥:在选中变量范围内检查列数据是否出现小于或大于某个常数的情况(示例:数字< 80)
平均值 ±n 倍标准差:默认均值 ±3 倍标准差;均值±1倍标准差可确保68.27%的数据符合期望;均值±2倍标准差可确保95.45%的数据符合期望;均值±3倍标准差可确保99.73%的数据符合期望;
2.2 缺失值处理
我们可以把数据为空值、空格、none等字段的数据用统计量填充,具体操作如下
也可以采取规则填充(填充成固定值等)形式
3、问卷编码与转换
3.1 问卷编码
在问卷处理完之后,接着就是对问卷及答案进行编码。首先是对问卷进行编码,问卷编码很简单,只要注意一点:不要重复就可以了。
其次是答案编码,就是把问卷的答案加以量化成电脑可以接受的语言,如1、2、3、4、5等,一般而言,是根据问题的答案进行分类编码,答案分几类就有几种编码,通常是在问卷审核时把碰到的答案都记载下来进行归类然后再编码。
3.2 数据转换
后续的分析方法有对定量定类数据进行严格的限制,例如逻辑回归要求因变量Y为定类数据,这是我们就需要把定量数据转换成定类数据
但是注意定量转换成定类后的数据要及时增加标签