还在为收集来的数据不会处理而发愁吗?

新手1
新手1 这家伙很懒,还没有设置简介...

0 人点赞了该文章 · 71 浏览

还在为收集来的数据不会处理而发愁吗?

数据清洗是整合数据后所需要进行的数据预处理工作。在这一步,我们将脏数据清理为相对比较规整的数据,数据如果不清洗,那很可能后面的分析结果都没有意义了。

不同的数据,可能有不同的清洗方法,但无论是何种数据,在整个数据清洗过程中,总是有那么一些步骤和方法是通用的,例如缺失值分析和处理。

那有没有一种工具,可以完成数据清洗的这些通用流程,减少数据清洗的时间和简化繁琐的清洗流程呢?答案当然是有的,那就是SPSSPRO里的数据处理模块。

如果掌握了这一数据清洗神器,你就可以事半功倍。

问卷处理主要分为两步

无效问卷数据的剔除

有效问卷数据的替换

1、无效问卷处理

无效样本的常见使用场景

问卷研究中乱填问卷的样本;

数据库下载的数据中有大量缺失数据;

二手数据中包括无效或缺失数据;

其它收集数据中有无效样本时。

例如,在某项问卷调查中,查看数据发现,某个被调查者有多道题目未作答,问卷数据有缺失,无效样本如果不加处理会干扰分析结果,对数据结果产生严重影响。

1.1 缺失数据处理

1)如果问卷漏答数过多,一般以总题数的60%为准,例如有10题问项却漏答6题以上者,这是我们就要考虑把这份问卷剔除。

2)整份问卷所勾选的选项皆为同一个,例如通通勾选1。

具体参数可自行设置

1.2 重复数据处理

一人重复填两份以上的问卷,则该人填第二份之后的问卷皆视为无效。

2、有效问卷处理

在剔除了无效数据之后,剩余的数据难道就没有问题了么,其实不然,留下的有效数据中也可能会存在部分异常值,我们需要对其进行替换。

2.11 自动识别

我们可以使用软件自带的识别异常值(MAD、IQR、3slgma)的方法,将识别后的异常值替换成相应的数值(平均值、中位数等)

MAD异常值识别

IQR异常值识别

3slgma异常值识别

2.12 自定义识别

也可以使用自定义识别的方法。首先,要给定异常值判断标准,如数字缺失、数字范围、数据波动范围等,接着我们可以将识别到的数据置换为空值或者替换成平均数、中位数等

数字为空:在选中变量范围内检查列数据出现缺失的情况(如图)

数字 ≤、数字 ≥:在选中变量范围内检查列数据是否出现小于或大于某个常数的情况(示例:数字< 80)

平均值 ±n 倍标准差:默认均值 ±3 倍标准差;均值±1倍标准差可确保68.27%的数据符合期望;均值±2倍标准差可确保95.45%的数据符合期望;均值±3倍标准差可确保99.73%的数据符合期望;

2.2 缺失值处理

我们可以把数据为空值、空格、none等字段的数据用统计量填充,具体操作如下

也可以采取规则填充(填充成固定值等)形式

3、问卷编码与转换

3.1 问卷编码

在问卷处理完之后,接着就是对问卷及答案进行编码。首先是对问卷进行编码,问卷编码很简单,只要注意一点:不要重复就可以了。

其次是答案编码,就是把问卷的答案加以量化成电脑可以接受的语言,如1、2、3、4、5等,一般而言,是根据问题的答案进行分类编码,答案分几类就有几种编码,通常是在问卷审核时把碰到的答案都记载下来进行归类然后再编码。

3.2 数据转换

后续的分析方法有对定量定类数据进行严格的限制,例如逻辑回归要求因变量Y为定类数据,这是我们就需要把定量数据转换成定类数据

但是注意定量转换成定类后的数据要及时增加标签

 

发布于 2023-01-15 14:15

免责声明:

本文由 新手1 原创或收集发布于 火鲤鱼 ,著作权归作者所有,如有侵权可联系本站删除。

火鲤鱼 © 2024 专注小微企业服务 冀ICP备09002609号-8