常用数据分析工具优劣势对比
1、数据分析工具比较
数据分析软件是数据分析师的利器,就相当于厨师手中的菜刀,数据分析师掌握一些数据分析工具能够极大提升工作效率,毕竟我们是与数据打交道,难免会处理各种各样的数据。学习数据分析软件应该带着目标去学习,比如基于解决某个数据问题,这样会让自己学习速度很快,但有个缺点是,这样学习出来的技能可能不是体系化的。我个人也不是很喜欢照着一本教科书按部就班的学习,这样往往学习很慢,而且会学一些后续可能没有太多用的东西,同时,没有跟实践结合的学习也难以深刻,学习效率会很低。
对于学习数据分析软件,我的建议是,先了解数据分析软件最基本语法,然后针对具体问题和场景学习,最后再去找权威教程系统性的学习,这样会让学习效率很高,特别是你熟悉了一种数据分析软件之后,再去学习其它数据分析软件时,效率会很高。
现在主要的数据分析软件有:SAS、Python、R、IBM Modeler、SPSS、Excel、SQL(严格来说不是分析软件,但是特别常用,所以列出)等,数据分析工具多种多样,数据分析师只要能够深入掌握一样工具就行,基本就能处理绝大多数的数据分析需求,没有必要求多求全,当然每一样工具有其优势,也有其劣势。
2、数据分析工具功能
总的来说,数据分析工具主要是用来做三方面的事情:数据预处理、数据可视化、数据建模。只要掌握这三项技能,基本就能从技术上处理所有的数据分析问题,当然数据分析最重要的还是对业务的理解以及与业务部门、高层的良好沟通。
2.1、数据预处理
数据预处理主要是对原始数据进行各种基本处理和统计,包括数据导入、探索性分析、缺失值处理、数据准确性验证、统计分析等,以便后续进行深入的分析,数据分析在这个阶段主要做以下几方面的事情:
1.1、导入、导出数据集,包括各种格式,如txt、xls、csv等;
1.2、变量操作,包括变量命名、改名、生成新的变量、改变变量顺序、改变变量类型等;
1.3、排序和去重,对数据集按照指定变量排序,去掉数据集中的重复记录;
1.4、条件筛选,按条件筛选相应内容,保留符合条件的记录或变量;
1.5、汇总统计,包括各种统计量,如求和、平均、方差、分位数、最大最小值、计数等,包括分组汇总;
1.6、多表关联,包括左右关联、求合集、求并集、求交集等;
1.7、分组统计,按照某个字段分组进行统计;
1.8、填充缺失值、处理异常值等;
1.9、爬虫,从网络上爬取数据,并整理成结构化数据。
2.2、数据可视化
数据可视化主要是以图表的方式将数据结果呈现出来,使结果更加生动易懂、突出要旨,俗话说,字不如表,表不如图,就是说的这个道理。可视化图表主要分为以下几类:
2.1、趋势类,主要用于反映事物变化趋势,包括柱形图、折线图、面积图等;
2.2、对比类,主要用户探索不同群体间的差异,包括双柱形图、双折线图、雷达图等;
2.3、构成类,主要反映事物的结构,包括饼图、树状图、旭日图等;
2.4、分布类,主要反映事物的分布状体,包括散点图、气泡图、热力图、地图、词云等;
2.3、数据建模
数据建模就是通过算法来识别事物间存在的潜在规律,有些事物间的潜在规律是肉眼识别不了的,需要相应的算法来识别,能够预测事物发展趋势和用户行为。主要模型包括以下几类:
3.1、分类模型,包括逻辑回归、决策树、贝叶斯、支持向量机(SVM)、KNN、随机森林、神经网络等算法,主要用来分类,支持精确营销,是使用最广泛的算法模型;
3.2、指标预测,包括线性回归、指数平滑、移动平均等算法,主要用来预测未来发展趋势,提前做好预判;
3.3、关联模型,包括Apriori、FP-growth等算法,主要用来进行关联推荐;
3.4、推荐系统,包括协同过滤等算法,主要用来进行个性化推荐;
3.5、文本挖掘,包括词频、语义情感分析等,主要是分词技术,主要用于进行舆情分析、处理用户反馈、收集用户意见等;
3.6、深度学习,现在深度学习使用很广泛,它是一种深度神经网络,主要用于图片识别、人脸识别、语音识别、视频识别、自动驾驶等领域。
3、常用数据分析工具
在我的实际工作中,主要用到的数据分析工具有:Excel、SAS、Python。
3.1、Excel
相信Excel是大家最熟悉也是使用得最多的数据分析工具,它有较好制表、画图能力,还能够利用函数和数据透视表进行一些数据处理,但是高级数据分析功能基本没有,数据超过10万行处理起来就已经很吃力了,但是精通了Excel,还是能够做出很多牛逼的东西(会VBA)。
3.2、SAS
SAS是我使用的最多的数据分析工具,SAS公司也是世界上最大的商业化数据分析公司。SAS拥有自己的语言,需要编程,数据预处理、建模、数据可视化都不在话下,强大的单机处理能力,我曾在自己的笔记本上处理过30亿行的数据(但是也很慢,基本一晚上,不过其它软件基本都卡死)。SAS的缺点主要是安装包太大(十几G,还容易安装失败),基本都是盗版的(正版上百万),操作界面特别丑。
3.3、Python
Python是我最近一年开始使用的数据分析工具,开源语言就是好,各种第三方包,各种最新算法,功能很强大。用Python做爬虫和文本处理特别方便,画图能力也很强。现在业界很多数据挖掘工作都是基于Python进行,安装最新的Syder,里面集成了很多常用的第三方包,可以直接使用。
3.4、其它数据分析工具
专业数据分析工具:R、IBM modeler、SPSS、Eviews
数据分析语言:SQL、Scala
文本编辑器:Everedit、ultraedit