登录

0

数据分析能力养成指南21：Python分析之numpy和pandas入门

: 1988321 这家伙很懒，还没有设置简介...

0 人点赞了该文章 · 138 浏览

数据分析能力养成指南21：Python分析之numpy和pandas入门

创建数组使用numpy中的array函数，新手要记住加np。我们将系统自带的列表list转换成了numpy中的数组。

嵌套列表会被转换为一个多维数组，它也可以被称为矩阵。

array数组需要注意的是，它内部的元素必须为相同类型，比如数值或者字符串。可以用dtype查询其类型，不用加括号。

numpy的数据类型比较丰富，包括int8，int16，int32等，不过这块更接近计算机底层，数据分析用不太到。当我们想转换数据格式时，可以用astype函数。

数组的计算非常方便，不要大量的循环即可批量运算。

数组索引和列表相同，通过方括号和数字即可选择，也可直接赋值。

可以通过递归对多维数组进行筛选，如果省略了后面的索引，则返回次一级的维度，这一点和list一样。

numpy除了上述的基础操作之外，还有reshape、T转置、ufunc、sort等函数，功能强大，大家可以自行查阅文档学习，这里我不再花费时间讲解。对于数据分析师，pandas是一个更常用的包，在抽象概念上它更接近我们熟悉的excel和sql，也是最主要的分析工具。

pandas有两个主要的数据结构，Series和DataFrame，记住大小写区分，后续使用中不多提醒。Series类似于一维数组，和numpy的array接近，由一组数据和数据标签组成。数据标签有索引的作用。

加载pandas包，通过Series函数生成一个对象。我们很明显地看到，在jupyter上它的样式不同于array，它是竖着的。右边是我们输入的一组数据，左边是数据的索引，即标签。数据标签是pandas区分于numpy的重要特征。

索引不一定是从0开始的数字，它可以被定义。

索引的概念有点像SQL的主键，不过它的功能更强大，分析师能够很轻松的通过索引选取一个数据或者一组数据。

index函数可以显示Series的索引。Series和array一样，通过方括号选取数据，当要选取多个数据时，应该用列表表示多个索引，所以第三个案例嵌套了两层方括号。

如果数据是一个字典，也能直接通过这个字典创建Series。

此时，字典的key就是Series的索引。

Series有自动对齐索引的功能，当自定义的索引qinqin和字典队员不上时，会自动选择NaN，即结果为空，表示缺失。缺失值的处理会在后续讲解。

DataFrame

Series是一维的数据结构，DataFrame是一个表格型的数据结构，它含有不同的列，每列都是不同的数据类型。我们可以把DataFrame看作Series组成的字典，它既有行索引也有列索引。想象得更明白一点，它类似一张excel表格或者SQL，只是功能更强大。

构建DataFrame的方法有很多，最常用的是传入一个字典。

DataFrame会自动补充索引，并且将字典的key作为列标签，即column。在这里，dict的key顺序是DataFame的顺序，不再是无序的。

DataFrame中可以通过info函数直接查看数据类型和统计。

DataFrame的数据类型变更和numpy一样，用astype就行，记住要赋值。df.age = df.age.astype，图上只是举例，没有真的更改数据类型。

DataFrame的索引方式和Series一直，它选取的是列。

返回的是一组Series，索引和原DataFrame一致。除了方括号选取，DataFrame还有更简单的选取方法。

行也可以通过通过位置获取，用索引字段ix的方式。

第二个方法不需要调用ix，直接以切片的形式获取行，切片的用啊和数组一样。记住，切片无法用单独的数字选取，只能用冒号切选范围。

列可以通过赋值的方式修改和添加，当列的名称是全新，则会在DataFrame的最右边自动加上新的一列。

列表和数组都可以赋值到列，长度必须匹配，列表是按照顺序，数组的话，可以按index参数设置的索引对应，若为空，则填上缺失值。

DataFrame的index不可更改，这是为了数据的安全性，但我们能通过index函数获取详情。

DataFrame在数据选取上面非常强大。

它支持常用的逻辑判断，例子中，后两种数据选取是通过布尔数组过滤出我们想要的结果。

df.sex == ‘男’返回了一个布尔数组(记住，是两个等号，一个等号是赋值），然后通过布尔数组找出df中符合条件为true的结果。

现在我们希望找出年龄在20以下，且性别为男的人。

这里用到布尔类型数据的计算公式，true and true 为true，false and true 为false。pandas中的逻辑符号，并且是&，或者是|。接下来过滤出性别为女，或者年龄为18的人。

当逻辑条件复杂时，这种写法并不优雅，比如性别为男，且年龄在18岁，以及性别为女，且年龄在18岁以上的两类人群，这种过滤条件就比较复杂了。pandas中可以用query函数以类SQL语言执行查询。

query中可以直接使用列名，它的功能远不至于此，大家有兴趣可以深入学习。

DataFrame可以直接在列上进行运算，当DataFrame和DataFrame之间运算时，按索引进行加减乘除。

如果直接用加法，若列名匹配不上，会产生NaN 的缺失值，我们可以在后续后续fillna函数填充。另外一种方法是add函数，它可以直接通过参数选择填充值。减乘除对应sub、mul、div。

DataFrame还有两个常用函数，又特别容易搞混的是，iloc和loc。

它们都是通过索引选取行，iloc是通过所在行的数字为索引，loc是所在行的标签为索引，简单讲，iloc是第几行，loc是标签。当索引没有标签时，loc和iloc等价。两者支持冒号的范围选择。

上文提到的过的ix，则是两者的混合，即可以行号，也可以行索引。

当行和列需要同时选择的时候，用逗号分割，逗号前是想要选择的行，逗号后是想要选择的列。

完整形式是ix[ 行1:行2, 列1:列2 ]，iloc和loc也支持行列同时选择，方法一样。新人接触这几块比较容易混淆。后续联系即可掌握。

大家如果想加深掌握这块，除了敲一遍代码，可以阅读「利用Python进行数据分析」，很经典的入门书（部分内容有点老）。也可以多拿工作中的报表做练习。

到这里，numpy和pandas的基础就讲解的差不多了，更深入的应用，还是用实战解决吧！下一章，将会用大家已经很熟悉的练习数据，以实际操作的方式完成一次数据分析。

相关阅读

一份七周的互联网数据分析能力养成提纲

数据分析能力养成指南01：Excel函数应用汇总

数据分析能力养成指南02：Excel技巧大揭秘

数据分析能力养成指南03：手把手教你Excel实战

数据分析能力养成指南：Excel技巧之甘特图绘制（项目管理）

数据分析能力养成指南：Excel技巧之打造多级菜单

数据分析能力养成指南04：数据可视化之经典图表合集

数据分析能力养成指南05：数据可视化之打造升职加薪的报表

数据分析能力养成指南06：数据可视化之手把手打造BI

数据分析能力养成指南07：快速掌握麦肯锡的分析思维

数据分析能力养成指南08：如何建立数据分析的思维框架？

数据分析能力养成指南09：写给新人的数据库指南

数据分析能力养成指南10：SQL，从入门到熟练

数据分析能力养成指南11：SQL，从熟练到掌握

数据分析能力养成指南12：解锁数据分析的正确姿势（上）

数据分析能力养成指南13：解锁数据分析的正确姿势（下）

数据分析能力养成指南14：概率论的入门指南

数据分析能力养成指南15：读了本文，你就懂了概率分布

数据分析能力养成指南16：数据分析必须懂的假设检验

数据分析能力养成指南17：全面的数据指标分析框架

数据分析能力养成指南18：Python的新手教程

数据分析能力养成指南19：Python的数据结构

数据分析能力养成指南20：了解和掌握Python的函数

本文由 @秦路原创发布。未经许可，禁止转载。

发布于 2023-03-29 01:13

赞同

免责声明:

本文由 1988321 原创或收集发布于火鲤鱼，著作权归作者所有，如有侵权可联系本站删除。

推荐内容

文音乐年度报告刷屏背后是什么？: 357 浏览 0 评论

文短视频产业链优质人脉资源共享链接！: 344 浏览 0 评论

文抖音访客打开后之前的能看到吗抖音访客打开又关闭对方能看到吗: 543 浏览 0 评论

文抖音短视频运营教程：教你怎么5天涨粉40.1万粉丝全套方案！: 317 浏览 0 评论

文怎么拍好抖音短视频！: 354 浏览 0 评论

文新手必看的6条抖音养号技巧！: 330 浏览 0 评论

文蹭对平台热点，你也能打造一个点赞30W+的爆款短视频！: 345 浏览 0 评论

文抖音养号：新手必看的7条抖音养号技巧！: 326 浏览 0 评论

文短视频带货2天暴涨73000单，到底是什么神奇商品突然卖火了？: 325 浏览 0 评论

火鲤鱼 © 2026 专注小微企业服务冀ICP备09002609号-8