0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

图文详解NumPy看这一篇就够了

人工智能与大数据技术 来源:量子位 作者:量子位 2021-05-26 09:45 次阅读

NumPy是Python的最重要的扩展程序库之一,也是入门机器学习编程的必备工具。然而对初学者来说,NumPy的大量运算方法非常难记。

最近,国外有位程序员讲NumPy的基本运算以图解的方式写下来,让学习过程变得轻松有趣。在Reddit机器学习社区发布不到半天就收获了500+赞。

2735a9d0-bd42-11eb-9e57-12bb97331649.png

下面就让我们跟随他的教程一起来学习吧!

教程内容分为向量(一维数组)、矩阵(二维数组)、三维与更高维数组3个部分。

Numpy数组与Python列表

在介绍正式内容之前,先让我们先来了解一下Numpy数组与Python列表的区别。

乍一看,NumPy数组类似于Python列表。它们都可以用作容器,具有获取(getting)和设置(setting)元素以及插入和移除元素的功能。

两者有很多相似之处,以下是二者在运算时的一个示例:

27407360-bd42-11eb-9e57-12bb97331649.png

和Python列表相比,Numpy数组具有以下特点:

更紧凑,尤其是在一维以上的维度;向量化操作时比Python列表快,但在末尾添加元素比Python列表慢。

277045d6-bd42-11eb-9e57-12bb97331649.png

△在末尾添加元素时,Python列表复杂度为O(1),NumPy复杂度为O(N)

向量运算

向量初始化

创建NumPy数组的一种方法是从Python列表直接转换,数组元素的类型与列表元素类型相同。

277db022-bd42-11eb-9e57-12bb97331649.png

NumPy数组无法像Python列表那样加长,因为在数组末尾没有保留空间。

因此,常见的做法是定义一个Python列表,对它进行操作,然后再转换为NumPy数组,或者用np.zeros和np.empty初始化数组,预分配必要的空间:

2790d1a2-bd42-11eb-9e57-12bb97331649.png

有时我们需要创建一个空数组,大小和元素类型与现有数组相同:

279ce848-bd42-11eb-9e57-12bb97331649.png

实际上,所有用常量填充创建的数组的函数都有一个_like对应项,来创建相同类型的常数数组:

27b2249c-bd42-11eb-9e57-12bb97331649.png

在NumPy中,可以用arange或者linspace来初始化单调序列数组:

27dcb162-bd42-11eb-9e57-12bb97331649.png

如果需要类似[0., 1., 2.]的浮点数组,可以更改arange输出的类型:arange(3).astype(float)。

但是有更好的方法:arange函数对数据类型敏感,如果将整数作为参数,生成整数数组;如果输入浮点数(例如arange(3.)),则生成浮点数组。

但是arange在处理浮点数方面并不是特别擅长:

27edb0a2-bd42-11eb-9e57-12bb97331649.png

这是因为0.1对于我们来说是一个有限的十进制数,但对计算机而言却不是。在二进制下,0.1是一个无穷小数,必须在某处截断。

这就是为什么将小数部分加到步骤arange通常是一个不太好的方法:我们可能会遇到一个bug,导致数组的元素个数不是我们想要的数,这会降低代码的可读性和可维护性。

这时候,linspace会派上用场。它不受舍入错误的影响,并始终生成要求的元素数。

出于测试目的,通常需要生成随机数组,NumPy提供随机整数、均匀分布、正态分布等几种随机数形式:

280efa0a-bd42-11eb-9e57-12bb97331649.png

向量索引

一旦将数据存储在数组中,NumPy便会提供简单的方法将其取出:

28973a46-bd42-11eb-9e57-12bb97331649.png

上面展示了各式各样的索引,例如取出某个特定区间,从右往左索引、只取出奇数位等等。

但它们都是所谓的view,也就是不存储原始数据。并且如果原始数组在被索引后进行更改,则不会反映原始数组的改变。

这些索引方法允许分配修改原始数组的内容,因此需要特别注意:只有下面最后一种方法才是复制数组,如果用其他方法都可能破坏原始数据:

28a3adb2-bd42-11eb-9e57-12bb97331649.png

从NumPy数组中获取数据的另一种超级有用的方法是布尔索引,它允许使用各种逻辑运算符,来检索符合条件的元素:

28c6151e-bd42-11eb-9e57-12bb97331649.png

注意:Python中的三元比较3<=a<=5在NumPy数组中不起作用。

如上所述,布尔索引也会改写数组。它有两个常见的函数,分别是np.where和np.clip:

28d454b2-bd42-11eb-9e57-12bb97331649.png

向量运算

算术运算是NumPy速度最引入注目的地方之一。NumPy的向量运算符已达到C++级别,避免了Python的慢循环。

NumPy允许像普通数字一样操作整个数组(加减乘除、整除、幂):

28e6d5c4-bd42-11eb-9e57-12bb97331649.png

△和Python中一样,a//b表示div b(整除),x**n表示xⁿ

向量还可以与标量进行类似的运算,方法相同:

28f10eea-bd42-11eb-9e57-12bb97331649.png

大多数的数学函数都有NumPy对应项用于处理向量:

29015ca0-bd42-11eb-9e57-12bb97331649.png

向量的点积、叉积也有运算符:

290c8c42-bd42-11eb-9e57-12bb97331649.png

我们也可以进行三角函数、反三角函数、求斜边运算:

291a6808-bd42-11eb-9e57-12bb97331649.png

数组可以四舍五入为整数:

2926f00a-bd42-11eb-9e57-12bb97331649.png

△floor取下界;ceil取上界;round为四舍六入五取偶

NumPy还可以执行以下基本的统计运算(最大最小值、平均值、方差、标准差):

293106a8-bd42-11eb-9e57-12bb97331649.png

不过排序函数的功能比Python列表对应函数更少:

294fece4-bd42-11eb-9e57-12bb97331649.png

搜索向量中的元素

与Python列表相反,NumPy数组没有index方法。

2968fa86-bd42-11eb-9e57-12bb97331649.png

查找元素的一种方法是np.where(a==x)[0][0],它既不优雅也不快速,因为要查找的项需要从开头遍历数组的所有元素。

更快的方式是通过Numba中的next((i[0] for i, v in np.ndenumerate(a) if v==x), -1)来加速。

一旦对数组进行排序,情况就会变得更好:v = np.searchsorted(a, x); return v if a[v]==x else -1的复杂度为O(log N),确实非常快,但是首先需要O(N log N)的排序时间。

比较浮点数

函数np.allclose(a, b)用于比较具有给定公差的浮点数组:

29809434-bd42-11eb-9e57-12bb97331649.png

np.allclose假设所有的比较数字的等级是1个单位。例如在上图中,它就认为1e-9和2e-9相同,如果要进行更细致的比较,需要通过atol指定比较等级1:np.allclose(1e-9, 2e-9, atol=1e-17) == False。

math.isclose进行比较没有假设前提,而是基于用户给出的一个合理abs_tol值:math.isclose(0.1+0.2–0.3, abs_tol=1e-8) == True。

除此之外np.allclose在绝对和相对公差公式中还存在一些小问题,例如,对某些数存在allclose(a, b) != allclose(b, a)。这些问题已在math.isclose函数中得到解决。

矩阵运算

NumPy中曾经有一个专用的类matrix,但现在已弃用,因此下面将交替使用矩阵和2D数组两个词。

矩阵初始化语法与向量相似:

29b8fe96-bd42-11eb-9e57-12bb97331649.png

这里需要双括号,因为第二个位置参数是为dtype保留的。

随机矩阵的生成也类似于向量的生成:

29cd8f28-bd42-11eb-9e57-12bb97331649.png

二维索引语法比嵌套列表更方便:

2a5604e8-bd42-11eb-9e57-12bb97331649.png

和一维数组一样,上图的view表示,切片数组实际上并未进行任何复制。修改数组后,更改也将反映在切片中。

axis参数

在许多操作(例如求和)中,我们需要告诉NumPy是否要跨行或跨列进行操作。为了使用任意维数的通用表示法,NumPy引入了axis的概念:axis参数实际上是所讨论索引的数量:第一个索引是axis=0,第二个索引是axis=1,等等。

因此在二维数组中,如果axis=0是按列,那么axis=1就是按行。

2a662148-bd42-11eb-9e57-12bb97331649.png

矩阵运算

除了普通的运算符(如+,-,*,/,//和**)以元素方式计算外,还有一个@运算符可计算矩阵乘积:

2a71f1c6-bd42-11eb-9e57-12bb97331649.png

在第一部分中,我们已经看到向量乘积的运算,NumPy允许向量和矩阵之间,甚至两个向量之间进行元素的混合运算:

2aa00840-bd42-11eb-9e57-12bb97331649.png

行向量与列向量

从上面的示例可以看出,在二维数组中,行向量和列向量被不同地对待。

默认情况下,一维数组在二维操作中被视为行向量。因此,将矩阵乘以行向量时,可以使用(n,)或(1,n),结果将相同。

如果需要列向量,则有转置方法对其进行操作:

2b1a6d92-bd42-11eb-9e57-12bb97331649.png

能够从一维数组中生成二位数组列向量的两个操作是使用命令reshape重排和newaxis建立新索引:

2b27f516-bd42-11eb-9e57-12bb97331649.png

这里的-1参数表示reshape自动计算第二个维度上的数组长度,None在方括号中充当np.newaxis的快捷方式,该快捷方式在指定位置添加了一个空axis。

因此,NumPy中总共有三种类型的向量:一维数组,二维行向量和二维列向量。这是两者之间显式转换的示意图:

2b4fbfce-bd42-11eb-9e57-12bb97331649.png

根据规则,一维数组被隐式解释为二维行向量,因此通常不必在这两个数组之间进行转换,相应区域用灰色标出。

矩阵操作

连接矩阵有两个主要函数:

2b7e5afa-bd42-11eb-9e57-12bb97331649.png

这两个函数只堆叠矩阵或只堆叠向量时,都可以正常工作。但是当涉及一维数组与矩阵之间的混合堆叠时,vstack可以正常工作:hstack会出现尺寸不匹配错误。

因为如上所述,一维数组被解释为行向量,而不是列向量。解决方法是将其转换为列向量,或者使用column_stack自动执行:

2b957db6-bd42-11eb-9e57-12bb97331649.png

堆叠的逆向操作是分裂:

2bab5adc-bd42-11eb-9e57-12bb97331649.png

矩阵可以通过两种方式完成复制:tile类似于复制粘贴,repeat类似于分页打印。

2bb4e890-bd42-11eb-9e57-12bb97331649.png

特定的列和行可以用delete进行删除:

2be40256-bd42-11eb-9e57-12bb97331649.png

逆运算为插入:

2bf0f6b4-bd42-11eb-9e57-12bb97331649.png

append就像hstack一样,该函数无法自动转置一维数组,因此再次需要对向量进行转置或添加长度,或者使用column_stack代替:

2c339aa0-bd42-11eb-9e57-12bb97331649.png

实际上,如果我们需要做的就是向数组的边界添加常量值,那么pad函数就足够了:

2c547806-bd42-11eb-9e57-12bb97331649.png

Meshgrid

如果我们要创建以下矩阵:

2ca311b4-bd42-11eb-9e57-12bb97331649.png

两种方法都很慢,因为它们使用的是Python循环。在MATLAB处理这类问题的方法是创建一个meshgrid:

2cb49ca4-bd42-11eb-9e57-12bb97331649.png

该meshgrid函数接受任意一组索引,mgrid仅是切片,indices只能生成完整的索引范围。fromfunction如上所述,仅使用I和J参数一次调用提供的函数。

但是实际上,在NumPy中有一种更好的方法。无需在整个矩阵上耗费存储空间。仅存储大小正确的矢量就足够了,运算规则将处理其余的内容:

2cc5216e-bd42-11eb-9e57-12bb97331649.png

在没有indexing=’ij’参数的情况下,meshgrid将更改参数的顺序:J, I= np.meshgrid(j, i)—这是一种“ xy”模式,用于可视化3D图。

除了在二维或三维数组上初始化外,meshgrid还可以用于索引数组:

2cce13be-bd42-11eb-9e57-12bb97331649.png

矩阵统计

就像之前提到的统计函数一样,二维数组接受到axis参数后,会采取相应的统计运算:

2cfb890c-bd42-11eb-9e57-12bb97331649.png

二维及更高维度中,argmin和argmax函数返回最大最小值的索引:

2d2b13b6-bd42-11eb-9e57-12bb97331649.png

all和any两个函数也能使用axis参数:

2d3495da-bd42-11eb-9e57-12bb97331649.png

矩阵排序

尽管axis参数对上面列出的函数很有用,但对二维排序却没有帮助:

2d63e33a-bd42-11eb-9e57-12bb97331649.png

axis绝不是Python列表key参数的替代。不过NumPy具有多个函数,允许按列进行排序:

1、按第一列对数组排序:a[a[:,0].argsort()]

2daf1e9a-bd42-11eb-9e57-12bb97331649.png

argsort排序后,此处返回原始数组的索引数组。

此技巧可以重复,但是必须小心,以免下一个排序混淆前一个排序的结果:

a = a[a[:,2].argsort()]a = a[a[:,1].argsort(kind=’stable’)]a = a[a[:,0].argsort(kind=’stable’)]

2db92af2-bd42-11eb-9e57-12bb97331649.png

2、有一个辅助函数lexsort,该函数按上述方式对所有可用列进行排序,但始终按行执行,例如:

a[np.lexsort(np.flipud(a[2,5].T))]:先通过第2列排序,再通过第5列排序;

a[np.lexsort(np.flipud(a.T))]:按从左到右所有列依次进行排序。

2dc85518-bd42-11eb-9e57-12bb97331649.png

3、还有一个参数order,但是如果从普通(非结构化)数组开始,则既不快速也不容易使用。

4、因为这个特殊的操作方式更具可读性和它可能是一个更好的选择,这样做的pandas不易出错:

pd.DataFrame(a).sort_values(by=[2,5]).to_numpy():通过第2列再通过第5列进行排序。

pd.DataFrame(a).sort_values().to_numpy():通过从左向右所有列进行排序

高维数组运算

通过重排一维向量或转换嵌套的Python列表来创建3D数组时,索引的含义为(z,y,x)。

第一个索引是平面的编号,然后才是在该平面上的移动:

2dda916a-bd42-11eb-9e57-12bb97331649.png

这种索引顺序很方便,例如用于保留一堆灰度图像:这a[i]是引用第i个图像的快捷方式。

但是此索引顺序不是通用的。处理RGB图像时,通常使用(y,x,z)顺序:前两个是像素坐标,最后一个是颜色坐标(Matplotlib中是RGB ,OpenCV中是BGR ):

2df52cb4-bd42-11eb-9e57-12bb97331649.png

这样,可以方便地引用特定像素:a[i,j]给出像素的RGB元组(i,j)。

因此,创建特定几何形状的实际命令取决于正在处理的域的约定:

2e06032c-bd42-11eb-9e57-12bb97331649.png

显然,NumPy函数像hstack、vstack或dstack不知道这些约定。其中硬编码的索引顺序是(y,x,z),RGB图像顺序是:

2e39894a-bd42-11eb-9e57-12bb97331649.png

△RGB图像数组(为简便起见,上图仅2种颜色)

如果数据的布局不同,则使用concatenate命令堆叠图像,并在axis参数中提供显式索引数会更方便:

2e458b50-bd42-11eb-9e57-12bb97331649.png

如果不方便使用axis,可以将数组转换硬编码为hstack的形式:

2e5242aa-bd42-11eb-9e57-12bb97331649.png

这种转换没有实际的复制发生。它只是混合索引的顺序。

混合索引顺序的另一个操作是数组转置。检查它可能会让我们对三维数组更加熟悉。

根据我们决定的axis顺序,转置数组所有平面的实际命令将有所不同:对于通用数组,它交换索引1和2,对于RGB图像,它交换0和1:

2e5fddb6-bd42-11eb-9e57-12bb97331649.png

有趣的是,(和唯一的操作模式)默认的axes参数颠倒了索引顺序,这与上述两个索引顺序约定都不相符。

最后,还有一个函数,可以在处理多维数组时节省很多Python循环,并使代码更简洁,这就是爱因斯坦求和函数einsum:

2e759ef8-bd42-11eb-9e57-12bb97331649.png

它将沿重复索引的数组求和。

最后,若要掌握NumPy,可以前去GitHub上的项目——100道NumPy练习题,验证自己的学习成果。

原文链接:

https://medium.com/better-programming/numpy-illustrated-the-visual-guide-to-numpy-3b1d4976de1d

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编程
    +关注

    关注

    88

    文章

    3628

    浏览量

    93817
  • 机器学习
    +关注

    关注

    66

    文章

    8425

    浏览量

    132775
  • python
    +关注

    关注

    56

    文章

    4800

    浏览量

    84820

原文标题:卧槽!图解NumPy,这一篇就够了

文章出处:【微信号:TheBigData1024,微信公众号:人工智能与大数据技术】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    真空共晶炉怎么选?看这一就够了!

    在现代电子制造领域,真空共晶炉作为关键设备,其性能直接影响到焊接质量和生产效率。然而,面对市场上琳琅满目的产品,如何选购台既高效又可靠的真空共晶炉,却成为许多企业面临的难题。本文将从真空度、漏滤率、加热板材质及冷却方式等关键要素出发,为您揭示真空共晶炉选购的奥秘。
    的头像 发表于 12-04 12:48 863次阅读
    真空共晶炉怎么选?看<b class='flag-5'>这一</b><b class='flag-5'>篇</b>就够了!

    BTB扩展接口:LCD、Camera、UART、I2C等|详解

    今天我们来学习的是BTB扩展接口的LCD、Camera、UART、I2C详解,特别分享Air201硬件BTB扩展接口相关内容。
    的头像 发表于 11-30 09:39 360次阅读
    BTB扩展接口:LCD、Camera、UART、I2C等|<b class='flag-5'>详解</b><b class='flag-5'>篇</b>

    智慧公交是什么?文带你详解智慧公交的解决方案!

    智慧公交是什么?文带你详解智慧公交的解决方案!
    的头像 发表于 11-05 12:26 321次阅读
    智慧公交是什么?<b class='flag-5'>一</b>文带你<b class='flag-5'>详解</b>智慧公交的解决方案!

    芯片制造工艺流程.图文详解.文通

    :芯片制造工艺流程.图文详解.文通 文章出处:【微信公众号:半导体封装工程师之家】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 11-01 11:08 499次阅读

    用EEPROM存储遇到的技术问题,看这一就够了!

    用EEPROM存储遇到的技术问题,看这一就够了!
    的头像 发表于 09-05 15:54 1107次阅读

    【《大语言模型应用指南》阅读体验】+ 基础

    的内容,阅读虽慢,但在这一学习过程中也掌握了许多新知识,为后续章节的阅读打下基础,这是个快乐的学习过程。 基础从人工智能的起源讲起,提出了机器能否思考的疑问,引入了图灵机这一神奇的
    发表于 07-25 14:33

    PCBA加工打样流程详解,看这一就够了

    站式PCBA智造厂家今天为大家讲讲PCBA打样的具体流程是怎样的呢?PCBA打样流程解析。在当今电子产业中,越来越多的企业选择将产品交由专业的PCBA加工厂生产,而在批量生产之前,通常会进行
    的头像 发表于 07-25 09:23 418次阅读

    使用NumPy实现前馈神经网络

    要使用NumPy实现个前馈神经网络(Feedforward Neural Network),我们需要从基础开始构建,包括初始化网络参数、定义激活函数及其导数、实现前向传播、计算损失函数、以及实现
    的头像 发表于 07-11 16:30 1669次阅读

    LED的调光方式,看这一文章就够了(下)

    上篇文章我们介绍了可控硅调光和0/1-10V调光  ,这次我们来说说DALI和DMX调光。并解决调光经常遇到的痛点问题。 、DALI(数字可寻址照明接口) DALI是专用的照明控制协议,DALI
    的头像 发表于 05-06 10:28 1568次阅读
    LED的调光方式,看<b class='flag-5'>这一</b><b class='flag-5'>篇</b>文章就够了(下)

    LED的调光方式,看这一文章就够了(上)

    在国家政策大力引导及LED照明产品迅速迭代下,LED对传统灯源的替代不断提升。根据国家半导体照明工程研发及产业联盟的数据,我国2012年LED照明产品渗透率仅为3.3%,至2022年我国LED照明产品渗透率达到80%。    LED智能照明应用分类  调光方式 分类 应用场景 机会型号 可控硅 调光 欧洲家用照明 526X 0-10V 调光调色 美洲家用照明 526X/522X DALI/DT6 调光 工业照明、商业照明 522X,5401/02,OC5864 DALI/DT8 调光调色 Zigbee 调光调色 智能家居 526X/522X, OC5864 蓝牙 调光调色
    的头像 发表于 05-05 17:45 1709次阅读
    LED的调光方式,看<b class='flag-5'>这一</b><b class='flag-5'>篇</b>文章就够了(上)

    python 学习:在内网中 python库-numpy 安装方法,升级pip3版本的指令

    指令格式如下:先下载numpy库到C盘具体位置 手动安装指令如下: pip install c:\\\\users\\\\sesa738142
    发表于 04-22 17:18

    关于低空经济和eVTOL,看这一就够啦!

    真的要全面爆发了吗?它会对我们的生活造成什么影响呢?今天这篇文章,小枣君将通过问答的形式,来帮助大家建立个关于低空经济的基本认知。█到底什么是低空经济?低空经济
    的头像 发表于 04-15 08:05 266次阅读
    关于低空经济和eVTOL,看<b class='flag-5'>这一</b><b class='flag-5'>篇</b>就够啦!

    玩转语音合成芯片(TTS芯片),看这一就够了

    什么是语音合成芯片:语音合成芯片也称为TTS芯片,即文字转语音芯片,是种能够将输入的文字信息转换为语音输出的芯片。通过TTS芯片,我们可以将文字信息转化为自然语音,实现人机语音交互。
    的头像 发表于 03-19 18:13 1455次阅读
    玩转语音合成芯片(TTS芯片),看<b class='flag-5'>这一</b><b class='flag-5'>篇</b>就够了

    构建系统思维:信号完整性,看这一就够了!

    的影响至关重要。 华秋DFM可制造性检查软件,正是为解决这一问题而设计的。他 全面检查设计文件,评估其实际生产中的制成能力 ,它 精准评估叠层计算阻抗 ,确保信号完整性。工程师借此软件在设计初期即识别并
    发表于 03-05 17:16

    基于NumPy的机器学习算法实现

    David Bourgin 表示他直在慢慢写或收集不同模型与模块的纯 NumPy 实现,它们跑起来可能没那么快,但是模型的具体过程定足够直观。每当我们想了解模型 API 背后的实现,却又不想看复杂的框架代码,那么它可以作为快
    发表于 01-17 12:36 210次阅读
    基于<b class='flag-5'>NumPy</b>的机器学习算法实现