如何在PyTorch中使用交叉熵损失函数-电子发烧友网

1. 指定GPU编号

设置当前使用的GPU设备仅为0号设备，设备名称为/gpu:0：

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

设置当前使用的GPU设备为0, 1号两个设备，名称依次为/gpu:0、/gpu:1：
os.environ["CUDA_VISIBLE_DEVICES"] = "0,1"，根据顺序表示优先使用0号设备,然后使用1号设备。

指定GPU的命令需要放在和神经网络相关的一系列操作的前面。

2. 查看模型每层输出详情

Keras有一个简洁的API来查看模型的每一层输出尺寸，这在调试网络时非常有用。现在在PyTorch中也可以实现这个功能。

使用很简单，如下用法：

from torchsummary import summarysummary(your_model, input_size=(channels, H, W))

input_size是根据你自己的网络模型的输入尺寸进行设置。

https://github.com/sksq96/pytorch-summary

3. 梯度裁剪（Gradient Clipping）

import torch.nn as nn
outputs = model(data)loss= loss_fn(outputs, target)optimizer.zero_grad()loss.backward()nn.utils.clip_grad_norm_(model.parameters(), max_norm=20, norm_type=2)optimizer.step()

nn.utils.clip_grad_norm_的参数：

parameters– 一个基于变量的迭代器，会进行梯度归一化

max_norm– 梯度的最大范数

norm_type– 规定范数的类型，默认为L2

提出：梯度裁剪在某些任务上会额外消耗大量的计算时间。

4. 扩展单张图片维度

因为在训练时的数据维度一般都是 (batch_size, c, h, w)，而在测试时只输入一张图片，所以需要扩展维度，扩展维度有多个方法：

import cv2import torch
image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())
img = image.view(1, *image.size())print(img.size())
# output:# torch.Size([h, w, c])# torch.Size([1, h, w, c])

或

import cv2import numpy as np
image = cv2.imread(img_path)print(image.shape)img = image[np.newaxis, :, :, :]print(img.shape)
# output:# (h, w, c)# (1, h, w, c)

或

import cv2import torch
image = cv2.imread(img_path)image = torch.tensor(image)print(image.size())
img = image.unsqueeze(dim=0)  print(img.size())
img = img.squeeze(dim=0)print(img.size())
# output:# torch.Size([(h, w, c)])# torch.Size([1, h, w, c])# torch.Size([h, w, c])

tensor.unsqueeze(dim)：扩展维度，dim指定扩展哪个维度。

tensor.squeeze(dim)：去除dim指定的且size为1的维度，维度大于1时，squeeze()不起作用，不指定dim时，去除所有size为1的维度。

5. 独热编码

在PyTorch中使用交叉熵损失函数的时候会自动把label转化成onehot，所以不用手动转化，而使用MSE需要手动转化成onehot编码。

import torchclass_num = 8batch_size = 4
def one_hot(label):    """    将一维列表转换为独热编码    """    label = label.resize_(batch_size, 1)    m_zeros = torch.zeros(batch_size, class_num)    # 从 value 中取值，然后根据 dim 和 index 给相应位置赋值    onehot = m_zeros.scatter_(1, label, 1)  # (dim,index,value)
    return onehot.numpy()  # Tensor -> Numpy
label = torch.LongTensor(batch_size).random_() % class_num  # 对随机数取余print(one_hot(label))
# output:[[0. 0. 0. 1. 0. 0. 0. 0.] [0. 0. 0. 0. 1. 0. 0. 0.] [0. 0. 1. 0. 0. 0. 0. 0.] [0. 1. 0. 0. 0. 0. 0. 0.]]

https://discuss.pytorch.org/t/convert-int-into-one-hot-format/507/3

6. 防止验证模型时爆显存

验证模型时不需要求导，即不需要梯度计算，关闭autograd，可以提高速度，节约内存。如果不关闭可能会爆显存。

with torch.no_grad():    # 使用model进行预测的代码pass

感谢知乎用户 @zhaz 的提醒，我把torch.cuda.empty_cache()的使用原因更新一下。

这是原回答：

Pytorch 训练时无用的临时变量可能会越来越多，导致 out of memory ，可以使用下面语句来清理这些不需要的变量。

官网上的解释为：

Releases all unoccupied cached memory currently held by the caching allocator so that those can be used in other GPU application and visible innvidia-smi.torch.cuda.empty_cache()

意思就是PyTorch的缓存分配器会事先分配一些固定的显存，即使实际上tensors并没有使用完这些显存，这些显存也不能被其他应用使用。这个分配过程由第一次CUDA内存访问触发的。

而torch.cuda.empty_cache()的作用就是释放缓存分配器当前持有的且未占用的缓存显存，以便这些显存可以被其他GPU应用程序中使用，并且通过nvidia-smi命令可见。注意使用此命令不会释放tensors占用的显存。

对于不用的数据变量，Pytorch 可以自动进行回收从而释放相应的显存。

更详细的优化可以查看：
优化显存使用：
https://blog.csdn.net/qq_28660035/article/details/80688427
显存利用问题：
https://oldpan.me/archives/pytorch-gpu-memory-usage-track

7. 学习率衰减

import torch.optim as optimfrom torch.optim import lr_scheduler
# 训练前的初始化optimizer = optim.Adam(net.parameters(), lr=0.001)scheduler = lr_scheduler.StepLR(optimizer, 10, 0.1)  # # 每过10个epoch，学习率乘以0.1
# 训练过程中for n in n_epoch:    scheduler.step()    ...

8. 冻结某些层的参数

参考：Pytorch 冻结预训练模型的某一层

https://www.zhihu.com/question/311095447/answer/589307812

在加载预训练模型的时候，我们有时想冻结前面几层，使其参数在训练过程中不发生变化。

我们需要先知道每一层的名字，通过如下代码打印：

net = Network()  # 获取自定义网络结构for name, value in net.named_parameters():    print('name: {0},	 grad: {1}'.format(name, value.requires_grad))

假设前几层信息如下：

name: cnn.VGG_16.convolution1_1.weight,   grad: Truename: cnn.VGG_16.convolution1_1.bias,   grad: Truename: cnn.VGG_16.convolution1_2.weight,   grad: Truename: cnn.VGG_16.convolution1_2.bias,   grad: Truename: cnn.VGG_16.convolution2_1.weight,   grad: Truename: cnn.VGG_16.convolution2_1.bias,   grad: Truename: cnn.VGG_16.convolution2_2.weight,   grad: Truename: cnn.VGG_16.convolution2_2.bias,   grad: True

后面的True表示该层的参数可训练，然后我们定义一个要冻结的层的列表：

no_grad = [    'cnn.VGG_16.convolution1_1.weight',    'cnn.VGG_16.convolution1_1.bias',    'cnn.VGG_16.convolution1_2.weight',    'cnn.VGG_16.convolution1_2.bias']

冻结方法如下：

net = Net.CTPN()  # 获取网络结构for name, value in net.named_parameters():    if name in no_grad:        value.requires_grad = False    else:        value.requires_grad = True

冻结后我们再打印每层的信息：

name: cnn.VGG_16.convolution1_1.weight,   grad: Falsename: cnn.VGG_16.convolution1_1.bias,   grad: Falsename: cnn.VGG_16.convolution1_2.weight,   grad: Falsename: cnn.VGG_16.convolution1_2.bias,   grad: Falsename: cnn.VGG_16.convolution2_1.weight,   grad: Truename: cnn.VGG_16.convolution2_1.bias,   grad: Truename: cnn.VGG_16.convolution2_2.weight,   grad: Truename: cnn.VGG_16.convolution2_2.bias,   grad: True

可以看到前两层的weight和bias的requires_grad都为False，表示它们不可训练。

最后在定义优化器时，只对requires_grad为True的层的参数进行更新。

optimizer = optim.Adam(filter(lambda p: p.requires_grad, net.parameters()), lr=0.01)

9. 对不同层使用不同学习率

我们对模型的不同层使用不同的学习率。

还是使用这个模型作为例子：

net = Network()  # 获取自定义网络结构for name, value in net.named_parameters():    print('name: {}'.format(name))
# 输出：# name: cnn.VGG_16.convolution1_1.weight# name: cnn.VGG_16.convolution1_1.bias# name: cnn.VGG_16.convolution1_2.weight# name: cnn.VGG_16.convolution1_2.bias# name: cnn.VGG_16.convolution2_1.weight# name: cnn.VGG_16.convolution2_1.bias# name: cnn.VGG_16.convolution2_2.weight# name: cnn.VGG_16.convolution2_2.bias

对 convolution1 和 convolution2 设置不同的学习率，首先将它们分开，即放到不同的列表里：

conv1_params = []conv2_params = []
for name, parms in net.named_parameters():    if "convolution1" in name:        conv1_params += [parms]    else:        conv2_params += [parms]
# 然后在优化器中进行如下操作：optimizer = optim.Adam(    [        {"params": conv1_params, 'lr': 0.01},        {"params": conv2_params, 'lr': 0.001},    ],    weight_decay=1e-3,)

我们将模型划分为两部分，存放到一个列表里，每部分就对应上面的一个字典，在字典里设置不同的学习率。当这两部分有相同的其他参数时，就将该参数放到列表外面作为全局参数，如上面的`weight_decay`。

也可以在列表外设置一个全局学习率，当各部分字典里设置了局部学习率时，就使用该学习率，否则就使用列表外的全局学习率。

审核编辑：彭静

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码

编码

+关注

关注
6

文章
940

浏览量
54809
函数

函数

+关注

关注
3

文章
4327

浏览量
62562
pytorch

pytorch

+关注

关注
2

文章
807

浏览量
13195

原文标题：PyTorch 常用 Tricks 总结

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

Pytorch模型训练实用PDF教程【中文】

对 PyTorch 提供的数据增强方法（22 个）、权值初始化方法（10 个）、损失函数（17 个）、优化器（6 个）及 tensorboardX 的方法（13 个）进行了详细介绍。本教程分为四章

发表于 12-21 09:18

什么是交叉熵？

2018-04-22 开胃学习数学系列 - 交叉熵

发表于 03-21 11:08

交叉熵的作用原理

交叉熵作为损失函数在神经网络中的作用和几种常用的交叉熵损失

发表于 06-03 09:10

如何在PSoC设计器、Syxx中使用“StastFF（）”函数？

正如主题名所说，如何在PSoC设计器、Syxx中使用“StastFF（）”函数！

发表于 08-16 10:52

TensorFlow损失函数（定义和使用）详解

的情况下，损失函数定义为交叉熵。输出 Y 的维数等于训练数据集中类别的数量，其中 P 为类别数量：如果想把 L1 正则化加到损失上，那么代码

发表于 07-28 14:38

如何在STM8单片机中使用printf函数功能？

如何在STM8单片机中使用printf函数功能？

发表于 12-01 07:19

神经网络在训练时常用的一些损失函数介绍

习的特定预测建模问题（例如分类或回归）有关。在本文中我们将介绍常用的一些损失函数，包括：回归模型的均方误差损失二元分类模型的交叉熵和hing

发表于 10-20 17:14

keras常用的损失函数Losses与评价函数Metrics介绍

函数如下，它们有自己适用的应用场景，最常用的是均方误差和交叉熵误差：编号可用损失函数alias说明1mean_squared_error(

发表于 08-18 06:31

机器学习和深度学习中分类与回归常用的几种损失函数

Loss、分位数损失 Quantile Loss、交叉熵损失函数 Cross Entropy Loss、Hinge

发表于 10-09 16:36 •6228次阅读

基于交叉熵损失函欻的深度自编码器诊断模型

对小类别样本的学习。尤其当故障样本数极少时，此问题更突岀。针对这饣问题，提岀一种基于改进交叉熵损失函欻的深度自编码器的诊断模型，首先提取振动数据的小波包能量，其次将小波包能量输入到深度自编码器中，最后通过SⅥa分类

发表于 06-18 16:49 •9次下载

在PyTorch中使用ReLU激活函数的例子

PyTorch已为我们实现了大多数常用的非线性激活函数，我们可以像使用任何其他的层那样使用它们。让我们快速看一个在PyTorch中使用ReLU激活函

发表于 07-06 15:27 •2532次阅读

如何在Vitis HLS GUI中使用库函数？

Vitis™ HLS 2023.1 支持新的 L1 库向导，本文将讲解如何下载 L1 库、查看所有可用功能以及如何在 Vitis HLS GUI 中使用库函数。

发表于 08-16 10:26 •1191次阅读

PyTorch中激活函数的全面概览

为了更清晰地学习Pytorch中的激活函数，并对比它们之间的不同，这里对最新版本的Pytorch中的激活函数进行了汇总，主要介绍激活函数的公

发表于 04-30 09:26 •541次阅读

如何在PyTorch中实现LeNet-5网络

等人提出，主要用于手写数字识别任务（如MNIST数据集）。下面，我将详细阐述如何在PyTorch中从头开始实现LeNet-5网络，包括网络架构设计、参数初始化、前向传播、损失函数选择、

发表于 07-11 10:58 •769次阅读

RNN的损失函数与优化算法解析

函数有以下几种：交叉熵损失函数：交叉熵（Cros

发表于 11-15 10:16 •349次阅读

搜索历史

如何在PyTorch中使用交叉熵损失函数

评论

Pytorch模型训练实用PDF教程【中文】

什么是交叉熵？

交叉熵的作用原理

如何在PSoC设计器、Syxx中使用“StastFF（）”函数？

TensorFlow损失函数（定义和使用）详解

如何在STM8单片机中使用printf函数功能？

神经网络在训练时常用的一些损失函数介绍

keras常用的损失函数Losses与评价函数Metrics介绍

机器学习和深度学习中分类与回归常用的几种损失函数

基于交叉熵损失函欻的深度自编码器诊断模型

在PyTorch中使用ReLU激活函数的例子

如何在Vitis HLS GUI中使用库函数？

PyTorch中激活函数的全面概览

如何在PyTorch中实现LeNet-5网络

RNN的损失函数与优化算法解析