利用Python和PyTorch处理面向对象的数据集-电子发烧友网

本篇是利用 Python 和 PyTorch 处理面向对象的数据集系列博客的第 2 篇。

如需阅读第 1 篇：原始数据和数据集，请参阅此处。

我们在第 1 部分中已定义 MyDataset 类，现在，让我们来例化 MyDataset 对象

此可迭代对象是与原始数据交互的接口，在整个训练过程中都有巨大作用。

第 2 部分：创建数据集对象

■输入［9］：

mydataset = MyDataset（isValSet_bool = None， raw_data_path = raw_data_path， norm = False， resize = True， newsize = （64， 64））

以下是该对象的一些使用示例：

■输入［10］：

# 对象操作示例。

# 此操作用于调用 method __getitem__ 并从第 6 个样本获取标签

mydataset［6］［1］

■输出［10］：

■输入［11］：

# 此操作用于在类声明后打印注释

MyDataset.__doc__

■输出［11］：

‘Interface class to raw data， providing the total number of samples in the dataset and a preprocessed item’

■输入［12］：

# 此操作用于调用 method __len__

len（mydataset）

■输出［12］：

49100

■输入［13］：

# 此操作用于触发 method __str__

print（mydataset）

原始数据路径为。/raw_data/data_images/《raw samples》

可迭代对象的重要性

训练期间，将向模型提供多批次样本。可迭代的 mydataset 是获得高级轻量代码的关键。

以下提供了可迭代对象的 2 个使用示例。

示例 1：

我们可以直接获取第 3 个样本张量：

■输入［14］：

mydataset.__getitem__（3）［0］.shape

■输出［14］：

torch.Size（［3， 64， 64］）

与以下操作作用相同

■输入［15］：

mydataset［3］［0］.shape

■输出［15］：

torch.Size（［3， 64， 64］）

示例 2：

我们可以对文件夹中的图像进行解析，并移除黑白图像：

■输入［］：

# 数据集访问示例：创建 1 个包含标签的新文件，移除黑白图像

if os.path.exists（raw_data_path + ‘/’+ “labels_new.txt”）：

os.remove（raw_data_path + ‘/’+ “labels_new.txt”）

with open（raw_data_path + ‘/’+ “labels_new.txt”， “a”） as myfile：

for item， info in mydataset：

if item ！= None：

if item.shape［0］==1：

# os.remove（raw_data_path + ‘/’ + info.SampleName）

print（‘C = {}; H = {}; W = {}; info = {}’.format（item.shape［0］， item.shape［1］， item.shape［2］， info））

else：

#print（info.SampleName + ‘ ’ + str（info.SampleLabel））

myfile.write（info.SampleName + ‘ ’ + str（info.SampleLabel） + ‘ ’）

■输入［］：

# 查找具有非期望格式的样本

with open（raw_data_path + ‘/’+ “labels.txt”， “a”） as myfile：

for item， info in mydataset：

if item ！= None：

if item.shape［0］！=3：

# os.remove（raw_data_path + ‘/’ + info.SampleName）

print（‘C = {}; H = {}; W = {}; info = {}’.format（item.shape［0］， item.shape［1］， item.shape［2］， info））

修改标签文件后，请务必更新缓存：

■输入［］：

if os.path.exists（raw_data_path + ‘/’+ “labels_new.txt”）：

os.rename（raw_data_path + ‘/’+ “labels.txt”， raw_data_path + ‘/’+ “labels_orig.txt”）

os.rename（raw_data_path + ‘/’+ “labels_new.txt”， raw_data_path + ‘/’+ “labels.txt”）

@functools.lru_cache（1）

def getSampleInfoList（raw_data_path）：

sample_list = ［］

with open（str（raw_data_path） + ‘/labels.txt’， “r”） as f：

reader = csv.reader（f， delimiter = ‘ ’）

for i， row in enumerate（reader）：

imgname = row［0］

label = int（row［1］）

sample_list.append（DataInfoTuple（imgname， label））

sample_list.sort（reverse=False， key=myFunc）

return sample_list

del mydataset

mydataset = MyDataset（isValSet_bool = None， raw_data_path = ‘。./。./raw_data/data_images’， norm = False）

len（mydataset）

您可通过以下链接阅读了解有关 PyTorch 中的可迭代数据库的更多信息：

https://pytorch.org/docs/stable/data.html

归一化

应对所有样本张量计算平均值和标准差。

如果数据集较小，可以尝试在内存中对其进行直接操作：使用 torch.stack 即可创建 1 个包含所有样本张量的栈。

可迭代对象 mydataset 支持简洁精美的代码。

使用“view”即可保留 R、G 和 B 这 3 个通道，并将其余所有维度合并为 1 个维度。

使用“mean”即可计算维度 1 的每个通道的平均值。

请参阅附件中有关 dim 使用的说明。

■输入［16］：

imgs = torch.stack（［img_t for img_t， _ in mydataset］， dim = 3）

■输入［17］：

#im_mean = imgs.view（3， -1）.mean（dim=1）.tolist（）

im_mean = imgs.view（3， -1）.mean（dim=1）

im_mean

■输出［17］：

tensor（［0.4735， 0.4502， 0.4002］）

■输入［18］：

im_std = imgs.view（3， -1）.std（dim=1）.tolist（）

im_std

■输出［18］：

［0.28131285309791565， 0.27447444200515747， 0.2874436378479004］

■输入［19］：

normalize = transforms.Normalize（mean=［0.4735， 0.4502， 0.4002］， std=［0.28131， 0.27447， 0.28744］）

# free memory

del imgs

下面，我们将再次构建数据集对象，但这次将对此对象进行归一化：

■输入［21］：

mydataset = MyDataset（isValSet_bool = None， raw_data_path = raw_data_path， norm = True， resize = True， newsize = （64， 64））

由于采用了归一化，因此张量值被转换至范围 0..1 之内，并进行剪切操作。

■输入［22］：

original = Image.open（‘。./。./raw_data/data_images/img_00009111.JPEG’）

fig， axs = plt.subplots（1， 2， figsize=（10， 3））

axs［0］.set_title（‘clipped tensor’）

axs［0］.imshow（mydataset［5］［0］.permute（1，2，0））

axs［1］.set_title（‘original PIL image’）

axs［1］.imshow（original）

plt.show（）

将输入数据剪切到含 RGB 数据的 imshow 的有效范围内，以［0..1］表示浮点值，或者以［0..255］表示整数值。

使用 torchvision.transforms

进行预处理

现在，我们已经创建了自己的变换函数或对象（原本用作为加速学习曲线的练习），我建议使用 Torch 模块 torchvision.transforms：

“此模块定义了一组可组合式类函数对象，这些对象可作为实参传递到数据集（如 torchvision.CIFAR10），并在加载数据后 __getitem__ 返回数据之前，对数据执行变换”。

以下列出了可能的变换：

■输入［23］：

from torchvision import transforms

dir（transforms）

■输出［23］：

［‘CenterCrop’，

‘ColorJitter’，

‘Compose’，

‘FiveCrop’，

‘Grayscale’，

‘Lambda’，

‘LinearTransformation’，

‘Normalize’，

‘Pad’，

‘RandomAffine’，

‘RandomApply’，

‘RandomChoice’，

‘RandomCrop’，

‘RandomErasing’，

‘RandomGrayscale’，

‘RandomHorizontalFlip’，

‘RandomOrder’，

‘RandomPerspective’，

‘RandomResizedCrop’，

‘RandomRotation’，

‘RandomSizedCrop’，

‘RandomVerticalFlip’，

‘Resize’，

‘Scale’，

‘TenCrop’，

‘ToPILImage’，

‘ToTensor’，

‘__builtins__’，

‘__cached__’，

‘__doc__’，

‘__file__’，

‘__loader__’，

‘__name__’，

‘__package__’，

‘__path__’，

‘__spec__’，

‘functional’，

‘transforms’］

在此示例中，我们使用变换来执行了以下操作：

1） ToTensor - 从 PIL 图像转换为张量，并将输出格式定义为 CxHxW

2） Normalize - 将张量归一化

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7209

浏览量
89868
python

python

+关注

关注
56

文章
4811

浏览量
85124
pytorch

pytorch

+关注

关注
2

文章
808

浏览量
13404

原文标题：开发者分享 | 利用 Python 和 PyTorch 处理面向对象的数据集 - 2：创建数据集对象

文章出处：【微信号：FPGA-EETrend，微信公众号：FPGA开发圈】欢迎添加关注！文章转载请注明出处。

利用Arm Kleidi技术实现PyTorch优化

PyTorch 是一个广泛应用的开源机器学习 (ML) 库。近年来，Arm 与合作伙伴通力协作，持续改进 PyTorch 的推理性能。本文将详细介绍如何利用 Arm Kleidi 技术提升 Arm

发表于 12-23 09:19 •444次阅读

<b class='flag-5'>利用</b>Arm Kleidi技术实现<b class='flag-5'>PyTorch</b>优化

PyTorch 数据加载与处理方法

PyTorch 是一个流行的开源机器学习库，它提供了强大的工具来构建和训练深度学习模型。在构建模型之前，一个重要的步骤是加载和处理数据。 1. PyTorch

发表于 11-05 17:37 •523次阅读

如何在 PyTorch 中训练模型

准备好数据集。PyTorch 提供了 torch.utils.data.Dataset 和 torch.utils.data.DataLoader 两个类来帮助我们加载和批量处理

发表于 11-05 17:36 •497次阅读

pycharm配置pytorch运行环境

在PyCharm中配置PyTorch运行环境主要包括安装PyCharm、安装Python（如果尚未安装）、配置PyTorch环境以及验证安装等步骤。以下是详细的步骤说明：一、安装PyCharm

发表于 08-01 16:25 •1821次阅读

pytorch怎么在pycharm中运行

PyTorch。以下是安装PyTorch的步骤：打开终端或命令提示符。根据你的系统和需求，选择适当的安装命令。例如，如果你使用的是Python 3.8和CUDA 10.2，可以使用以下命令： pip

发表于 08-01 16:22 •1666次阅读

pycharm如何调用pytorch

引言 PyTorch是一个开源的机器学习库，广泛用于计算机视觉、自然语言处理等领域。PyCharm是一个流行的Python集成开发环境（IDE），提供了代码编辑、调试、测试等功能。将PyTor

发表于 08-01 15:41 •764次阅读

pytorch环境搭建详细步骤

了conda、Python等180多个科学包及其依赖项，非常适合用于科学计算（数据科学、机器学习应用、大数据处理

发表于 08-01 15:38 •1019次阅读

pytorch和python的关系是什么

在当今的人工智能领域，Python已经成为了最受欢迎的编程语言之一。Python的易学易用、丰富的库和框架以及强大的社区支持，使其成为了数据科学、机器学习和深度学习等领域的首选语言。而在深度学习领域

发表于 08-01 15:27 •2513次阅读

Python建模算法与应用

Python作为一种功能强大、免费、开源且面向对象的编程语言，在科学计算、数学建模、数据分析等领域展现出了卓越的性能。其简洁的语法、对动态输入的支持以及解释性语言的本质，使得

发表于 07-24 10:41 •688次阅读

pytorch如何训练自己的数据

本文将详细介绍如何使用PyTorch框架来训练自己的数据。我们将从数据准备、模型构建、训练过程、评估和测试等方面进行讲解。环境搭建首先，我们需要安装PyTorch。可以通过访问

发表于 07-11 10:04 •660次阅读

PyTorch的介绍与使用案例

PyTorch是一个基于Python的开源机器学习库，它主要面向深度学习和科学计算领域。PyTorch由Meta Platforms（原Facebook）的人工智能研究团队开发，并逐渐

发表于 07-10 14:19 •498次阅读

PyTorch的特性和使用方法

PyTorch是一个开源的Python机器学习库，由Meta Platforms（前身为Facebook）的人工智能研究团队开发，并于2017年1月正式推出。PyTorch基于Torch库，但

发表于 07-02 14:27 •713次阅读

PyTorch如何训练自己的数据集

PyTorch是一个广泛使用的深度学习框架，它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时，数据集是不可或缺的组成部分。然而，很多时候，我们可能需要使用自己的数据

发表于 07-02 14:09 •2175次阅读

如何使用PyTorch建立网络模型

PyTorch是一个基于Python的开源机器学习库，因其易用性、灵活性和强大的动态图特性，在深度学习领域得到了广泛应用。本文将从PyTorch的基本概念、网络模型构建、优化方法、实际应用等多个方面，深入探讨使用

发表于 07-02 14:08 •503次阅读

PyTorch与PyCharm的区别

在深入探讨PyTorch与PyCharm的区别时，我们首先需要明确两者在计算机科学和数据科学领域中的不同定位和功能。PyTorch是一个开源的深度学习库，而PyCharm则是一款功能强大

发表于 07-02 12:36 •3568次阅读

搜索历史

利用Python和PyTorch处理面向对象的数据集

评论

利用Arm Kleidi技术实现PyTorch优化

PyTorch 数据加载与处理方法

如何在 PyTorch 中训练模型

pycharm配置pytorch运行环境

pytorch怎么在pycharm中运行

pycharm如何调用pytorch

pytorch环境搭建详细步骤

pytorch和python的关系是什么

Python建模算法与应用

pytorch如何训练自己的数据

PyTorch的介绍与使用案例

PyTorch的特性和使用方法

PyTorch如何训练自己的数据集

如何使用PyTorch建立网络模型

PyTorch与PyCharm的区别