0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

利用Python和PyTorch处理面向对象的数据集

YCqV_FPGA_EETre 来源:XILINX开发者社区 作者:赛灵思开发者 2021-08-25 15:30 次阅读

本篇是利用 Python 和 PyTorch 处理面向对象的数据集系列博客的第 2 篇。

如需阅读第 1 篇:原始数据和数据集,请参阅此处。

我们在第 1 部分中已定义 MyDataset 类,现在,让我们来例化 MyDataset 对象

此可迭代对象是与原始数据交互的接口,在整个训练过程中都有巨大作用。

第 2 部分:创建数据集对象

■输入 [9]:

mydataset = MyDataset(isValSet_bool = None, raw_data_path = raw_data_path, norm = False, resize = True, newsize = (64, 64))

以下是该对象的一些使用示例:

■输入 [10]:

# 对象操作示例。

# 此操作用于调用 method __getitem__ 并从第 6 个样本获取标签

mydataset[6][1]

■输出 [10]:

0

■输入 [11]:

# 此操作用于在类声明后打印注释

MyDataset.__doc__

■输出 [11]:

‘Interface class to raw data, providing the total number of samples in the dataset and a preprocessed item’

■输入 [12]:

# 此操作用于调用 method __len__

len(mydataset)

■输出 [12]:

49100

■输入 [13]:

# 此操作用于触发 method __str__

print(mydataset)

原始数据路径为 。/raw_data/data_images/《raw samples》

可迭代对象的重要性

训练期间,将向模型提供多批次样本。可迭代的 mydataset 是获得高级轻量代码的关键。

以下提供了可迭代对象的 2 个使用示例。

示例 1:

我们可以直接获取第 3 个样本张量:

■输入 [14]:

mydataset.__getitem__(3)[0].shape

■输出 [14]:

torch.Size([3, 64, 64])

与以下操作作用相同

■输入 [15]:

mydataset[3][0].shape

■输出 [15]:

torch.Size([3, 64, 64])

示例 2:

我们可以对文件夹中的图像进行解析,并移除黑白图像:

■输入 [ ]:

# 数据集访问示例:创建 1 个包含标签的新文件,移除黑白图像

if os.path.exists(raw_data_path + ‘/’+ “labels_new.txt”):

os.remove(raw_data_path + ‘/’+ “labels_new.txt”)

with open(raw_data_path + ‘/’+ “labels_new.txt”, “a”) as myfile:

for item, info in mydataset:

if item != None:

if item.shape[0]==1:

# os.remove(raw_data_path + ‘/’ + info.SampleName)

print(‘C = {}; H = {}; W = {}; info = {}’.format(item.shape[0], item.shape[1], item.shape[2], info))

else:

#print(info.SampleName + ‘ ’ + str(info.SampleLabel))

myfile.write(info.SampleName + ‘ ’ + str(info.SampleLabel) + ‘ ’)

■输入 [ ]:

# 查找具有非期望格式的样本

with open(raw_data_path + ‘/’+ “labels.txt”, “a”) as myfile:

for item, info in mydataset:

if item != None:

if item.shape[0]!=3:

# os.remove(raw_data_path + ‘/’ + info.SampleName)

print(‘C = {}; H = {}; W = {}; info = {}’.format(item.shape[0], item.shape[1], item.shape[2], info))

修改标签文件后,请务必更新缓存:

■输入 [ ]:

if os.path.exists(raw_data_path + ‘/’+ “labels_new.txt”):

os.rename(raw_data_path + ‘/’+ “labels.txt”, raw_data_path + ‘/’+ “labels_orig.txt”)

os.rename(raw_data_path + ‘/’+ “labels_new.txt”, raw_data_path + ‘/’+ “labels.txt”)

@functools.lru_cache(1)

def getSampleInfoList(raw_data_path):

sample_list = []

with open(str(raw_data_path) + ‘/labels.txt’, “r”) as f:

reader = csv.reader(f, delimiter = ‘ ’)

for i, row in enumerate(reader):

imgname = row[0]

label = int(row[1])

sample_list.append(DataInfoTuple(imgname, label))

sample_list.sort(reverse=False, key=myFunc)

return sample_list

del mydataset

mydataset = MyDataset(isValSet_bool = None, raw_data_path = ‘。./。./raw_data/data_images’, norm = False)

len(mydataset)

您可通过以下链接阅读了解有关 PyTorch 中的可迭代数据库的更多信息

https://pytorch.org/docs/stable/data.html

归一化

应对所有样本张量计算平均值和标准差。

如果数据集较小,可以尝试在内存中对其进行直接操作:使用 torch.stack 即可创建 1 个包含所有样本张量的栈。

可迭代对象 mydataset 支持简洁精美的代码。

使用“view”即可保留 R、G 和 B 这 3 个通道,并将其余所有维度合并为 1 个维度。

使用“mean”即可计算维度 1 的每个通道的平均值。

请参阅附件中有关 dim 使用的说明。

■输入 [16]:

imgs = torch.stack([img_t for img_t, _ in mydataset], dim = 3)

■输入 [17]:

#im_mean = imgs.view(3, -1).mean(dim=1).tolist()

im_mean = imgs.view(3, -1).mean(dim=1)

im_mean

■输出 [17]:

tensor([0.4735, 0.4502, 0.4002])

■输入 [18]:

im_std = imgs.view(3, -1).std(dim=1).tolist()

im_std

■输出 [18]:

[0.28131285309791565, 0.27447444200515747, 0.2874436378479004]

■输入 [19]:

normalize = transforms.Normalize(mean=[0.4735, 0.4502, 0.4002], std=[0.28131, 0.27447, 0.28744])

# free memory

del imgs

下面,我们将再次构建数据集对象,但这次将对此对象进行归一化:

■输入 [21]:

mydataset = MyDataset(isValSet_bool = None, raw_data_path = raw_data_path, norm = True, resize = True, newsize = (64, 64))

由于采用了归一化,因此张量值被转换至范围 0..1 之内,并进行剪切操作。

■输入 [22]:

original = Image.open(‘。./。./raw_data/data_images/img_00009111.JPEG’)

fig, axs = plt.subplots(1, 2, figsize=(10, 3))

axs[0].set_title(‘clipped tensor’)

axs[0].imshow(mydataset[5][0].permute(1,2,0))

axs[1].set_title(‘original PIL image’)

axs[1].imshow(original)

plt.show()

将输入数据剪切到含 RGB 数据的 imshow 的有效范围内,以 [0..1] 表示浮点值,或者以 [0..255] 表示整数值。

使用 torchvision.transforms

进行预处理

现在,我们已经创建了自己的变换函数或对象(原本用作为加速学习曲线的练习),我建议使用 Torch 模块 torchvision.transforms:

“此模块定义了一组可组合式类函数对象,这些对象可作为实参传递到数据集(如 torchvision.CIFAR10),并在加载数据后 __getitem__ 返回数据之前,对数据执行变换”。

以下列出了可能的变换:

■输入 [23]:

from torchvision import transforms

dir(transforms)

■输出 [23]:

[‘CenterCrop’,

‘ColorJitter’,

‘Compose’,

‘FiveCrop’,

‘Grayscale’,

‘Lambda’,

LinearTransformation’,

‘Normalize’,

‘Pad’,

‘RandomAffine’,

‘RandomApply’,

‘RandomChoice’,

‘RandomCrop’,

‘RandomErasing’,

‘RandomGrayscale’,

‘RandomHorizontalFlip’,

‘RandomOrder’,

‘RandomPerspective’,

‘RandomResizedCrop’,

‘RandomRotation’,

‘RandomSizedCrop’,

‘RandomVerticalFlip’,

‘Resize’,

‘Scale’,

‘TenCrop’,

‘ToPILImage’,

‘ToTensor’,

‘__builtins__’,

‘__cached__’,

‘__doc__’,

‘__file__’,

‘__loader__’,

‘__name__’,

‘__package__’,

‘__path__’,

‘__spec__’,

‘functional’,

‘transforms’]

在此示例中,我们使用变换来执行了以下操作:

1) ToTensor - 从 PIL 图像转换为张量,并将输出格式定义为 CxHxW

2) Normalize - 将张量归一化

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6874

    浏览量

    88801
  • python
    +关注

    关注

    55

    文章

    4779

    浏览量

    84440
  • pytorch
    +关注

    关注

    2

    文章

    803

    浏览量

    13142

原文标题:开发者分享 | 利用 Python 和 PyTorch 处理面向对象的数据集 - 2:创建数据集对象

文章出处:【微信号:FPGA-EETrend,微信公众号:FPGA开发圈】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    PyTorch 数据加载与处理方法

    PyTorch 是一个流行的开源机器学习库,它提供了强大的工具来构建和训练深度学习模型。在构建模型之前,一个重要的步骤是加载和处理数据。 1. PyTorch
    的头像 发表于 11-05 17:37 289次阅读

    如何在 PyTorch 中训练模型

    准备好数据PyTorch 提供了 torch.utils.data.Dataset 和 torch.utils.data.DataLoader 两个类来帮助我们加载和批量处理
    的头像 发表于 11-05 17:36 252次阅读

    pycharm配置pytorch运行环境

    在PyCharm中配置PyTorch运行环境主要包括安装PyCharm、安装Python(如果尚未安装)、配置PyTorch环境以及验证安装等步骤。以下是详细的步骤说明: 一、安装PyCharm
    的头像 发表于 08-01 16:25 1387次阅读

    pytorch怎么在pycharm中运行

    PyTorch。以下是安装PyTorch的步骤: 打开终端或命令提示符。 根据你的系统和需求,选择适当的安装命令。例如,如果你使用的是Python 3.8和CUDA 10.2,可以使用以下命令: pip
    的头像 发表于 08-01 16:22 1208次阅读

    pycharm如何调用pytorch

    引言 PyTorch是一个开源的机器学习库,广泛用于计算机视觉、自然语言处理等领域。PyCharm是一个流行的Python集成开发环境(IDE),提供了代码编辑、调试、测试等功能。将PyTor
    的头像 发表于 08-01 15:41 508次阅读

    pytorch环境搭建详细步骤

    了conda、Python等180多个科学包及其依赖项,非常适合用于科学计算(数据科学、机器学习应用、大数据处理
    的头像 发表于 08-01 15:38 683次阅读

    pytorchpython的关系是什么

    在当今的人工智能领域,Python已经成为了最受欢迎的编程语言之一。Python的易学易用、丰富的库和框架以及强大的社区支持,使其成为了数据科学、机器学习和深度学习等领域的首选语言。而在深度学习领域
    的头像 发表于 08-01 15:27 1651次阅读

    Python建模算法与应用

    Python作为一种功能强大、免费、开源且面向对象的编程语言,在科学计算、数学建模、数据分析等领域展现出了卓越的性能。其简洁的语法、对动态输入的支持以及解释性语言的本质,使得
    的头像 发表于 07-24 10:41 453次阅读

    pytorch如何训练自己的数据

    本文将详细介绍如何使用PyTorch框架来训练自己的数据。我们将从数据准备、模型构建、训练过程、评估和测试等方面进行讲解。 环境搭建 首先,我们需要安装PyTorch。可以通过访问
    的头像 发表于 07-11 10:04 441次阅读

    PyTorch的介绍与使用案例

    PyTorch是一个基于Python的开源机器学习库,它主要面向深度学习和科学计算领域。PyTorch由Meta Platforms(原Facebook)的人工智能研究团队开发,并逐渐
    的头像 发表于 07-10 14:19 349次阅读

    PyTorch的特性和使用方法

    PyTorch是一个开源的Python机器学习库,由Meta Platforms(前身为Facebook)的人工智能研究团队开发,并于2017年1月正式推出。PyTorch基于Torch库,但
    的头像 发表于 07-02 14:27 475次阅读

    PyTorch如何训练自己的数据

    PyTorch是一个广泛使用的深度学习框架,它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时,数据是不可或缺的组成部分。然而,很多时候,我们可能需要使用自己的数据
    的头像 发表于 07-02 14:09 1308次阅读

    如何使用PyTorch建立网络模型

    PyTorch是一个基于Python的开源机器学习库,因其易用性、灵活性和强大的动态图特性,在深度学习领域得到了广泛应用。本文将从PyTorch的基本概念、网络模型构建、优化方法、实际应用等多个方面,深入探讨使用
    的头像 发表于 07-02 14:08 354次阅读

    PyTorch与PyCharm的区别

    在深入探讨PyTorch与PyCharm的区别时,我们首先需要明确两者在计算机科学和数据科学领域中的不同定位和功能。PyTorch是一个开源的深度学习库,而PyCharm则是一款功能强大
    的头像 发表于 07-02 12:36 2596次阅读

    PyTorch安装教程超详细

    PyTorch是一个用于机器学习和深度学习的开源库,它提供了丰富的工具和接口,帮助开发者快速构建深度学习模型。本文将介绍如何在不同操作系统上安装PyTorch,并详细讲解每个步骤。 Windows
    的头像 发表于 12-07 11:19 2126次阅读