0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

PyTorch教程-2.2.数据预处理

姬房有 来源:wq644921241 作者:wq644921241 2023-06-02 09:34 次阅读

到目前为止,我们一直在处理以现成张量形式到达的合成数据。然而,要在野外应用深度学习,我们必须提取以任意格式存储的杂乱数据,并对其进行预处理以满足我们的需要。幸运的是,pandas 可以完成大部分繁重的工作。本节虽然不能替代适当的pandas 教程,但将为您提供一些最常见例程的速成课程。

2.2.1. 读取数据集

逗号分隔值 (CSV) 文件普遍用于存储表格(类似电子表格)数据。此处,每一行对应一个记录并由多个(逗号分隔)字段组成,例如,“Albert Einstein,March 14 1879,Ulm,Federal polytechnic school,Accomplishments in the field of gravitational physics”。为了演示如何加载 CSV 文件pandas,我们在下面创建了一个 CSV 文件 ../data/house_tiny.csv此文件表示房屋数据集,其中每一行对应一个不同的房屋,列对应房间数 ( NumRooms)、屋顶类型 ( RoofType) 和价格 ( Price)。

import os os.makedirs(os.path.join('..', 'data'), exist_ok=True) data_file = os.path.join('..', 'data', 'house_tiny.csv') with open(data_file, 'w') as f: f.write('''NumRooms,RoofType,Price NA,NA,127500 2,NA,106000 4,Slate,178100 NA,NA,140000''')

现在让我们导入pandas并加载数据集read_csv

import pandas as pd data = pd.read_csv(data_file) print(data)
  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000
import pandas as pd data = pd.read_csv(data_file) print(data)
  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000
import pandas as pd data = pd.read_csv(data_file) print(data)
  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000
import pandas as pd data = pd.read_csv(data_file) print(data)
  NumRooms RoofType  Price
0    NaN   NaN 127500
1    2.0   NaN 106000
2    4.0  Slate 178100
3    NaN   NaN 140000

2.2.2. 数据准备

在监督学习中,我们训练模型在给定一组输入值的情况下预测指定的目标值我们处理数据集的第一步是分离出对应于输入值和目标值的列。我们可以按名称或通过基于整数位置的索引 ( ) 选择列iloc

您可能已经注意到,pandas将所有 CSV 条目替换NA为一个特殊的NaN不是数字)值。这也可能在条目为空时发生,例如“3,,,270000”。这些被称为缺失值,它们是数据科学的“臭虫”,是您在整个职业生涯中都会遇到的持续威胁。根据上下文,缺失值可以通过 插补删除来处理。插补用缺失值的估计值替换缺失值,而删除只是丢弃那些包含缺失值的行或列。

以下是一些常见的插补启发法。对于分类输入字段,我们可以将其视为NaN一个类别。由于该RoofType 列采用值SlateNaNpandas可以将此列转换为两列RoofType_SlateRoofType_nan屋顶类型为的行将分别将Slate的值设置为 1 和 0。相反的情况适用于具有缺失值的行RoofType_SlateRoofType_nanRoofType

inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1
inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2] inputs = pd.get_dummies(inputs, dummy_na=True) print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    NaN        0       1
1    2.0        0       1
2    4.0        1       0
3    NaN        0       1

对于缺失的数值,一种常见的启发式方法是用 NaN相应列的平均值替换条目。

inputs = inputs.fillna(inputs.mean()) print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1
inputs = inputs.fillna(inputs.mean()) print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1
inputs = inputs.fillna(inputs.mean()) print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1
inputs = inputs.fillna(inputs.mean()) print(inputs)
  NumRooms RoofType_Slate RoofType_nan
0    3.0        0       1
1    2.0        0       1
2    4.0        1       0
3    3.0        0       1

2.2.3. 转换为张量格式

inputs现在 和中的所有条目targets都是数字,我们可以将它们加载到张量中(回忆一下2.1 节)。

import torch X, y = torch.tensor(inputs.values), torch.tensor(targets.values) X, y
(tensor([[3., 0., 1.],
     [2., 0., 1.],
     [4., 1., 0.],
     [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))
from mxnet import np X, y = np.array(inputs.values), np.array(targets.values) X, y
(array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float64),
 array([127500, 106000, 178100, 140000], dtype=int64))
from jax import numpy as jnp X, y = jnp.array(inputs.values), jnp.array(targets.values) X, y
No GPU/TPU found, falling back to CPU. (Set TF_CPP_MIN_LOG_LEVEL=0 and rerun for more info.)
(Array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float32),
 Array([127500, 106000, 178100, 140000], dtype=int32))
import tensorflow as tf X, y = tf.constant(inputs.values), tf.constant(targets.values) X, y
(<tf.Tensor: shape=(4, 3), dtype=float64, numpy=
 array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]])>,
 <tf.Tensor: shape=(4,), dtype=int64, numpy=array([127500, 106000, 178100, 140000])>)

2.2.4. 讨论

您现在知道如何对数据列进行分区、估算缺失变量以及将pandas数据加载到张量中。第 5.7 节中,您将掌握更多数据处理技能。虽然这个速成课程让事情变得简单,但数据处理可能会变得棘手。例如,我们的数据集可能分布在从关系数据库中提取的多个文件中,而不是到达单个 CSV 文件。例如,在电子商务应用程序中,客户地址可能存在于一个表中,而购买数据则存在于另一个表中。此外,从业者还面临着分类和数字以外的无数数据类型。其他数据类型包括文本字符串、图像、音频数据和点云。通常,需要先进的工具和高效的算法来防止数据处理成为机器学习管道中的最大瓶颈。当我们涉及计算机视觉和自然语言处理时,就会出现这些问题。最后,我们必须关注数据质量。现实世界的数据集经常受到异常值、传感器错误测量和记录错误的困扰,在将数据输入任何模型之前必须解决这些问题。数据可视化工具,例如 seabornBokehmatplotlib可以帮助您手动检查数据并形成关于您可能需要解决的问题的直觉。

2.2.5. 练习

  1. 尝试从UCI 机器学习存储库加载数据集,例如 Abalone并检查它们的属性。其中有多少缺失值?变量的哪一部分是数字的、分类的或文本的?

  2. 尝试按名称而不是按列号索引和选择数据列。有关索引的 Pandas 文档 包含有关如何执行此操作的更多详细信息

  3. 您认为您可以通过这种方式加载多大的数据集?可能有什么限制?提示:考虑读取数据的时间、表示、处理和内存占用。在笔记本电脑上试试这个。如果您在服务器上试用它会发生什么变化?

  4. 您将如何处理具有大量类别的数据?如果类别标签都是唯一的怎么办?你应该包括后者吗?

  5. 你能想到什么 pandas 的替代品?如何从文件加载 NumPy 张量查看PillowPython 图像库。



审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • python
    +关注

    关注

    56

    文章

    4797

    浏览量

    84685
  • 预处理
    +关注

    关注

    0

    文章

    33

    浏览量

    10479
  • pytorch
    +关注

    关注

    2

    文章

    808

    浏览量

    13225
收藏 人收藏

    评论

    相关推荐

    机器学习为什么需要数据预处理

    数据预处理是准备原始数据并使其适合机器学习模型的过程。这是创建机器学习模型的第一步也是关键的一步。 创建机器学习项目时,我们并不总是遇到干净且格式化的数据。在对
    的头像 发表于 08-24 09:20 1907次阅读
    机器学习为什么需要<b class='flag-5'>数据</b><b class='flag-5'>预处理</b>

    请教大家一下关于数据预处理

    一般将获得的加速度数据得进行数据预处理,常见的预处理方法有去掉趋势相、还得将离散的数值积分获得振幅。请问有做过的没,请教一下。
    发表于 06-07 11:16

    Pytorch模型训练实用PDF教程【中文】

    ,结构与机器学习三大部分一致:第一章,介绍数据的划分,预处理数据增强;第二章,介绍模型的定义,权值初始化,模型 Finetune;第三章,介绍各种损失函数及优化器;第四章,介绍可视化工具,用于监控
    发表于 12-21 09:18

    Python数据预处理方法

    机器学习-Python实践Day3(特征工程--数据预处理2)
    发表于 06-03 15:55

    数据探索与数据预处理

    目录1数据探索与数据预处理21.1 赛题回顾21.2 数据探索性分析与异常值处理21.3 相关性分析52特征工程82.1 光伏发电领域特征8
    发表于 07-12 08:37

    基于DSP CCS2.2实现指纹识别预处理系统

    本文选定100MHz DSP TMS320VC5402作为指纹信号的处理器,利用其流水线编码的操作特点,并结合指纹识别技术,实现基于DSP CCS2.2的指纹识别预处理系统。
    发表于 05-31 10:15 2023次阅读
    基于DSP CCS<b class='flag-5'>2.2</b>实现指纹识别<b class='flag-5'>预处理</b>系统

    利用Python和PyTorch处理面向对象的数据集(1)

    在本文中,我们将提供一种高效方法,用于完成数据的交互、组织以及最终变换(预处理)。随后,我们将讲解如何在训练过程中正确地把数据输入给模型。PyTorch 框架将帮助我们实现此目标,我们
    的头像 发表于 08-02 08:03 684次阅读

    什么是大数据采集和预处理

    一般情况下,大数据处理的流程为:数据采集和预处理数据存储、数据分析和数据可视化。
    的头像 发表于 02-15 14:22 4091次阅读

    那些年在pytorch上踩过的坑

    今天又发现了一个pytorch的小坑,给大家分享一下。手上两份同一模型的代码,一份用tensorflow写的,另一份是我拿pytorch写的,模型架构一模一样,预处理数据的逻辑也一模一
    的头像 发表于 02-22 14:18 1071次阅读
    那些年在<b class='flag-5'>pytorch</b>上踩过的坑

    那些年在pytorch上过的当

    最近在修改上一个同事加载和预处理数据的代码,原版的代码使用tf1.4.1写的,数据加载也是完全就是for循环读取+预处理,每读入并预处理好一
    的头像 发表于 02-22 14:19 490次阅读
    那些年在<b class='flag-5'>pytorch</b>上过的当

    PyTorch教程之数据预处理

    电子发烧友网站提供《PyTorch教程之数据预处理.pdf》资料免费下载
    发表于 06-02 14:11 0次下载
    <b class='flag-5'>PyTorch</b>教程之<b class='flag-5'>数据</b><b class='flag-5'>预处理</b>

    PyTorch入门须知PyTorch教程-2.2. 数据预处理

    到目前为止,我们一直在处理以现成张量形式到达的合成数据。然而,要在野外应用深度学习,我们必须提取以任意格式存储的杂乱数据,并对其进行预处理以满足我们的需要。幸运的是,pandas 库
    的头像 发表于 06-05 15:15 521次阅读

    pytorch如何训练自己的数据

    pandas matplotlib 数据准备 在训练模型之前,我们需要对数据进行预处理。这包括数据清洗、数据增强、
    的头像 发表于 07-11 10:04 532次阅读

    PyTorch 数据加载与处理方法

    PyTorch 是一个流行的开源机器学习库,它提供了强大的工具来构建和训练深度学习模型。在构建模型之前,一个重要的步骤是加载和处理数据。 1. PyTorch
    的头像 发表于 11-05 17:37 400次阅读

    Minitab 数据清理与预处理技巧

    Minitab是一款功能强大的统计分析和质量管理软件,在数据分析过程中,数据清理与预处理是至关重要的环节。以下是一些在Minitab中进行数据清理与
    的头像 发表于 12-02 16:06 332次阅读