PyTorch教程之数据预处理

2072275 2023-06-02 | pdf | 0.14 MB | 次下载 | 免费

资料介绍

到目前为止，我们一直在处理以现成张量形式到达的合成数据。然而，要在野外应用深度学习，我们必须提取以任意格式存储的杂乱数据，并对其进行预处理以满足我们的需要。幸运的是，pandas 库可以完成大部分繁重的工作。本节虽然不能替代适当的pandas 教程，但将为您提供一些最常见例程的速成课程。

2.2.1. 读取数据集

逗号分隔值 (CSV) 文件普遍用于存储表格（类似电子表格）数据。此处，每一行对应一个记录并由多个（逗号分隔）字段组成，例如，“Albert Einstein,March 14 1879,Ulm,Federal polytechnic school,Accomplishments in the field of gravitational physics”。为了演示如何加载 CSV 文件pandas，我们在下面创建了一个 CSV 文件 ../data/house_tiny.csv。此文件表示房屋数据集，其中每一行对应一个不同的房屋，列对应房间数 ( NumRooms)、屋顶类型 ( RoofType) 和价格 ( Price)。

					import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
  f.write('''NumRooms,RoofType,Price
NA,NA,127500
2,NA,106000
4,Slate,178100
NA,NA,140000''')

					 

现在让我们导入pandas并加载数据集read_csv。

							import pandas as pd

data = pd.read_csv(data_file)
print(data)

							  NumRooms RoofType  Price
  NaN   NaN 127500
  2.0   NaN 106000
  4.0  Slate 178100
  NaN   NaN 140000

						

							import pandas as pd

data = pd.read_csv(data_file)
print(data)

							  NumRooms RoofType  Price
  NaN   NaN 127500
  2.0   NaN 106000
  4.0  Slate 178100
  NaN   NaN 140000

						

							import pandas as pd

data = pd.read_csv(data_file)
print(data)

							  NumRooms RoofType  Price
  NaN   NaN 127500
  2.0   NaN 106000
  4.0  Slate 178100
  NaN   NaN 140000

						

							import pandas as pd

data = pd.read_csv(data_file)
print(data)

							  NumRooms RoofType  Price
  NaN   NaN 127500
  2.0   NaN 106000
  4.0  Slate 178100
  NaN   NaN 140000

						

2.2.2. 数据准备

在监督学习中，我们训练模型在给定一组输入值的情况下预测指定的目标值。我们处理数据集的第一步是分离出对应于输入值和目标值的列。我们可以按名称或通过基于整数位置的索引 ( ) 选择列。iloc

您可能已经注意到，pandas将所有 CSV 条目替换NA为一个特殊的NaN（不是数字）值。这也可能在条目为空时发生，例如“3,,,270000”。这些被称为缺失值，它们是数据科学的“臭虫”，是您在整个职业生涯中都会遇到的持续威胁。根据上下文，缺失值可以通过插补或删除来处理。插补用缺失值的估计值替换缺失值，而删除只是丢弃那些包含缺失值的行或列。

以下是一些常见的插补启发法。对于分类输入字段，我们可以将其视为NaN一个类别。由于该RoofType 列采用值Slate和NaN，pandas可以将此列转换为两列RoofType_Slate和RoofType_nan。屋顶类型为的行将分别将和 Slate的值设置为 1 和 0。相反的情况适用于具有缺失值的行。RoofType_SlateRoofType_nanRoofType

							inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

							 

							  NumRooms RoofType_Slate RoofType_nan
  NaN        0       1
  2.0        0       1
  4.0        1       0
  NaN        0       1

						

							inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

							 

							  NumRooms RoofType_Slate RoofType_nan
  NaN        0       1
  2.0        0       1
  4.0        1       0
  NaN        0       1

						

							inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

							 

							  NumRooms RoofType_Slate RoofType_nan
  NaN        0       1
  2.0        0       1
  4.0        1       0
  NaN        0       1

						

							inputs, targets = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

							 

							  NumRooms RoofType_Slate RoofType_nan
  NaN        0       1
  2.0        0       1
  4.0        1       0
  NaN        0       1

						

对于缺失的数值，一种常见的启发式方法是用 NaN相应列的平均值替换条目。

							inputs = inputs.fillna(inputs.mean())
print(inputs)

							  NumRooms RoofType_Slate RoofType_nan
  3.0        0       1
  2.0        0       1
  4.0        1       0
  3.0        0       1

						

							inputs = inputs.fillna(inputs.mean())
print(inputs)

							  NumRooms RoofType_Slate RoofType_nan
  3.0        0       1
  2.0        0       1
  4.0        1       0
  3.0        0       1

						

							inputs = inputs.fillna(inputs.mean())
print(inputs)

							  NumRooms RoofType_Slate RoofType_nan
  3.0        0       1
  2.0        0       1
  4.0        1       0
  3.0        0       1

						

							inputs = inputs.fillna(inputs.mean())
print(inputs)

							  NumRooms RoofType_Slate RoofType_nan
  3.0        0       1
  2.0        0       1
  4.0        1       0
  3.0        0       1

						

2.2.3. 转换为张量格式

inputs现在和中的所有条目targets都是数字，我们可以将它们加载到张量中（回忆一下2.1 节）。

							import torch

X, y = torch.tensor(inputs.values), torch.tensor(targets.values)
X, y

							(tensor([[3., 0., 1.],
     [2., 0., 1.],
     [4., 1., 0.],
     [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

						

							from mxnet import np

X, y = np.array(inputs.values), np.array(targets.values)
X, y

							(array([[3., 0., 1.],
    [2., 0., 1.],
    [4., 1., 0.],
    [3., 0., 1.]], dtype=float64),
 array([127500, 106000, 178100, 140000], dtype=int64))