PyTorch文本分类任务的基本流程-电子发烧友网

文本分类是NLP领域的较为容易的入门问题，本文记录文本分类任务的基本流程，大部分操作使用了torch和torchtext两个库。

1. 文本数据预处理

首先数据存储在三个csv文件中，分别是train.csv，valid.csv，test.csv，第一列存储的是文本数据，例如情感分类问题经常是用户的评论 review ，例如imdb或者amazon数据集。第二列是情感极性 polarity ，N分类问题的话就有N个值，假设值的范围是0~N-1。

下面是很常见的文本预处理流程，英文文本的话不需要分词，直接按空格split就行了，这里只会主要说说第4点。

1.去除非文本部分

2.分词

3.去除停用词

4.对英文单词进行 词干提取 (stemming)和 词型还原 (lemmatization)

5.转为小写

6.特征处理

•Bag of Words•Tf-idf•N-gram•Word2vec词干提取和词型还原

from nltk.stem import SnowballStemmer
stemmer = SnowballStemmer("english") # 选择语言
from nltk.stem import WordNetLemmatizer 
wnl = WordNetLemmatizer()

SnowballStemmer较为激进，转换有可能出现错误，这里较为推荐使用WordNetLemmatizer，它一般只在非常肯定的情况下才进行转换，否则会返回原来的单词。

stemmer.stem('knives')
# knive
wnl.lemmatize('knives')
# knife

因为我没有系统学习和研究过NLTK的代码，所以就不在这里展开说了，有兴趣的可以自己去看NLTK源代码。

2. 使用torchtext加载文本数据

本节主要是用的模块是torchtext里的data模块，处理的数据同上一节所描述。

首先定义一个tokenizer用来处理文本，比如分词，小写化，如果你已经根据上一节的词干提取和词型还原的方法处理过文本里的每一个单词后可以直接分词就够了。

tokenize = lambda x: x.split()

或者也可以更保险点，使用spacy库，不过就肯定更耗费时间了。

import spacy


spacy_en = spacy.load('en')
def tokenizer(text):
    return [toke.text for toke in spacy_en.tokenizer(text)]

然后要定义 Field ，至于Field是啥，你可以简单地把它理解为一个能够加载、预处理和存储文本数据和标签的对象。我们可以用它根据训练数据来建立词表，加载预训练的Glove词向量等等。

def DataLoader():
    tokenize = lambda x: x.split()
        # 用户评论，include_lengths设为True是为了方便之后使用torch的pack_padded_sequence
    REVIEW = data.Field(sequential=True,tokenize=tokenize, include_lengths=True)
    # 情感极性
    POLARITY = data.LabelField(sequential=False, use_vocab=False, dtype = torch.long)
        # 假如train.csv文件并不是只有两列，比如1、3列是review和polarity，2列是我们不需要的数据，
    # 那么就要添加一个全是None的元组， fields列表存储的Field的顺序必须和csv文件中每一列的顺序对应，
    # 否则review可能就加载到polarity Field里去了
    fields = [('review', REVIEW), (None, None), ('polarity', POLARITY)]


    # 加载train,valid,test数据
    train_data, valid_data, test_data = data.TabularDataset.splits(
                                    path = 'amazon',
                                    train = 'train.csv',
                                                                  validation = 'valid.csv',
                                                                  test = 'test.csv',
                                    format = 'csv',
                                    fields = fields,
                                    skip_header = False # 是否跳过文件的第一行
    )
    return REVIEW, POLARITY, train_data

加载完数据可以开始建词表。如果本地没有预训练的词向量文件，在运行下面的代码时会自动下载到当前文件夹下的'.vector_cache'文件夹内，如果本地已经下好了，可以用Vectors指定文件名name，路径cache，还可以使用Glove。

from torchtext.vocab import Vectors, Glove
import torch


REVIEW, POLARITY, train_data = DataLoader()
# vectors = Vectors(name='glove.6B.300d.txt', cache='.vector_cache')
REVIEW.build_vocab(train_data, # 建词表是用训练集建，不要用验证集和测试集
                  max_size=400000, # 单词表容量
                  vectors='glove.6B.300d', # 还有'glove.840B.300d'已经很多可以选
                  unk_init=torch.Tensor.normal_ # 初始化train_data中不存在预训练词向量词表中的单词
)


# print(REVIEW.vocab.freqs.most_common(20)) 数据集里最常出现的20个单词
# print(REVIEW.vocab.itos[:10])                       列表 index to word
# print(REVIEW.vocab.stoi)                               字典 word to index

接着就是把预训练词向量加载到model的embedding weight里去了。

pretrained_embeddings = REVIEW.vocab.vectors
model.embedding.weight.data.copy_(pretrained_embeddings)
UNK_IDX = REVIEW.vocab.stoi[REVIEW.unk_token]
PAD_IDX = REVIEW.vocab.stoi[REVIEW.pad_token]
# 因为预训练的权重的unk和pad的词向量不是在我们的数据集语料上训练得到的，所以最好置零
model.embedding.weight.data[UNK_IDX] = torch.zeros(EMBEDDING_DIM)
model.embedding.weight.data[PAD_IDX] = torch.zeros(EMBEDDING_DIM)

然后用torchtext的迭代器来批量加载数据，torchtext.data里的BucketIterator非常好用，它可以把长度相近的文本数据尽量都放到一个batch里，这样最大程度地减少padding，数据就少了很多无意义的0，也减少了矩阵计算量，也许还能对最终准确度有帮助(误)？

sort_within_batch设为True的话，一个batch内的数据就会按sort_key的排列规则降序排列，sort_key是排列的规则，这里使用的是review的长度，即每条用户评论所包含的单词数量。

train_iterator, valid_iterator, test_iterator = data.BucketIterator.splits(
                                                (train_data, valid_data, test_data),
                                                batch_size=32,
                                                sort_within_batch=True,
                                                sort_key = lambda x:len(x.review),
                                                device=torch.device('cpu'))

最后就是加载数据喂给模型了。

for batch in train_iterator:
  # 因为REVIEW Field的inclue_lengths为True，所以还会包含一个句子长度的Tensor
  review, review_len = batch.review  
  # review.size = (seq_length, batch_size) , review_len.size = (batch_size, )
  polarity = batch.polarity
  # polarity.size = (batch_size, )
  predictions = model(review, review_lengths)
  loss = criterion(predictions, polarity) # criterion = nn.CrossEntropyLoss()

3. 使用pytorch写一个LSTM情感分类器

下面是我简略写的一个模型，仅供参考

import torch.nn as nn
import torch.nn.functional as F
from torch.nn.utils.rnn import pack_padded_sequence
import torch




class LSTM(nn.Module):


    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim,
                 n_layers, bidirectional, dropout, pad_idx):
        super(LSTM, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx=pad_idx)
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, num_layers=n_layers,
                            bidirectional=bidirectional, dropout=dropout)
        self.Ws = nn.Parameter(torch.Tensor(hidden_dim, output_dim))
        self.bs = nn.Parameter(torch.zeros((output_dim, )))
        nn.init.uniform_(self.Ws, -0.1, 0.1)
        nn.init.uniform_(self.bs, -0.1, 0.1)
        self.dropout = nn.Dropout(p=0.5)


    def forward(self, x, x_len):
        x = self.embedding(x)
        x = pack_padded_sequence(x, x_len)
        H, (h_n, c_n) = self.lstm(x)
        h_n = self.dropout(h_n)
        h_n = torch.squeeze(h_n)
        res = torch.matmul(h_n, self.Ws) + self.bs
        y = F.softmax(res, dim=1)
        # y.size(batch_size, output_dim)
        return y

训练函数

def train(model, iterator, optimizer, criterion):
    epoch_loss = 0
    num_sample = 0
    correct = 0


    model.train()
    for batch in iterator:
        optimizer.zero_grad()
        review, review_lengths = batch.review
        polarity = batch.polarity
        predictions = model(review, review_lengths)
        correct += torch.sum(torch.argmax(preds, dim=1) == polarity)
        loss = criterion(predictions, polarity)
        loss.backward()
        epoch_loss += loss.item()
        num_sample += len(batch)
        optimizer.step()


    return epoch_loss / num_sample, correct.float() / num_sample


if __name__ == '__main__':
    for epoch in range(N_EPOCHS):
    train_loss, acc = train(model, train_iter, optimizer, criterion)
    print(f'\\tTrain Loss: {train_loss:.3f} | Train Acc: {acc* 100:.2f}%')

4. 注意事项和遇到的一些坑

1.文本情感分类需不需要去除停用词？

•应该是不用的，否则acc有可能下降。

2.data.TabularDataset.splits虽然好用，但是如果你只想加载训练集，这时候如果直接不给validation和test参数赋值，那么其他代码和原来一样，比如这样

train_data = data.TabularDataset.splits(
                                       path = '',
                                       train = 'train.csv',
                                       format = 'csv',
                                       fields = fields,
                                       skip_header = False # 是否跳过文件的第一行
   )

那么底下你一定会报错，因为data.TabularDataset.splits返回的是一个元组，也就是如果是训练验证测试三个文件都给了函数，就返回(train_data, valid_data, test_data)，这时候你用三个变量去接受函数返回值当然没问题，元组会自动拆包。

当只给函数一个文件train.csv时，函数返回的是(train_data)而非train_data，因此正确的写法应该如下

train_data = data.TabularDataset.splits(
                                       path = '',
                                       train = 'train.csv',
                                       format = 'csv',
                                       fields = fields,
                                       skip_header = False # 是否跳过文件的第一行
   )[0] # 注意这里的切片，选择元组的第一个也是唯一一个元素赋给train_data

3.同理data.BucketIterator.splits也有相同的问题，它不但返回的是元组，它的参数datasets要求也是以元组形式，即(train_data, valid_data, test_data)进行赋值，否则在下面的运行中也会出现各种各样奇怪的问题。

如果你要生成两个及以上的迭代器，那么没问题，直接照上面写就完事了。

如果你只要生成train_iterator，那么正确的写法应该是下面这样

train_iter = data.BucketIterator(
               train_data,
               batch_size=32,
               sort_key=lambda x:len(x.review),
               sort_within_batch=True,
               shuffle=True # 训练集需要shuffle，但因为验证测试集不需要
                                                  # 可以生成验证和测试集的迭代器直接用data.iterator.Iterator类就足够了
   )

4.出现的问题 x = pack_padded_sequence(x, x_len) 当数据集有长度为0的句子时, 就会后面报错

5.当vocab size较大而训练数据不多的情况下，我在实验时发现Adagrad效果比Adam好，如果数据较多，可以尝试使用RMSProp和Adam

5. 总结

不仅仅是NLP领域，在各大顶会中，越来越多的学者选择使用Pytorch而非TensorFlow，主要原因就是因为它的易用性，torchtext和pytorch搭配起来是非常方便的NLP工具，可以大大缩短文本预处理，加载数据的时间。

我本人之前用过tf 1.x以及keras，最终拥抱了Pytorch，也是因为它与Numpy极其类似的用法，更Pythonic的代码，清晰的源码让我在遇到bug时能一步一步找到问题所在，动态图让人能随时看到输出的Tensor的全部信息，这些都是Pytorch的优势。

现在tf 2.0也在不断改进，有人称tf越来越像pytorch了，其实pytorch也在不断向tf学习，在工业界，tf仍然处于王者地位，不知道未来pytorch能不能在工业界也与tf平分秋色，甚至更胜一筹呢？

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据预处理

数据预处理

+关注

关注
1

文章
20

浏览量
2852
nlp

nlp

+关注

关注
1

文章
490

浏览量
22440
pytorch

pytorch

+关注

关注
2

文章
809

浏览量
13715

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

PyTorch文本分类任务的基本流程

1. 文本数据预处理

2. 使用torchtext加载文本数据

3. 使用pytorch写一个LSTM情感分类器

4. 注意事项和遇到的一些坑

5. 总结

评论

X-NUCLEO-53L4A2: VL53L4CX飞行时间传感器具测量扩展板

ATA-2022H高压放大器西安安泰电子双通道

按摩仪方案PCBA设计

MK17系列干簧传感器

鸿诚志远RK系列行业主板套件

合众恒跃

20

下载

大大通

89

下载

斯丹麦德电子

30

下载

斯丹麦德电子

55

下载

RA生态工作室

194

下载

48V高效降压电源方案：英诺赛科推出2kW四相交错设计

TurMass™ 时隙高并发解决方案

低功耗×低抖动×多封装：FCom富士晶振FCO-PJ系列时钟方案解析

高效能电动工具控制方案：基于STM32G473和STDRIVE101的参考设计

适配1.8V/2.5V/3.3V电压的高稳定晶振方案（含MCU推荐）

搜索历史

PyTorch文本分类任务的基本流程

1. 文本数据预处理

2. 使用torchtext加载文本数据

3. 使用pytorch写一个LSTM情感分类器

4. 注意事项和遇到的一些坑

5. 总结

评论

有几种电平转换电路，适用于不同的场景

瑞萨RA8系列教程 | 基于 RASC 生成 Keil 工程

共赴之约 | 第二十七届中国北京国际科技产业博览会圆满落幕

道生物联与巍泰技术联合发布 RTK 无线定位系统：TurMass™ 技术与厘米级高精度定位的深度融合

智能家居中的清凉“智”选，310V无刷吊扇驱动方案--其利天下

电源入口处防反接电路-汽车电子硬件电路设计

半导体芯片需要做哪些测试

解决方案 | 芯佰微赋能示波器：高速ADC、USB控制器和RS232芯片——高性能示波器的秘密武器！

硬件设计基础----运算放大器

ElfBoard技术贴|如何调整eMMC存储分区

米尔基于MYD-YG2LX系统启动时间优化应用笔记

运放技术——基本电路分析

飞凌嵌入式携手中移物联，谱写全国产化方案新生态

ATA-2022B高压放大器在螺栓松动检测中的应用

MOS管驱动电路——电机干扰与防护处理