使用迁移学习定制人工智能深度学习模型-电子发烧友网

从头开始创建一个新的人工智能深度学习模型是一个非常耗费时间和资源的过程。解决这个问题的一个常见方法是采用迁移学习。为了使这一过程更加简单，NVIDIA TAO Toolkit，它可以将工程时间框架从 80 周缩短到 8 周。 TAO 工具包支持计算机视觉和对话 AI （ ASR 和 NLP ）用例。

在本文中，我们将介绍以下主题：

安装 TAO 工具包并访问预训练模型
微调预训练语音转录模型
将微调模型导出到 NVIDIA Riva

跟随download the Jupyter notebook。

安装 TAO 工具包并下载预训练模型

在安装 TAO 工具包之前，请确保您的系统上安装了以下组件：

Python [3 . 6 . 9]
docker ce > 19 . 03 . 5
nvidia-DOCKR2 3 . 4 . 0-1

有关安装 nvidia docker 和 docker 的更多信息，请参阅Prerequisites。您可以使用 pip 安装 TAO 工具包。我们建议使用virtual environment以避免版本冲突。

pip3 install nvidia-pyindex pip3 install nvidia-tao

安装完成后，下一步是获得一些经过预训练的模型。 NVIDIA 提供了许多人工智能或机器学习模型，不仅在对话人工智能领域，而且在 NGC 或 NVIDIA GPU 云上的广泛领域。 NGC 目录是一套精心策划的 GPU 优化软件，用于 AI 、 HPC 和可视化。

要从 NGC 下载资源，请使用NGC API key登录注册表。您可以免费创建和使用一个。

图 1 。获取 NGCAPI 密钥

CitriNet是由 NVIDIA 构建的最先进的自动语音识别（ ASR ）模型，可用于生成语音转录。您可以从Speech to Text English Citrinet型号卡下载此型号。

wget https://api.ngc.nvidia.com/v2/models/nvidia/tao/speechtotext_english_citrinet/versions/trainable_v1.7/files/speechtotext_english_citrinet_1024.tlt

为了提供流畅的体验，工具包在后台下载并运行 Docker 容器，使用前面提到的规范文件。所有细节都隐藏在 TAO 启动器中。您可以通过定义 JSON 文件~/.tao_mounts.json来指定装载 Docker 容器的首选位置。您可以在Jupyter notebook中找到装载文件。

{ "Mounts":[ { "source": "~/tao/data", "destination": "/data" # The location in which to store the dataset }, { "source": "~/tao/specs", "destination": "/specs" # The location in which to store the specification files }, { "source": "~/tao/results", "destination": "/results" # The location in which to store the results }, { "source": "~/.cache", "destination": "/root/.cache" } ], "DockerOptions":{ "shm_size": "16G", "ulimits": { "memlock": -1, "stack": 67108864 } } }

这样，您就安装了 TAO 工具包，下载了一个经过预训练的 ASR 模型，并指定了 TAO 工具包启动器的安装点。在下一节中，我们将讨论如何使用 TAO 工具包在您选择的数据集上微调此模型。

微调模型

使用 TAO 工具包微调模型包括三个步骤：

下载规范文件。
预处理数据集。
使用超参数进行微调。

图 3 显示了微调模型所需的步骤。

For the ASR use case, there are three key steps: download specs, run preprocessing, and then fine-tune. Download the AN4 dataset and a .tlt model from NGC.

图 2 。 TAO 工具包工作流

步骤 1 ：下载规范文件

NVIDIA TAO Toolkit 是一种低代码或无代码的解决方案，通过规范文件简化模型的培训或微调。通过这些文件，您可以自定义特定于模型的参数、培训师参数、优化器和所用数据集的参数。可以将这些规范文件下载到先前装载的文件夹：

tao speech_to_text_citrinet download_specs \ -r /speech_to_text_citrinet \ -o < path to specs dir>/speech_to_text_citrinet

以下是 TAO 工具包附带的 YAML 文件。有关更多信息，请参阅Downloading Sample Spec Files。

create_tokenizer.yaml
dataset_convert_an4.yaml
dataset_convert_en.yaml
dataset_convert_ru.yaml
evaluate.yaml
export.yaml
finetune.yaml
infer_onnx.yaml
infer.yaml
train_citrinet_256.yaml
train_citrinet_bpe.yaml

这些规范文件可供自定义和使用。从预处理和模型评估到推理和导出模型，都有相应的功能。这使您能够完成开发或定制模型的过程，而无需构建复杂的代码库。下载等级库文件后，现在可以继续预处理数据。

步骤 2 ：预处理数据集

在本演练中，您将使用CMU’s AN4 Dataset，这是一个小型普查数据集，其中包含地址、数字和其他个人信息的记录。这与客户支持对话中对话的初始步骤所需的转录类型类似。具有类似内容的较大自定义数据集可用于实际应用程序。

您可以直接下载和解压缩 AN4 数据集，或使用以下命令：

wget

http://www.speech.cs.cmu.edu/databases/an4/an4_sphere.tar.gz

tar -xvf an4_sphere.tar.gz

TAO 工具包培训和微调模块期望数据以特定格式呈现。可以使用 dataset _ convert 命令完成此预处理。我们将 AN4 和 Mozilla 的通用语音数据集的规范文件与 TAO 启动器一起打包。您可以在步骤 1 中定义的目录中找到这些规范文件。

这些清单文件（图 3 ）包含在后面的步骤中使用的以下信息：

音频文件的路径
每个文件的持续时间
每个文件的文字内容

The manifest files specify three things, the path to the audio file, duration of the said file, and the exact transcription for the audio.

图 3 。已处理清单文件的结构

tao speech_to_text_citrinet dataset_convert \ -e /speech_to_text_citrinet/dataset_convert_an4.yaml \ -r /citrinet/dataset_convert \ source_data_dir= /an4 \ target_data_dir=/an4_converted

此命令将音频文件转换为 WAV 文件，并生成训练和测试清单文件。有关更多信息，请参阅Preparing the Dataset。

在大多数情况下，您都会进行预处理，但 CitriNet 模型是一个特例。它需要以子词标记化的形式进行进一步处理，为文本创建子词词汇表。这与 Jasper 或 QuartzNet 不同，因为在它们的情况下，词汇表中只有单个字符被视为元素。在 CitriNet 中，子字可以是一个或多个字符。这可以使用以下命令完成：

tao speech_to_text_citrinet create_tokenizer \ -e /speech_to_text_citrinet/create_tokenizer.yaml \ -r /citrinet/create_tokenizer \ manifests=/an4_converted/train_manifest.json \ output_root=/an4 \ vocab_size=32

到目前为止，您已经建立了一个工具，为诸如迁移学习之类的复杂问题提供低代码或无代码解决方案。您已经下载了一个预训练的模型，将音频文件处理为必要的格式，并执行了标记化。您使用的命令不到 10 个。现在，所有必要的细节都已散列出来，您可以继续微调模型。

步骤 3 ：使用超参数进行微调

正如在前面的步骤中所做的那样，您正在与规范文件交互。有关更多信息，请参阅Creating an Experiment Spec File。如果要调整 FFT 窗口大小的大小，可以指定几乎所有内容，从特定于训练的参数（如优化器）到特定于数据集的参数，再到模型配置本身。

是否要更改学习速率和调度程序，或者在词汇表中添加新字符？无需打开代码库并对其进行扫描以进行更改。所有这些定制都很容易获得，并可在整个团队中共享。这减少了在尝试新想法和分享结果以及模型配置方面的摩擦，从而提高了准确性。

以下是如何微调培训师：

trainer: max_epochs: 3 # This is low for demo purposes tlt_checkpoint_interval: 1 change_vocabulary: true

以下是如何微调标记器：

tokenizer: dir: /path/to/subword/vocabulary type: "bpe" # Can be either bpe or wpe

以下是如何微调优化器：

optim: name: novograd lr: 0.01 betas: [0.8, 0.5] weight_decay: 0.001 sched: name: CosineAnnealing warmup_steps: null warmup_ratio: null min_lr: 0.0 last_epoch: -1

以下是如何微调数据集：

# Fine-tuning settings: validation dataset validation_ds: manifest_filepath: /path/to/manifest/file/ sample_rate: 16000 labels: [" ", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z", "'"] batch_size: 32 shuffle: false finetuning_ds: manifest_filepath: ??? sample_rate: 160000 labels: [" ", "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u", "v", "w", "x", "y", "z", "'"] batch_size: 32 trim_silence: true max_duration: 16.7 shuffle: true is_tarred: false tarred_audio_filepaths: null

最后，要继续，请根据需要修改规范文件并运行以下命令。此命令使用先前下载的数据集微调下载的模型。有关更多信息，请参阅Fine-Tuning the Model。

tao speech_to_text_citrinet finetune \ -e $SPECS_DIR/speech_to_text_citrinet/finetune.yaml \ -g 1 \ -k \ -m /speechtotext_english_citrinet_1024.tlt \ -r $RESULTS_DIR/citrinet/finetune \ finetuning_ds.manifest_filepath=$DATA_DIR/an4_converted/train_manifest.json \ validation_ds.manifest_filepath=$DATA_DIR/an4_converted/test_manifest.json \ trainer.max_epochs=1 \ finetuning_ds.num_workers=1 \ validation_ds.num_workers=1 \ trainer.gpus=1 \ tokenizer.dir=$DATA_DIR/an4/tokenizer_spe_unigram_v32

在对模型进行微调或培训后，自然会评估模型并评估是否需要进一步微调。为此， NVIDIA 为evaluate your model和run inference提供了功能。

将微调模型导出到 Riva

在生产环境中部署模型会带来一系列挑战。为此，您可以使用NVIDIA Riva，一种 GPU 加速 AI 语音 SDK 来开发实时转录和虚拟助理等应用程序。

Riva 使用其他 NVIDIA 产品：

NVIDIA Triton Inference Server用于简化大规模生产中模型的部署。
NVIDIA TensorRT用于通过优化 NVIDIA GPU s 的模型来加速模型并提供更好的推理性能。

如果您对使用本演练中微调的模型感兴趣，可以使用以下命令将其导出到 Riva 。有关更多信息，请参阅Model Export。

tao speech_to_text_citrinet export \ -e /speech_to_text_citrinet/export.yaml \ -g 1 \ -k \ -m /citrinet/train/checkpoints/trained-model.tlt \ -r /citrinet/riva \ export_format=RIVA \ export_to=asr-model.riva

在下一篇文章中，我们将介绍如何安装 NVIDIA Riva 在生产环境中部署这些模型，以及如何使用NGC Catalog中的众多模型之一。

关于作者

About Tanay Varshney
Tanay Varshney 是 NVIDIA 的一名深入学习的技术营销工程师，负责广泛的 DL 软件产品。他拥有纽约大学计算机科学硕士学位，专注于计算机视觉、数据可视化和城市分析的横断面。

About Sirisha Rella
Sirisha Rella 是 NVIDIA 的技术产品营销经理，专注于计算机视觉、语音和基于语言的深度学习应用。 Sirisha 获得了密苏里大学堪萨斯城分校的计算机科学硕士学位，是国家科学基金会大学习中心的研究生助理。

审核编辑：符乾江

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
5087

浏览量
103956
人工智能

人工智能

+关注

关注
1797

文章
47909

浏览量
240946

嵌入式和人工智能究竟是什么关系?

、连接主义和深度学习等不同的阶段。目前，人工智能已经广泛应用于各种领域，如自然语言处理、计算机视觉、智能推荐等。嵌入式系统和人工智能在许

发表于 11-14 16:39

人工智能、机器学习和深度学习存在什么区别

人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多技术，但其中一个很大的子集是机器学习——让算法从数据中学习。

发表于 10-24 17:22 •2561次阅读

<b class='flag-5'>人工智能</b>、机器<b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>存在什么区别

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度学习是AI大

发表于 10-23 15:25 •1543次阅读

《AI for Science：人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

人工智能在科学研究中的核心技术，包括机器学习、深度学习、神经网络等。这些技术构成了AI for Science的基石，使得AI能够处理和分析复杂的数据集，从而发现隐藏在数据中的模式和规

发表于 10-14 09:16

《AI for Science：人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

人工智能：科学研究的加速器第一章清晰地阐述了人工智能作为科学研究工具的强大功能。通过机器学习、深度学习等先进技术，AI能够处理和分析海量

发表于 10-14 09:12

FPGA在人工智能中的应用有哪些？

定制化的硬件设计，提高了硬件的灵活性和适应性。综上所述，FPGA在人工智能领域的应用前景广阔，不仅可以用于深度学习的加速和云计算的加速，还可以针对特定应用场景进行

发表于 07-29 17:05

深度学习模型有哪些应用场景

深度学习模型作为人工智能领域的重要分支，已经在多个应用场景中展现出其巨大的潜力和价值。这些应用不仅改变了我们的日常生活，还推动了科技进步和产业升级。以下将详细探讨

发表于 07-16 18:25 •2505次阅读

预训练和迁移学习的区别和联系

预训练和迁移学习是深度学习和机器学习领域中的两个重要概念，它们在提高模型性能、减少训练时间和降低

发表于 07-11 10:12 •1347次阅读

深度学习中的模型权重

在深度学习这一充满无限可能性的领域中，模型权重（Weights）作为其核心组成部分，扮演着至关重要的角色。它们不仅是模型学习的基石，更是

发表于 07-04 11:49 •2394次阅读

人工智能、机器学习和深度学习是什么

在科技日新月异的今天，人工智能（Artificial Intelligence, AI）、机器学习（Machine Learning, ML）和深度学习（Deep Learning,

发表于 07-03 18:22 •1504次阅读

人工智能深度学习的五大模型及其应用领域

随着科技的飞速发展，人工智能（AI）技术特别是深度学习在各个领域展现出了强大的潜力和广泛的应用价值。深度学习作为人工智能的一个核心分支，通过

发表于 07-03 18:20 •5104次阅读

深度学习模型训练过程详解

深度学习模型训练是一个复杂且关键的过程，它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型

发表于 07-01 16:13 •1618次阅读

机器学习怎么进入人工智能

，人工智能已成为一个热门领域，涉及到多个行业和领域，例如语音识别、机器翻译、图像识别等。在编程中进行人工智能的关键是使用机器学习算法，这是一类基于样本数据和模型训练来进行预测和判断的

发表于 04-04 08:41 •416次阅读

FPGA在深度学习应用中或将取代GPU

现场可编程门阵列 (FPGA) 解决了 GPU 在运行深度学习模型时面临的许多问题在过去的十年里，人工智能的再一次兴起使显卡行业受益匪浅。英伟达 (Nvidia) 和 AMD 等公

发表于 03-21 15:19

为什么深度学习的效果更好？

导读深度学习是机器学习的一个子集，已成为人工智能领域的一项变革性技术，在从计算机视觉、自然语言处理到自动驾驶汽车等广泛的应用中取得了显著的成功。深度

发表于 03-09 08:26 •717次阅读

搜索历史

使用迁移学习定制人工智能深度学习模型