0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NanoGPT,最简单最快的库来了!

CVer 来源:量子位 2023-01-30 11:49 次阅读

训练/微调中型GPT,最简单最快的库来了!

其名为:NanoGPT。

从名字就能看出是个“纳米武器”,据作者介绍,该库代码简单易读,2个仅300行代码的文件。

现已基于OpenWebText重现 GPT-2 (124M),在单个8XA100 40GB节点上,训练时间为38小时。

值得一提的是,该库发布者是前特斯拉AI总监,李飞飞高徒,Andrej Karpathy。此次发布的NanoGPT,正是他2年前MinGPT的升级版。

2596639a-a03e-11ed-bfe3-dac502259ad0.png

目前,此项目在GitHub所获star已超6k,HackerNews上points也破千。

25a7757c-a03e-11ed-bfe3-dac502259ad0.png

毫无意外地,评论区一片“喜大普奔”。

有网友表示,这才是咱独立开发者喜闻乐见的AI工具。

25b4b0ca-a03e-11ed-bfe3-dac502259ad0.png

还有人对其一直开放传授分享知识的做法,表示感谢。

25bee7ac-a03e-11ed-bfe3-dac502259ad0.png

那么,这个最简单最快的NanoGPT怎么用?

下面展开讲讲。

NanoGPT的打开方式

发布文件里面包含一个约300行的GPT模型定义(文件名:model.py),可以选择从OpenAI加载GPT-2权重。

还有一个训练模型PyTorch样板(文件名:train.py),同样也是300多行。

作者补充道,代码并不难,很容易就能满足大家需求——无论是从头开始训练新模型,还是基于预训练进行微调(目前可用的最大模型为1.3B参数的GPT-2)。

25c96394-a03e-11ed-bfe3-dac502259ad0.png

一个训练实例展示

上手前,需要提前准备好依赖项:

  • pytorch <3

  • numpy <3

  • pip install datasets for huggingface datasets <3 (如果你需要下载和预处理OpenWebText)

  • pip install tiktoken for OpenAI’s fast BPE code <3

  • pip install wandb for optional logging <3

  • pip install tqdm

下载并标记OpenWebText数据集。

$cddata/openwebtext
$pythonprepare.py

这将创建一个train.bin和val.bin文件,将 GPT2 BPE token id放入一个序列中。

然后准备训练,目前脚本默认是尝试重现GPT-2,124M参数版本,但作者更鼓励大家阅读代码查看文件顶部的设置及路径

$pythontrain.py

如需使用 PyTorch 分布式数据并行 (DDP) 进行训练,请使用 torchrun 运行脚本。

比如,要在4个GPU节点上运行,代码如下:

$torchrun--standalone--nproc_per_node=4train.py

要从模型节点中采样,就需将一些检查点写入输入目录中。

$pythonsample.py

据作者目前自己的测试,他在1 个 A100 40GB GPU 上训练一晚,损失约为 3.74。如果是在4个GPU上训练损失约为3.60。

如果在8个A100 40GB节点上进行约50万次迭代,时长约为1天,atim的训练降至约3.1,init随机概率是10.82,已将结果带到了baseline范围。

观察不同参数下训练/验证loss值如下:

25d5f28a-a03e-11ed-bfe3-dac502259ad0.png

至于如何基于新文本微调GPT,作者也简介了方法。

先访问data/shakespeare,查看prepare.py。

下载小型shakespeare数据集并将其呈现为train.bin和val.bin文件(方法前文已介绍),几秒即可搞定。

运行一个微调示例,如下:

$pythontrain.pyconfig/finetune_shakespeare.py

该操作将加载配置参数,覆盖config/finetune_shakespeare.py文件。

作者指出,一般情况下,基本操作就是从GPT-2检查点初始化init_from,再正常训练。

此外,如果手里只有macbook或一些“力量”不足的小破本,作者建议使用shakespeare数据集,然后在一个很小的网络上运行。

先渲染数据;

$cddata/shakespeare
$pythonprepare.py

再用一个较小的网络来运行训练脚本。

比如下面就创建了一个小得多的Transformer(4层,4个head,64嵌入大小),只在CPU运行,在作者自己的苹果AIR M1本上,每次迭代大约需要400毫秒。

$cd../..
$pythontrain.py--dataset=shakespeare--n_layer=4--n_head=4--n_embd=64--device=cpu--compile=False--eval_iters=1--block_size=64--batch_size=8

关于NanoGPT的后续计划,Andrej Karpathy也在网上有所分享。

他将试图让NanoGPT更快复现其他GPT-2模型,然后将预训练扩展至更大规模的模型/数据集中,此外,他还计划改进下微调部分的文档。

转战教育和开源的特斯拉前AI总监

熟悉Karpathy的圈内人肯定知道,他此前是李飞飞高徒,也长期致力于让更多人接触了解神经网络和相关数据集。

2020年8月,他就曾发布NanoGPT前一代,MinGPT,同样旨在让GPT做到小巧、简洁、可解释,同样主打300行代码搞定。

Karpathy另一大身份是前特斯拉AI核心人物。

在马斯克麾下,他历任特斯拉高级AI主管、特斯拉自动驾驶AutoPilot负责人、特斯拉超算Dojo负责人、特斯拉擎天柱人形机器人负责人…

2022年7月,Karpathy Andrej离职,在业内引发不小讨论。他表示,未来将花更多时间在AI、开源技术教育上,比如他做了一档AI课程,现还在更新中。

此番发布NanoGPT同时,Karpathy还下场安抚了下催更党——新视频正从0开始构建,计划2周内发布

25e5cb92-a03e-11ed-bfe3-dac502259ad0.png

最后附上:

NanoGPT项目:https://github.com/karpathy/nanoGPT

Andrej Karpathy课程:https://karpathy.ai/zero-to-hero.html


审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3254

    浏览量

    48881
  • 代码
    +关注

    关注

    30

    文章

    4791

    浏览量

    68694
  • GPT
    GPT
    +关注

    关注

    0

    文章

    354

    浏览量

    15409

原文标题:300行代码搞定!特斯拉前AI总监发布:NanoGPT,最简单最快的库来了!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    腾讯ima升级知识功能,上线小程序实现共享与便捷问答

    近日,腾讯旗下的AI智能工作台ima.copilot(简称ima)迎来了知识功能的重大升级。此次升级不仅增加了“共享知识”的新能力,还正式上线了“ima知识”小程序,为用户带
    的头像 发表于 12-31 15:32 249次阅读

    AMC7834只使用外部4个ADC,怎么配置可以使转换速率达到最快

    1.只使用外部4个ADC,怎么配置可以使转换速率达到最快最快情况下,进行一次装换ADC1,ADC2,ADC3,ADC4采样点的时间间隔是多少?(我们设置的是单次触发模式) 2.DAV功能配置后
    发表于 12-23 06:51

    HAL在Arduino平台上的使用

    HAL在Arduino平台上的使用 Arduino平台是一个开源的电子原型平台,它包括硬件(基于微控制器的电路板)和软件(Arduino IDE)。Arduino平台因其简单易用而受到广泛欢迎
    的头像 发表于 12-02 14:04 329次阅读

    HAL和标准的区别 HAL与CMSIS的关系

    在嵌入式系统开发中,HAL(硬件抽象层)和标准是两种常用的软件,它们在功能和使用场景上有所不同。 1. 标准 标准,通常指的是C语
    的头像 发表于 12-02 14:02 769次阅读

    简单认识libmodbus开发

    libmodbus是一个免费的跨平台Modbus,支持RTU和TCP,遵循LGPL V2.1+协议,兼容Linux、Mac OS X、FreeBSD、QNX和Windows等操作系统。它可通过串口
    的头像 发表于 11-13 15:42 338次阅读
    <b class='flag-5'>简单</b>认识libmodbus开发<b class='flag-5'>库</b>

    在KiCad中使用AD的封装(Pcblib)

    。但除此之外,KiCad有一个相当棒的功能:直接加载并直接使用AD的封装,无需转换操作 ”。 加载AD封装 在KiCad中使用Altium Designer的封装(*.pcblib)非常
    的头像 发表于 11-12 12:21 908次阅读
    在KiCad中使用AD的封装<b class='flag-5'>库</b>(Pcblib)

    云数据可以租用吗?完整租用流程来了

    云数据是可以租用的,这是一种合法且便捷的数据存储和管理方式。云数据是云服务提供商提供的各种服务化的关系型数据(如RDS)、文档数据服务等。它被优化或部署到虚拟计算环境中,可以实
    的头像 发表于 10-28 09:54 179次阅读

    存储器中访问速度最快的是什么

    在探讨存储器中访问速度最快的是哪一种时,我们首先需要了解计算机存储系统的层次结构以及各类存储器的特性和功能。计算机存储系统通常包括多个层次的存储器,从速度最快、容量最小的寄存器开始,到速度较慢、容量较大的外存储器结束。这些存储器在访问速度、容量、价格等方面各有优劣,共同构
    的头像 发表于 10-12 17:01 2071次阅读

    什么网线最好最快

    在选择“最好最快”的网线时,需要考虑多个因素,包括传输速度、抗干扰能力、材质、屏蔽效果以及适用场景等。以下是对几种常见网线类型的分析,以及市场上一些知名品牌的推荐: 一、网线类型分析 光纤缆线 传输
    的头像 发表于 10-12 10:09 710次阅读

    一种常用嵌入式开发代码

    语言std,工具等等。具有简单,通用,高效的特点,目的为了学习以及在开发中拿来就用,提高开发效率以及代码可靠稳定性。
    的头像 发表于 09-04 08:06 484次阅读
    一种常用嵌入式开发代码<b class='flag-5'>库</b>

    摆脱自建的繁琐,EDA元件转cadence原理图封装实战技巧

    摆脱自建的繁琐,EDA元件转cadence原理图封装实战技巧
    的头像 发表于 08-24 12:29 2819次阅读
    摆脱自建<b class='flag-5'>库</b>的繁琐,EDA元件<b class='flag-5'>库</b>转cadence原理图封装<b class='flag-5'>库</b>实战技巧

    esp8266传输的速度最快能达到多少?

    stm32通过串口跟esp8266连接,然后用WiFi发送一个文件给存储到stm32的内存卡上,文件大小在10M到50M之间。有没有人测试过,传输的速度最快能达到多少?稳定不?
    发表于 07-09 07:47

    英特尔计划最快2026年量产玻璃基板

    在全球半导体封装技术的演进中,英特尔近日宣布了一项引人注目的计划——最快在2026年实现玻璃基板的量产。这一前瞻性的举措不仅展示了英特尔在技术创新上的坚定步伐,也为整个封装行业带来了新的发展机遇。
    的头像 发表于 07-01 10:38 601次阅读

    鸿蒙开发案例:【图像加载缓存ImageKnife】

    专门为OpenHarmony打造的一款图像加载缓存,致力于更高效、更轻便、更简单
    的头像 发表于 03-23 16:48 875次阅读
    鸿蒙开发案例:【图像加载缓存<b class='flag-5'>库</b>ImageKnife】

    怎么简单实现由Labview读取的串口数据自增写入mysql5.7数据中?

    怎么简单实现由Labview读取的串口数据自增写入mysql5.7数据中? 已实现:串口数据的接收处理 mysql5.7的安装(已测试数据正常运行) 愿付费解决此问题(QQ:84295699)感谢
    发表于 01-11 22:05