布朗大学90后研究生：我们复现了15亿参数GPT-2模型，你也行！-电子发烧友网

布朗大学的计算机科学研究毕业生 Vanya Cohen 近日在 Medium 分享了他复现 GPT-2 大模型的全过程。作者复刻了Open-AI 15亿参数模型，允许其他人在其预训练模型上进行构建并进一步改进。

BERT，XLNet，GPT-2和Grover等大型语言模型在生成文本和多个NLP任务方面取得了令人瞩目的成果。

本文试图去复刻GPT-2的15亿模型以供研究人员使用。

Google Colab地址：

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

单独提供的模型权重：

https://drive.google.com/drive/u/1/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

复刻

之所以采取迟迟不放出模型的安全战略，是因为这些模型难以复刻并需要高度专业的领域知识。

但是布朗大学的两名硕士研究生却证明了本文的许多结果复刻起来并不是那么的难。而且不仅他们俩可以，绝大多数感兴趣的人都可以复刻GPT-2。

研究生之一：Vanya Cohen

此外，Zellers等人表明像GPT-2这样的大型语言模型是一种非常有用的工具，可以抵制使用与文本生成器相同的模型。

两位研究生经过深思熟虑后认为，复刻工作并不是独一无二的，并且大型语言模型是目前抵制生成文本的最有效手段，因此在对抗未来模型被滥用的可能性方面，发布本模型是有益的。

本模型的实现基于Grover模型，并修改其代码库以匹配GPT-2的语言建模训练目标。由于他们的模型是在类似的大型语料库上进行训练的，因此大部分代码和超参数都可以重复使用。本模型没有从Grover中大幅改变超参数。

使用本模型代码从头开始训练模型的成本约为5万美元。要注意这个数字是云计算的估计值，并不包含所涉及的各种其他细微的内部成本。

存在显著的时间-成本平衡，并且较慢的训练方法具有相当小的成本，因此降低了使用门槛。

数据集

原始文件提供了有关如何清理数据集的最低限度的详细信息。

与在WebText中一样，首先从Reddit中解析出超过3个向上投票的所有链接。接着，从PushshiftRedditscrape开始。这是一个包含不断更新的Reddit帖子、评论以及相关元数据集合的数据集。

然后过滤一些链接以删除不太可能包含可用文本或HTML（即视频文件，PDF和CSS样式文件）的文件类型的直接链接。

同时还过滤网页以删除维基百科，因为它被各种评估基准和数据集使用。目前还无法确定过滤标准是否与OpenAI相匹配，因为此信息从未发布过。

使用Newspaper Python库从HTML页面中提取文本，然后使用fastText Python库来提取英文文本、过滤掉其他语言。具体来说，使用WhatTheLangpython Wrapper。

使用局部敏感散列（LSH）来去重。然后将文档散列为5-grams的集合，并且删除了相似度阈值大于0.5的所有文档。

使用Heuristic Cleaning算法，从数据集中删除少于128个令牌的文档。这些较短的文件往往质量较低，这是由文本连贯性决定的。最后将此数据集作为OpenWebTextCorpus发布。

使用Radford等人发布的小型模型和Binary Pattern Encoder对数据集进行编码，并使用OpenWebText web-scrapingcodebase的修改版本作为数据集集合的起点。

勘误表

从公开发布的来自WebText的260k文档集合中来看，研究人员发现所有文件都具有最小字节对（BPE）编码，长度为40，最大值为1024.

OpenWebText的不同之处在于为128个令牌设置文档长度的下限（而不是BPE代码），并且不限制最大文档长度。

原始的WebTextCorpus在这些样本可用之前发布，因此没有使用该信息来生成cleaning heuristics。

研究人员曾多次尝试联系Radford等人，以澄清评估和模型细节，但最终都没有成功。

结果

尽管训练分布存在差异，但确实报告了与大多数数据集相似的困惑。

示例：输入“Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”输出结果如下：

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
527

浏览量
10288
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24726

原文标题：布朗大学90后研究生：我们复现了15亿参数GPT-2模型，你也行！

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

中软国际助力广东外语外贸大学发布涉外法治人才实训大模型

近期，2024年全国法律专业学位研究生培养单位工作会议在广东外语外贸大学隆重召开。在此次会议期间，由广东外语外贸大学(以下简称：广外)联合华为、中软国际共同研发的“涉外法治人才实训大模型

发表于 12-26 10:09 •117次阅读

RISC-V AI技术正式纳入北京大学研究生课程

希姆计算与北京大学达成SOC课程合作2024年10月14日，希姆计算的范福杰博士走进北京大学集成电路学院的研究生课堂，为同学们讲授了一节生动的《现代SoC芯片架构设计实验课程》。RIS

发表于 10-18 08:09 •407次阅读

名单公布！【书籍评测活动NO.41】大模型时代的基础架构：大模型算力中心建设指南

工程技术人员，都可以参考和阅读本书。作者介绍方天戟腾讯专有云与智算平台shou席架构师，本科毕业于北京航空航天大学自动控制专业，硕士研究生毕业于中国科学院研究生院计算机科学与技术专业。从业近20年，从事过硬

发表于 08-16 18:33

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

GPT-4. GPT-4o mini的定价为每百万输入标记15美分和每百万输出标记60美分，比之前的前沿模型便宜了一个数量级，比

发表于 07-21 10:20 •1073次阅读

谷歌Gemini Ultra模型训练成本近2亿美元

斯坦福大学与研究巨头Epoch AI联合揭示了云计算时代下AI模型训练成本的飞速增长。最新研究结果显示，AI巨头OpenAI的

发表于 06-07 09:36 •606次阅读

润和软件董事长周红卫获颁江苏省产业教授（研究生导师类）聘任证书

2024年5月25日，东南大学研究生院副院长陆建教授，东南大学计算机科学与工程学院、软件学院、人工智能学院（以下简称“计软智学院”）党委副书记兼副院长孟杰副教授及中国（南京）软件谷管委会副主任潘勇涛

发表于 05-30 10:22 •1167次阅读

【大语言模型：原理与工程实践】揭开大语言模型的面纱

维基百科、网页内容和书籍等，不仅掌握了语言的语法、语义和上下文信息，还能生成结构连贯、语义合理的句子和段落。大语言模型的一个显著特点是其庞大的参数量，已达数亿甚至数十亿级别。这种规模赋

发表于 05-04 23:55

商汤科技推出6000亿参数大模型，全力对标GPT-4 Turbo

稍晚些时候，商汤科技发布公告称，4月23日在上海临港AIDC举办技术交流日活动，推出了6000亿参数大模型（日日新5.0），其知识、数学、推理和代码能力均有显著提升，综合性能可媲美GPT

发表于 04-25 10:11 •410次阅读

微软发布phi-3AI模型，性能超越GPT-3.5

微软称，带有38亿参数的phi-3-mini经过3.3万亿token的强化学习，其基础表现已经超过Mixtral 8x7B及GPT-3.5；此外，该模型可在手机等移动设备上运行，并在p

发表于 04-23 14:32 •550次阅读

苹果ReALM模型在实体识别测试中超越OpenAI GPT-4.0

“我们的模型在识别各种类型实体方面都有显著提升，即使是小尺寸模型，在屏幕实体识别准确性上也已超过原有的系统5%以上。在与GPT-3.5和GPT

发表于 04-02 11:23 •491次阅读

腾讯携手清华港科大推出图生视频模型：Follow-Your-Click，实现在线物体追踪

月 15 日消息，腾讯与清华大学及香港科技大学联合发布新型图生视频模型 “Follow-Your-Click”，已上线 GitHub（代码于

发表于 03-15 16:24 •653次阅读

Anthropic推出Claude 3大型语言模型，在认知任务性能上创新高

据官方披露，Claude 3 旗舰 Opus 在大学生和研究生范畴的学术知识、复杂数理任务了解部分超越 OpenAI 的 GPT-4 以及谷歌的 Gemini 1.0 Ultra。

发表于 03-05 11:16 •525次阅读

高分工作！Uni3D：3D基础大模型，刷新多个SOTA！

我们主要探索了3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D v

发表于 01-30 15:56 •905次阅读

OPPO推出GPT大模型手机搭载天玑9300卷天卷地卷大模型

X7 在端侧实现了70亿参数大模型的部署，为用户带来了前所未有的快速响应和高智能化的使用体验。基于安第斯大模型，

发表于 01-08 18:52 •1018次阅读

视觉模型weak-to-strong的实现

几天前，OpenAI「超级对齐」(Superalignment)团队发布了成立以来的首篇论文，声称开辟了对超人类模型进行实证对齐的新研究方向。GPT

发表于 01-08 11:07 •451次阅读