0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

布朗大学90后研究生:我们复现了15亿参数GPT-2模型,你也行!

DPVg_AI_era 来源:lq 2019-09-01 07:11 次阅读

布朗大学的计算机科学研究毕业生 Vanya Cohen 近日在 Medium 分享了他复现 GPT-2 大模型的全过程。作者复刻了Open-AI 15亿参数模型,允许其他人在其预训练模型上进行构建并进一步改进。

BERT,XLNet,GPT-2和Grover等大型语言模型在生成文本和多个NLP任务方面取得了令人瞩目的成果。

本文试图去复刻GPT-2的15亿模型以供研究人员使用。

Google Colab地址:

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

单独提供的模型权重:

https://drive.google.com/drive/u/1/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

复刻

之所以采取迟迟不放出模型的安全战略,是因为这些模型难以复刻并需要高度专业的领域知识。

但是布朗大学的两名硕士研究生却证明了本文的许多结果复刻起来并不是那么的难。而且不仅他们俩可以,绝大多数感兴趣的人都可以复刻GPT-2。

研究生之一:Vanya Cohen

此外,Zellers等人表明像GPT-2这样的大型语言模型是一种非常有用的工具,可以抵制使用与文本生成器相同的模型。

两位研究生经过深思熟虑后认为,复刻工作并不是独一无二的,并且大型语言模型是目前抵制生成文本的最有效手段,因此在对抗未来模型被滥用的可能性方面,发布本模型是有益的。

本模型的实现基于Grover模型,并修改其代码库以匹配GPT-2的语言建模训练目标。由于他们的模型是在类似的大型语料库上进行训练的,因此大部分代码和超参数都可以重复使用。本模型没有从Grover中大幅改变超参数。

使用本模型代码从头开始训练模型的成本约为5万美元。要注意这个数字是云计算的估计值,并不包含所涉及的各种其他细微的内部成本。

存在显著的时间-成本平衡,并且较慢的训练方法具有相当小的成本,因此降低了使用门槛。

数据集

原始文件提供了有关如何清理数据集的最低限度的详细信息

与在WebText中一样,首先从Reddit中解析出超过3个向上投票的所有链接。接着,从PushshiftRedditscrape开始。这是一个包含不断更新的Reddit帖子、评论以及相关元数据集合的数据集。

然后过滤一些链接以删除不太可能包含可用文本或HTML(即视频文件,PDF和CSS样式文件)的文件类型的直接链接。

同时还过滤网页以删除维基百科,因为它被各种评估基准和数据集使用。目前还无法确定过滤标准是否与OpenAI相匹配,因为此信息从未发布过。

使用Newspaper Python库从HTML页面中提取文本,然后使用fastText Python库来提取英文文本、过滤掉其他语言。具体来说,使用WhatTheLangpython Wrapper。

使用局部敏感散列(LSH)来去重。然后将文档散列为5-grams的集合,并且删除了相似度阈值大于0.5的所有文档。

使用Heuristic Cleaning算法,从数据集中删除少于128个令牌的文档。这些较短的文件往往质量较低,这是由文本连贯性决定的。最后将此数据集作为OpenWebTextCorpus发布。

使用Radford等人发布的小型模型和Binary Pattern Encoder对数据集进行编码,并使用OpenWebText web-scrapingcodebase的修改版本作为数据集集合的起点。

勘误表

从公开发布的来自WebText的260k文档集合中来看,研究人员发现所有文件都具有最小字节对(BPE)编码,长度为40,最大值为1024.

OpenWebText的不同之处在于为128个令牌设置文档长度的下限(而不是BPE代码),并且不限制最大文档长度。

原始的WebTextCorpus在这些样本可用之前发布,因此没有使用该信息来生成cleaning heuristics。

研究人员曾多次尝试联系Radford等人,以澄清评估和模型细节,但最终都没有成功。

结果

尽管训练分布存在差异,但确实报告了与大多数数据集相似的困惑。

示例:输入“Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”输出结果如下:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    502

    浏览量

    10239
  • 数据集
    +关注

    关注

    4

    文章

    1204

    浏览量

    24627

原文标题:布朗大学90后研究生:我们复现了15亿参数GPT-2模型,你也行!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    RISC-V AI技术正式纳入北京大学研究生课程

    希姆计算与北京大学达成SOC课程合作2024年10月14日,希姆计算的范福杰博士走进北京大学集成电路学院的研究生课堂,为同学们讲授一节生动的《现代SoC芯片架构设计实验课程》。RIS
    的头像 发表于 10-18 08:09 300次阅读
    RISC-V AI技术正式纳入北京<b class='flag-5'>大学</b><b class='flag-5'>研究生</b>课程

    名单公布!【书籍评测活动NO.41】大模型时代的基础架构:大模型算力中心建设指南

    工程技术人员,都可以参考和阅读本书。 作者介绍 方天戟腾讯专有云与智算平台shou席架构师,本科毕业于北京航空航天大学自动控制专业,硕士研究生毕业于中国科学院研究生院计算机科学与技术专业。从业近20年,从事过硬
    发表于 08-16 18:33

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    GPT-4. GPT-4o mini的定价为每百万输入标记15美分和每百万输出标记60美分,比之前的前沿模型便宜一个数量级,比
    的头像 发表于 07-21 10:20 885次阅读
    OpenAI 推出 <b class='flag-5'>GPT</b>-4o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> 4 而且更快 API KEY更便宜

    谷歌Gemini Ultra模型训练成本近2亿美元

    斯坦福大学研究巨头Epoch AI联合揭示云计算时代下AI模型训练成本的飞速增长。最新研究结果显示,AI巨头OpenAI的
    的头像 发表于 06-07 09:36 552次阅读

    润和软件董事长周红卫获颁江苏省产业教授(研究生导师类)聘任证书

    2024年5月25日,东南大学研究生院副院长陆建教授,东南大学计算机科学与工程学院、软件学院、人工智能学院(以下简称“计软智学院”)党委副书记兼副院长孟杰副教授及中国(南京)软件谷管委会副主任潘勇涛
    的头像 发表于 05-30 10:22 980次阅读
    润和软件董事长周红卫获颁江苏省产业教授(<b class='flag-5'>研究生</b>导师类)聘任证书

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    维基百科、网页内容和书籍等,不仅掌握语言的语法、语义和上下文信息,还能生成结构连贯、语义合理的句子和段落。大语言模型的一个显著特点是其庞大的参数量,已达数亿甚至数十亿级别。这种规模赋
    发表于 05-04 23:55

    商汤科技推出6000亿参数模型,全力对标GPT-4 Turbo 

    稍晚些时候,商汤科技发布公告称,4月23日在上海临港AIDC举办技术交流日活动,推出了6000亿参数模型(日日新5.0),其知识、数学、推理和代码能力均有显著提升,综合性能可媲美GPT
    的头像 发表于 04-25 10:11 361次阅读

    微软发布phi-3AI模型,性能超越GPT-3.5

    微软称,带有38亿参数的phi-3-mini经过3.3万亿token的强化学习,其基础表现已经超过Mixtral 8x7B及GPT-3.5;此外,该模型可在手机等移动设备上运行,并在p
    的头像 发表于 04-23 14:32 503次阅读

    苹果ReALM模型在实体识别测试中超越OpenAI GPT-4.0

    我们模型在识别各种类型实体方面都有显著提升,即使是小尺寸模型,在屏幕实体识别准确性上也已超过原有的系统5%以上。在与GPT-3.5和GPT
    的头像 发表于 04-02 11:23 408次阅读

    Anthropic推出Claude 3大型语言模型,在认知任务性能上创新高

    据官方披露,Claude 3 旗舰 Opus 在大学生和研究生范畴的学术知识、复杂数理任务了解部分超越 OpenAI 的 GPT-4 以及谷歌的 Gemini 1.0 Ultra。
    的头像 发表于 03-05 11:16 445次阅读

    高分工作!Uni3D:3D基础大模型,刷新多个SOTA!

    我们主要探索3D视觉中scale up模型参数量和统一模型架构的可能性。在NLP / 2D v
    的头像 发表于 01-30 15:56 765次阅读
    高分工作!Uni3D:3D基础大<b class='flag-5'>模型</b>,刷新多个SOTA!

    OPPO推出GPT模型手机 搭载天玑9300卷天卷地卷大模型

    X7 在端侧实现70亿参数模型的部署,为用户带来了前所未有的快速响应和高智能化的使用体验。基于安第斯大模型
    的头像 发表于 01-08 18:52 966次阅读

    视觉模型weak-to-strong的实现

    几天前,OpenAI「超级对齐」(Superalignment)团队发布成立以来的首篇论文,声称开辟对超人类模型进行实证对齐的新研究方向。GPT
    的头像 发表于 01-08 11:07 403次阅读
    视觉<b class='flag-5'>模型</b>weak-to-strong的实现

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    和1750亿参数GPT-3都是非常由有竞争力的 MetaAI研究人员认为,当前大模型的高成本阻碍
    发表于 12-22 10:18

    500篇论文!最全代码大模型综述

    经典 Transformer 使用不可学习的余弦编码,加在模型底层的词向量输入上。GPT、BERT将其改为可学习的绝对位置编码,并沿用到了RoBERTa、BART、GPT-2GPT-
    的头像 发表于 11-17 17:31 1241次阅读