0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌开发出一个新的语言模型,包含了超过1.6万亿个参数

ss 来源:陈述根本 作者:陈根 2021-01-19 15:29 次阅读

开发人工智能的语言模型,一直是人工智能的重要细分领域。人工智能语言模型应用包括搜索引擎、文字生成、个性化的对话工具以及软件生成等。

2020年5月,OpenAI的一组研究人员发布了具有里程碑意义的AI模型GPT-3。GPT-3就是在570 GB的文本数据上训练的语言模型,因此,就训练数据和生成能力而言,GPT-3截至2020年都是最庞大的公开发布的语言模型。

此外,OpenAI的GPT-3一反之前死守基础研究的思路,将 GPT-3 做成了一个服务,提供可以调用的 OpenAI API,并且向开放了少量体验资格,使得拿到体验资格的业界人士或学者等,开发出了一众惊人的演示。

包括答题、翻译、写文章,甚至是数学计算和编写代码。而由GPT-3所写的文章几乎达到了以假乱真的地步,在 OpenAI 的测试中,人类评估人员也很难判断出这篇新闻的真假,检测准确率仅为 12%。

但现在,谷歌研究人员开发出一个新的语言模型,它包含了超过 1.6 万亿个参数,远超 Open AI 开发的 GTP-3 的规模(1750 亿个参数),成为迄今为止最大规模的人工智能语言模型,比之前谷歌开发过最大的语言模型 T5-XXL 的效率提高了 4 倍。

该语言模型使用 Switch Transformer 方法进行大规模训练,这是一种“稀疏激活”技术,它只使用模型权重的子集或在模型中转换输入数据的参数,以有效降低计算密集度。

尽管在部分实验中,该模型相比规模更小的模型得到了较低分数。但在相同的计算资源下,预训练速度提高了7倍。这些改进扩展到多语言设置中,我们在所有101种语言中测量mT5基本版本的增益。最后,我们通过在“巨大的干净的爬虫语料库”上预先训练多达万亿个参数的模型,提高了语言模型的当前规模,并实现了比T5-XXL模型4倍的加速。

研究人员认为,稀疏性可以在未来赋予该模型在一系列不同媒体下多模态的优势。这也为人工智能语言模型的深入研究提供了更多方向的参考。

责任编辑:xj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30539

    浏览量

    268747
  • 人工智能
    +关注

    关注

    1791

    文章

    47059

    浏览量

    238045
  • 语言模型
    +关注

    关注

    0

    文章

    517

    浏览量

    10261
收藏 人收藏

    评论

    相关推荐

    语言模型开发框架是什么

    语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面,AI部落小编为您介绍大语言
    的头像 发表于 12-06 10:28 82次阅读

    语言模型开发语言是什么

    在人工智能领域,大语言模型(Large Language Models, LLMs)背后,离不开高效的开发语言和工具的支持。下面,AI部落小编为您介绍大
    的头像 发表于 12-04 11:44 79次阅读

    云端语言模型开发方法

    云端语言模型开发复杂而系统的过程,涉及数据准备、模型选择、训练优化、部署应用等多个环节。
    的头像 发表于 12-02 10:48 94次阅读

    从零开始训练语言模型需要投资多少钱?

    ,前言   在AI领域,训练大型语言模型(LLM)是
    的头像 发表于 11-08 14:15 180次阅读
    从零开始训练<b class='flag-5'>一</b><b class='flag-5'>个</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>需要投资多少钱?

    语言模型如何开发

    语言模型开发复杂且细致的过程,涵盖了数据准备、模型架构设计、训练、微调和部署等多个阶段
    的头像 发表于 11-04 10:14 119次阅读

    联发科新代天玑旗舰芯片针对谷歌语言模型Gemini Nano优化

    近日,联发科宣布了重要的技术进展——新代天玑旗舰芯片已经针对谷歌的大语言模型Gemini
    的头像 发表于 10-09 16:44 448次阅读

    谷歌发布新型大语言模型Gemma 2

    在人工智能领域,大语言模型直是研究的热点。近日,全球科技巨头谷歌宣布,面向全球研究人员和开发人员,正式发布了其最新研发的大
    的头像 发表于 06-29 09:48 425次阅读

    谷歌不行?股价却新高!Meta逆天?蒸发1.6万亿…微软:都是弟弟

    夜蒸发了1.6万亿。只有微软继续超预期,看着另外两位不靠谱的对手微微笑,拿回全球市值第的交椅。谷歌
    的头像 发表于 05-09 08:04 136次阅读
    <b class='flag-5'>谷歌</b>不行?股价却新高!Meta逆天?蒸发<b class='flag-5'>1.6</b><b class='flag-5'>万亿</b>…微软:都是弟弟

    【大语言模型:原理与工程实践】大语言模型的应用

    类任务上表现出色,甚至在零样本条件下也能取得良好效果。另类则需要逐步推理才能完成的任务,类似于人类的系统2,如数字推理等。然而,随着参数量的增加,大语言模型在这类任务上并未出现质的飞
    发表于 05-07 17:21

    【大语言模型:原理与工程实践】大语言模型的基础技术

    特定任务对模型进行微调。这种方法的成功不仅是自然语言处理发展的转折点,还为许多现实世界的应用场带来了前所未有的性能提升。从广为人知的GPT到BERT,预训练的
    发表于 05-05 12:17

    谷歌模型框架是什么软件?谷歌模型框架怎么用?

    谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架,其中最著名的是TensorFlow。TensorFlow是
    的头像 发表于 03-01 16:25 843次阅读

    谷歌模型软件有哪些功能

    谷歌模型软件通常指的是谷歌推出的系列人工智能模型和软件工具,其中最具代表性的是Google Gemini。Google Gemini是
    的头像 发表于 03-01 16:20 632次阅读

    只修改关键参数,就会毁了整个百亿参数模型

    2022 年开始,我们发现 Multilingual BERT 是经过大规模跨语言训练验证的模型实例,其展示出了优异的跨语言迁移能力。具
    的头像 发表于 02-20 14:51 753次阅读
    只修改<b class='flag-5'>一</b><b class='flag-5'>个</b>关键<b class='flag-5'>参数</b>,就会毁了整个百亿<b class='flag-5'>参数</b>大<b class='flag-5'>模型</b>?

    Stability AI推出迄今为止更小、更高效的1.6B语言模型

    Stability AI 宣布推出迄今为止最强大的小语言模型 Stable LM 2 1.6B。
    的头像 发表于 01-23 10:11 778次阅读
    Stability AI推出迄今为止更小、更高效的<b class='flag-5'>1.6</b>B<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    微软宣布推出27亿参数语言模型Phi-2

    Phi-2 是微软 “小语言模型(SLM)” 系列中的最新版本。第一个版本是拥有 13 亿参数的 Phi-1,针对基本的 Python 编码任务进行了微调。
    发表于 12-15 09:46 261次阅读
    微软宣布推出<b class='flag-5'>一</b><b class='flag-5'>个</b>27亿<b class='flag-5'>参数</b>的<b class='flag-5'>语言</b><b class='flag-5'>模型</b>Phi-2