0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌大脑和DeepMind联合发布堪称AI界的MapReduce

中科院长春光机所 来源:新智元、reddit 作者:新智元、reddit 2021-06-26 15:32 次阅读

【新智元导读】AI模型进入大数据时代,单机早已不能满足训练模型的要求,最近Google Brain和DeepMind联手发布了一个可以分布式训练模型的框架Launchpad,堪称AI界的MapReduce。

正如吴恩达所言,当代机器学习算法的成功很大程度上是由于模型和数据集大小的增加,在大规模数据下进行分布式训练也逐渐变得普遍,而如何在大规模数据、大模型的情况下进行计算,还是一个挑战。

分布式学习过程也会使实现过程复杂化,这对于许多不熟悉分布式系统机制的机器学习从业者来说是个问题,尤其是那些具有复杂通信拓扑结构的机器学习从业者。

在arxiv上一篇新论文中,来自 DeepMind 和 Google Brain 的研究团队用 Launchpad 解决了这个问题,Launchpad 是一种编程模型,它简化了定义和启动分布式计算实例的过程。

论文的第一作者是来自DeepMind的华人Yang Fan,毕业于香港中文大学。

Launchpad 将分布式系统的拓扑描述为一个图形数据结构,这样图中的每个节点都代表一个服务,即研究人员正在运行的基本计算单元。

将句柄构造为节点的引用,将客户端表示为尚未构造的服务。

图的边表示两个服务之间的通信,并在构建时将与一个节点相关联的句柄给予另一个节点时创建。

通过这种方式,Launchpad 可以通过传递节点句柄来定义跨服务通信。Launchpad 的计算构建块由不同的服务类型表示,每种服务类型由特定于该类型的节点和句柄类表示。

论文中提出的 Launchpad 的生命周期可以分为三个阶段: 设置、启动和执行。设置阶段构造程序数据结构; 在启动阶段,处理这个数据结构以分配资源、地址等,并启动指定服务; 然后执行阶段运行服务,例如为服务通信创建客户端。

Launchpad 是用流行的编程语言 Python 实现的,它简化了定义程序和节点数据结构以及为单个平台启动的过程。Launchpad 框架还可以很容易地用任何其他宿主语言实现,包括 c/c + + 等低级编程语言。

Launchpad 编程模型非常丰富,足以容纳各种各样的分布式系统,包括参数服务器、 MapReduce和 Evolution Strategies。

研究人员用简洁的代码详细描述了如何将 Launchpad 应用到这些常见的分布式系统范例中,并说明了该框架在简化本研究领域常用机器学习算法和组件的设计过程方面的能力。

总的来说,Launchpad 是一个实用的、用户友好的、表达性强的框架,用于机器学习研究人员和实践者详细说明分布式系统,作者表示,这个框架能够处理日益复杂的机器学习模型。其他框架

2020年,DeepMind 发布过一个强化学习优化框架Acme,可以让AI驱动的智能体在不同的执行规模上运行,从而简化强化学习算法的开发过程。

强化学习可以让智能体与环境互动,生成他们自己的训练数据,这在电子游戏、机器人技术、自动驾驶机器人出租车等领域取得了突破。

随着所使用的训练数据量的增加,这促使设计了一个系统,使智能体与环境实例相互作用,迅速积累经验。DeepMind 断言,将算法的单进程原型扩展到分布式系统通常需要重新实现相关的智能体,这就是 Acme 框架的用武之地。

DeepMind研究员写道,「Acme 是一个用于构建可读、高效、面向研究的 RL 算法的框架。Acme 的核心是设计用于简单描述 RL 智能体,这些智能体可以在不同规模的执行中运行,包括分布式智能体。」

Determined AI也是一个深度学习神器。Determined使深度学习工程师可以集中精力大规模构建和训练模型,而无需担心DevOps,或者为常见任务(如容错或实验跟踪)编写代码。更快的分布式训练,智能的超参优化,实验跟踪和可视化。

一万亿模型要来了?谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

Determined主要运用了Horovod,以Horovod为起点,研究人员运用了多年的专业知识和经验,使得整个训练过程比库存配置要快得多。

Horovod 是一套面向TensorFlow 的分布式训练框架,由Uber 构建并开源,目前已经运行于Uber 的Michelangelo 机器学习即服务平台上。Horovod 能够简化并加速分布式深度学习项目的启动与运行。当数据较多或者模型较大时,为提高机器学习模型训练效率,一般采用多 GPU 的分布式训练。TensorFlow 集群存在诸多缺点,如概念太多、学习曲线陡峭、修改的代码量大、性能损失较大等,而 Horovod 则让深度学习变得更加美好,随着规模增大,Horovod 性能基本是线性增加的,损失远小于 TensorFlow。

2019年,字节跳动AI lab开源了一款高性能分布式框架BytePS,在性能上颠覆了过去几年allreduce流派一直占据上风的局面,超出目前其他所有分布式训练框架一倍以上的性能,且同时能够支持Tensorflow、PyTorch、MXNet等开源库。

BytePS 提供了 TensorFlow、PyTorch、 MXNet 以及Keras的插件,用户只要在代码中引用BytePS的插件,就可以获得高性能的分布式训练。BytePS的核心逻辑,则实现在BytePS core里。具体的通信细节,完全由BytePS完成,用户完全不需要操心。

来源:reddit

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6141

    浏览量

    105086
  • AI
    AI
    +关注

    关注

    87

    文章

    30106

    浏览量

    268393
  • 机器学习
    +关注

    关注

    66

    文章

    8377

    浏览量

    132403

原文标题:一万亿模型要来了?谷歌大脑和DeepMind联手发布分布式训练框架Launchpad

文章出处:【微信号:cas-ciomp,微信公众号:中科院长春光机所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    壁仞科技与软通动力联合发布创新AI PC产品

    在广州市黄埔区中新知识城举办的“H•I³ AI探索峰会”上,壁仞科技与软通动力携手共创辉煌,联合发布了全新的AI PC(AIPC)产品,这一里程碑式的合作标志着AI技术在企业应用领域的
    的头像 发表于 09-02 16:07 434次阅读

    谷歌任命原Character.AI首席执行官为Gemini联合技术负责人

    近日,谷歌宣布了一项重要人事任命,原Character.AI联合创始人兼首席执行官诺姆·沙泽尔(Noam Shazeer)已重返谷歌,并将担任其人工智能新项目“Gemini”的
    的头像 发表于 08-26 11:06 473次阅读

    谷歌借助Gemini AI系统深化对机器人的训练

    7月12日,国际科技传来新动态,谷歌正借助其先进的Gemini AI系统,深化对旗下机器人的训练,旨在显著提升它们的导航能力和任务执行能力。DeepMind机器人团队最新
    的头像 发表于 07-12 16:29 599次阅读

    谷歌发布多模态AI新品,加剧AI巨头竞争

    在全球AI竞技场上,谷歌与OpenAI一直稳居领先地位。近日,谷歌在I/O开发者大会上掀起了一股新的技术浪潮,发布了多款全新升级的多模态AI
    的头像 发表于 05-16 09:28 416次阅读

    谷歌DeepMind发布人工智能模型AlphaFold最新版本

    谷歌DeepMind近日发布了人工智能模型AlphaFold的最新版本——AlphaFold 3,这一革命性的工具将在药物发现和疾病治疗领域发挥巨大作用。
    的头像 发表于 05-10 11:26 553次阅读

    谷歌DeepMind推出新一代药物研发AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名为AlphaFold 3的全新药物研发AI模型,这一创新技术将为科学家们提供前所未有的帮助,使他们能更精确地理解疾病机制,进而开发出更高效的治疗药物。
    的头像 发表于 05-10 09:35 369次阅读

    MediaTek携手生态伙伴联合发布《生成式AI手机产业白皮书》

    、腾讯混元、vivo等生态伙伴*,联合发布《生成式AI手机产业白皮书》,共同定义了“生成式AI手机”的概念和典型特征。
    的头像 发表于 05-08 16:48 392次阅读

    芯驰科技与Qt Group联合发布并展示了全新的智能座舱解决方案

    在2024年4月25日开幕的北京国际汽车展上,芯驰科技与HMI开发软件提供商Qt Group联合发布并展示了全新的智能座舱解决方案
    的头像 发表于 04-29 14:23 1669次阅读
    芯驰科技与Qt Group<b class='flag-5'>联合发布</b>并展示了全新的智能座舱解决方案

    润和软件与新财富联合发布金融AI对话式搜索引擎“金融搜一搜”产品

    3月29日,新财富投顾嘉年华活动中,江苏润和软件股份有限公司(以下简称“润和软件”)与深圳市新财富数字科技有限责任公司(以下简称“新财富”)联合发布了金融AI对话式搜索引擎——“金融搜一搜”产品,助力金融投资场景智能化升级。
    的头像 发表于 04-02 10:15 452次阅读
    润和软件与新财富<b class='flag-5'>联合发布</b>金融<b class='flag-5'>AI</b>对话式搜索引擎“金融搜一搜”产品

    谷歌DeepMind推出SIMI通用AI智能体

    近日,谷歌DeepMind团队发布了其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),这是一个通用人工智能智能体,能够在多种3D虚拟环境
    的头像 发表于 03-18 11:39 893次阅读

    谷歌计划重新推出改进后的Gemini AI模型人像生成功能

    谷歌DeepMind的首席执行官德米斯·哈萨比斯在2月26日透露,公司计划在接下来的几周内重新发布其备受关注的Gemini AI模型人像生成功能。此前,由于在某些历史图像生成描述中出现
    的头像 发表于 02-28 10:17 543次阅读

    谷歌DeepMind推新AI模型Genie,能生成2D游戏平台

    据报道,谷歌公司的DeepMind团队近期发布AI模型Genie,此模型拥有多达110亿个参数,能够依据用户提供的图片及提示词创建出相当完整的2D游戏场景。
    的头像 发表于 02-27 14:53 729次阅读

    中国电信携手中兴通讯联合发布Cluster DRS创新技术和成果

    2月26日,2024年世移动通信大会(MWC2024)在西班牙巴塞罗那开幕。展会期间,中国电信携手中兴通讯联合发布了Cluster DRS(Dynamic Radio Sharing,基站簇级的动态波束共享)创新技术和成果。
    的头像 发表于 02-27 10:44 459次阅读

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾
    的头像 发表于 02-04 10:02 742次阅读

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 456次阅读