0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌DeepMind重磅发布了基础世界模型:Genie(精灵)

vliwulianw 来源:软件质量报道 2024-02-28 10:45 次阅读

大家都喜欢玩游戏吧?因为游戏最大的吸引力是让我们逃避现实、幻想一个远离我们眼前现实的世界,掌控这个虚拟的现实世界。现在,我们可以想象一下,如果我们有能力创造自己的世界,那该多好了。 让我们激动的这一天来了! 北美时间26号下午,GoogleGenie团队的负责人Tim Rocktäschel非常兴奋地宣布:Google DeepMindOpen Endedness团队开发的基于互联网视频训练的基础世界模型(foundation world model)——Genie

(幽灵)发布了,它可以根据图像提示生成无穷无尽的可控动作2D世界的各种变化。这个110亿参数大模型Genie,能从一张图片就能创造出可玩的虚拟世界,动作可控,这也预示着,AI已经真正杀到视频游戏领域了。

084845f0-d5db-11ee-a297-92fbcf53809c.png

0853455e-d5db-11ee-a297-92fbcf53809c.png

什么是Genie(精灵)?

根据 Google DeepMind 的官方博客文章,Genie 是一个基础世界模型,它是根据来自互联网的视频进行训练的。该模型可以“从合成图像、照片甚至草图中生成无穷无尽的可玩(动作可控)世界”。 研究论文 “Genie:Generative Interactive Environments” 指出,Genie是第一个从未标记的互联网视频中以无监督方式训练的生成式交互式环境。在大小方面,Genie 的参数为 11B,由时空视频标记器(spatiotemporal videotokenizer)、自回归动力学模型(autoregressive dynamics model)和简单且可扩展的潜在动作模型(simple and scalable latent action model)组成。

这些技术规范允许 Genie 在生成的环境中逐帧运行,即使在没有训练、标注或任何其他特定领域要求的情况下也是如此。

Genie 能做什么的?

根据这篇研究论文,Genie是一种新型的生成式人工智能,它使任何人(甚至是儿童)都能梦想并进入类似于人类设计的模拟环境的生成世界。可以提示 Genie 生成一组不同的交互式和可控环境,尽管它是在纯视频数据上训练的。

简而言之,我们已经看到了许多生成式 AI 模型,它们使用语言、图像甚至视频生成创意内容。Genie 是一个突破,因为它可以从单个图像提示中创建可玩的环境。

试着记住《哈利·波特与魔法石》中哈利和他的朋友们在前往格兰芬多公共休息室的路上进入霍格沃茨城堡的场景。年轻的学生们看到一面墙上挂满了画作,每个角色都在他们的画面中慢慢地移动,这些画作栩栩如生。Genie能使静止图像栩栩如生,赋予我们一个自己的世界。

根据 Google DeepMind 的说法,Genie 可以收到它从未见过的图像提示,这包括现实世界的照片、草图,允许人们与他们想象的虚拟世界互动,这就是称之为“基础世界模型”。在培训方面,研究论文强调,他们更关注2D平台游戏和机器人技术的视频。Genie 使用通用方法进行训练,使其能够在任何类型的域上运行,并且可以扩展到更大的 Internet 数据集。

为什么Genie很重要?

Genie 的突出之处在于它能够从互联网视频中学习和重现游戏中角色的控制。这是值得注意的,因为互联网视频没有关于视频中执行的动作的标签,甚至没有关于应该控制图像的哪一部分的标签。

Google 博客文章写道:“Genie不仅可以学习观察的哪些部分通常是可控的,还可以推断出在生成的环境中一致的各种潜在行为。请注意,相同的潜在动作如何在不同的提示图像中产生相似的行为,“ 根据 Google DeepMind 的说法,该模型最独特的方面是:它允许您从单个图像创建一个全新的交互式环境。这开辟了许多可能性,尤其是创建和进入虚拟世界的新方法。为了证明这一点,研究人员使用文本到图像模型Imagen 2创建了一个图像,然后将其用作创建虚拟世界的提示。草图也可以做同样的事情。

有了 Genie,任何人都可以创建自己完全想象的虚拟世界。此外,该模型学习和开发新世界模型的能力标志着向通用人工智能代理(一个独立的程序或实体,通过传感器感知其周围环境来与环境交互)的重大飞跃。 开启另一个旅程:




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6211

    浏览量

    106492
  • 人工智能
    +关注

    关注

    1800

    文章

    48083

    浏览量

    242164
  • 大模型
    +关注

    关注

    2

    文章

    2781

    浏览量

    3432

原文标题:基础世界模型Google Genie诞生了:根据提示生成无穷无尽的、可交互的2D世界

文章出处:【微信号:软件质量报道,微信公众号:软件质量报道】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌加速AI部门整合:AI Studio团队并入DeepMind

    近日,谷歌正紧锣密鼓地推进其人工智能(AI)部门的整合工作。据谷歌AI Studio主管Logan Kilpatrick在领英页面上的透露,谷歌已将AI Studio团队整体转移至DeepMi
    的头像 发表于 01-13 14:40 345次阅读

    英伟达发布Cosmos世界基础模型

    近日,在2025年1月6日于拉斯维加斯拉开帷幕的国际消费类电子产品展览会(CES)上,英伟达宣布一项重大创新——Cosmos世界基础模型平台。该平台集成了先进的生成世界基础
    的头像 发表于 01-09 10:23 416次阅读

    Google DeepMind发布Genie 2:打造交互式3D虚拟世界

    在OpenAI宣布即将发布模型和新功能后,Google DeepMind也不甘落后,于近日推出了大型基础世界模型——
    的头像 发表于 12-05 14:16 761次阅读

    Waymo利用谷歌Gemini大模型,研发端到端自动驾驶系统

    10月31日讯,自动驾驶领域的先锋Waymo,作为Alphabet旗下的一员,长久以来将其与谷歌DeepMind的紧密合作及深厚的AI研究底蕴视为其在自动驾驶竞赛中脱颖而出的关键。如今,Waymo再
    的头像 发表于 10-31 16:55 1291次阅读

    谷歌计划12月发布Gemini 2.0模型

    近日,有消息称谷歌计划在12月发布其下一代人工智能模型——Gemini 2.0。这一消息引发了业界的广泛关注,因为谷歌在人工智能领域一直保持着领先地位,而Gemini系列
    的头像 发表于 10-29 11:02 838次阅读

    AI实火!诺贝尔又把化学奖颁给AI大模型

    的蛋白质结构预测大模型——AlphaFold系列。 今年5月9日,谷歌DeepMind重磅发布
    的头像 发表于 10-10 10:38 311次阅读

    谷歌发布革命性AI天气预测模型NeuralGCM

    在科技与自然科学的交汇点上,谷歌公司于7月23日宣布一项重大突破——全新的人工智能天气预测模型NeuralGCM。这一创新成果不仅融合机器学习的前沿技术,还巧妙结合
    的头像 发表于 07-23 14:24 614次阅读

    谷歌DeepMind被曝抄袭开源成果,论文还中了顶流会议

    谷歌DeepMind一篇中了顶流新生代会议CoLM 2024的论文被挂了,瓜主直指其抄袭一年前就挂在arXiv上的一项研究。开源的那种。
    的头像 发表于 07-16 18:29 700次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>DeepMind</b>被曝抄袭开源成果,论文还中了顶流会议

    阶跃星辰发布重磅模型新品,引领AI新纪元

    在万众瞩目的2024年世界人工智能大会上,阶跃星辰公司以其卓越的科研实力和创新能力,震撼发布三款全新的Step系列通用大模型产品,标志着公司在人工智能领域的又一重大突破。
    的头像 发表于 07-05 16:13 869次阅读

    谷歌发布新型大语言模型Gemma 2

    在人工智能领域,大语言模型一直是研究的热点。近日,全球科技巨头谷歌宣布,面向全球研究人员和开发人员,正式发布其最新研发的大语言模型——Ge
    的头像 发表于 06-29 09:48 560次阅读

    谷歌发布AI文生图大模型Imagen

    近日,谷歌在人工智能领域取得新突破,正式推出了Imagen文生图模型。这款模型以其卓越的细节调整功能、逼真的光线效果以及从草图快速生成高分辨率图像的能力,引起了业界的广泛关注。
    的头像 发表于 05-16 09:30 639次阅读

    谷歌DeepMind发布人工智能模型AlphaFold最新版本

    谷歌DeepMind近日发布人工智能模型AlphaFold的最新版本——AlphaFold 3,这一革命性的工具将在药物发现和疾病治疗领域
    的头像 发表于 05-10 11:26 710次阅读

    谷歌DeepMind推出新一代药物研发AI模型AlphaFold 3

    谷歌DeepMind公司近日重磅推出了一款名为AlphaFold 3的全新药物研发AI模型,这一创新技术将为科学家们提供前所未有的帮助,使他们能更精确地理解疾病机制,进而开发出更高效的
    的头像 发表于 05-10 09:35 495次阅读

    谷歌发布用于辅助编程的代码大模型CodeGemma

    谷歌发布用于辅助编程的代码大模型 CodeGemma。CodeGemma 基于谷歌今年 2 月发布
    的头像 发表于 04-17 16:07 838次阅读
    <b class='flag-5'>谷歌</b><b class='flag-5'>发布</b>用于辅助编程的代码大<b class='flag-5'>模型</b>CodeGemma

    谷歌DeepMind推出SIMI通用AI智能体

    近日,谷歌DeepMind团队发布其最新研究成果——SIMI(Scalable Instructable Multiworld Agent),这是一个通用人工智能智能体,能够在多种
    的头像 发表于 03-18 11:39 1167次阅读