0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

李飞飞高徒盘点年度十大AI亮点:核聚变、ChatGPT、AlphaFold上榜

颖脉Imgtec 2023-01-13 11:10 次阅读

来源:新智元编辑:Aeneas 昕朋


【导读】2022年有哪些人工智能的突破?今天,李飞飞高徒Jim Fan盘点了年度十大AI亮点。

人工智能的爆炸正在扭曲我们的时间感。

你能相信Stable Diffusion只有4个月大,而ChatGPT的出现还不到一个月吗?

打个形象的比喻,只要眨一下眼,你就会错过一个全新的行业。

2022年的AI领域,大规模的生成模型像雨后春笋一样地冒出,改变了整个AI界的格局。

而且,这些模型正在迅速走出实验室,在现实中被应用。

比如,LLM技术就启发了两个新兴的领域——决策代理(游戏、机器人等等)和 AI4Science。

李飞飞高徒Jim Fan为我们总结了2022年的十大AI高光时刻。让我们把时间倒转,看看2022年都有哪些令人惊叹的AI突破。
一、文字-图像生成

DALLE-2是第一个可以从任意标题生成逼真的高分辨率图像的大规模扩散模型。

它启动了AI的艺术革命,催生了许多新的应用程序、初创公司和思维方式。

但 DALLE-2被保护在OpenAI的围墙后面,并没有开源。

在OpenAI之后,LMU的StabilityAI和runwayml迈出了英勇的一步,基于「潜在扩散」算法训练了他们自己的互联网规模的text2image模型。他们称该模型为「稳定扩散」,并开源了代码和权值(weighs)。

事实证明,Stable Diffusion的开放性,让它给游戏带来了巨变。现在,许多初创公司和研究实验室都在Stable Diffusion的基础上创建新的应用程序,Stable Diffusion本身也被开源社区不断改进。最近,Stable Diffusion已经达到了v2.1版本,可以在单个GPU上运行了。9bcdebf4-9194-11ed-ad0d-dac502259ad0.png

另外,今年还有来自GoogleAI的两个image2text模型。GoogleAI既没有发布模型也没有发布API,但从论文中,我们仍然可以看到不少有趣的见解。

Imagen

Parti

它是一个没有diffusion的Transformer模型。


二、文字-文字生成大家都知道,我说的是ChatGPT!
这是历史上唯一一个在5天内就获得了100万用户的应用程序。ChatGPT也大大启发了我们人类的创造力。

ChatGPT和GPT-3.5都使用了一种叫做RLHF(「从人类反馈中强化学习」)的新技术。

这也就意味着,提示工程或许很快就会消失了。

ChatGPT的流行,已经催生了一波新的创业公司和竞争者,比如Jasper Chat、YouChat、Replit的Ghostwriter chat,以及perplexity_ai

这些竞争者提供了如此直观的搜索方式,连谷歌的高管们都开始出汗了!


三、文本- 机器人模型如何给GPT提供胳膊和腿,让它们能打扫你混乱的厨房?

与NLP不同,机器人模型需要与物理世界互动。

在今年,大的预训练Transformer终于开始解决机器人领域最难的问题了!

VIMA

10月,我和同事创建了一个 「机器人GPT 」——名为VIMA的tranformer。它可以接收任何混合的文本、图像和视频作为prompt,并输出机器人手臂的控制。我们的模型被称为VIMA(「VisuoMotor Attention」),已经完全开源了。现在,单个智能体已经能够解决视觉目标、视频的一次性模仿、新概念基础、视觉约束等,具有了模型容量和数据的强大扩展性。9c40d786-9194-11ed-ad0d-dac502259ad0.gif

RT-1

沿着与VIMA类似的路径,来自GoogleAI的研究人员发布了RT-1,这是一种在700项任务和130K的人类演示上训练的机器人transformer。

这些数据是由13个机器人在17个月内收集的,是字面意义上的钢铁部队!9c51f002-9194-11ed-ad0d-dac502259ad0.gif
四、文本 - 视频本质上说,视频就是随着时间的推移捆绑在一起的一系列图像,给我们创造了运动的错觉。

如果我们可以做text2image,那为什么不在里面加上时间轴,来获得额外的乐趣呢?

目前,文本 - 视频领域有3个重大的工作,但没有一个是开源的。

Make-A-Video

首先是Meta AI的Make-A-Video:不需要成对的文本-视频数据,就可以得到文本-视频的生成。

您可以在此处注册试用访问权限:https://makeavevideo.studio

9dcf87d2-9194-11ed-ad0d-dac502259ad0.png论文链接:https://arxiv.org/abs/2209.14792

Imagen Video

Google AI的Imagen Video:它能使用扩散模型生成高清视频,基于Imagen静态图像生成器。

Phenaki

来自谷歌AI的Phenaki: 从开放领域的文本描述中生成可变长度的视频。


五、文本-3D建模从设计创新产品到在电影和游戏中创造奇妙的视觉效果,3D建模正成为文本-X生成模型的下一片蓝海。令人惊喜的是,2022年出现了许多卓有前途的3D生成模型。在此,Fan列举了3个模型。

DreamFusion

首先登场的,是Google AI研究团队与UC Berkeley联合开发的DreamFusion。

该模型使用二维文本到图像的扩散模型来执行文本到三维的合成。

基于NeRF算法,DreamFusion可以通过给定文本生成3D模型。

9e9ef81e-9194-11ed-ad0d-dac502259ad0.gif

该模型可以从任何角度查看,在任意照明下可以重新点亮,还可以合成到任何三维环境当中。

Magic3D

第二项成果,是英伟达AI团队的两个项目,名为GET3D和Magic3D。

9ebe3b2a-9194-11ed-ad0d-dac502259ad0.pngGET3D论文链接:https://nv-tlabs.github.io/GET3D/assets/paper.pdf9ecbbbe2-9194-11ed-ad0d-dac502259ad0.png

Magic3D论文链接:https://arxiv.org/pdf/2211.10440.pdf

GET3D仅使用二维图像进行训练,可生成具有高保真纹理和复杂几何细节的三维图形。

9edcf722-9194-11ed-ad0d-dac502259ad0.gif

该模型允许用户立即将其形体导入3D渲染器和游戏引擎,以便进行后续编辑。

Magic3D与DreamFusion类似,使用文本到图像模型生成2D图像,然后优化为体积NeRF(神经辐射场)数据,将低分辨率生成的粗略模型优化为高分辨率的精细模型。

9ef0a588-9194-11ed-ad0d-dac502259ad0.gif

根据英伟达AI团队,由此产生的Magic3D方法,可以比DreamFusion更快地生成3D目标。

Point-E

继年初推出的DALL-E 2用天才画笔惊艳所有人之后,周二OpenAI发布了最新的图像生成模型「POINT-E」,它可通过文本直接生成3D模型。

相比竞争对手们(如谷歌的DreamFusion)需要几个GPU工作数个小时,POINT-E只需单个GPU便可在几分钟内生成3D图像。

根据测试,Prompt输入后POINT-E基本可以秒出3D图像,此外输出图像还支持自定义编辑、保存等功能。
六、会玩《我的世界》的AI

《我的世界》是一款测试AI通用智能的绝佳游戏。首先,它是一款无限开放的沙盒游戏,极度体现玩家的创造力。

其次,该游戏有1.4亿的玩家群体,是英国总人口的两倍。用户基础如此庞大,供AI学习的游戏数据可谓是源源不绝。

那么,AI能否和人类一样尽情挥洒想象力呢?

Jim Fan和同事合作开发了第一个玩《我的世界》的AI「MineDojo」,它可以在自然语言提示下解决许多任务。

Fan的最终目标是建立一个「具身的ChatGPT」。目前,MineDojo平台已经完全开源。

与此同时,Jeff Clune的团队宣布了一个名为视频预训练(VPT)的模型,该模型可以直接输出键盘和鼠标的动作。

VPT拥有更广阔的视野,但不受语言条件的限制。在这点上,MineDojo和VPT恰好相辅相成。

七、AI外交官Meta AI推出的CICERO是第一个在《外交》游戏中实现人类水平表现的人工智能智能体。

《外交》是一款七人制经典策略游戏,可以说是棋盘游戏Risk、纸牌游戏扑克和电视节目Survivor的结合。该游戏需要广泛的自然语言协商才能与人类合作和竞争。然而,CICERO的出现表明,人工智能现在已经有说服他人和虚张声势的能力。

目前,DeepMind也宣布开发自己的外交官AI智能体。那么,如果CICERO使用这个AI模型,又会发生什么呢?
八、音频-文本模型Whisper是OpenAI发布的一个大型开源语音识别模型,在英语语音识别方面有接近人类水平的鲁棒性和准确性。

Whisper经过了来自网络的680,000小时音频数据的训练。Open AI强调,Whisper的语音识别能力已达到人类水准。

9fb4cfee-9194-11ed-ad0d-dac502259ad0.png

Open AI将Whisper开源,是否是为了解锁更多文本token,用以训练万众瞩目的GPT-4呢?
九、核聚变DeepMind与瑞士洛桑联邦理工学院(EPFL)联合开发了第一个核聚变相关的深度强化学习系统,可以保持核聚变等离子体在托卡马克内的稳定。

9fc47516-9194-11ed-ad0d-dac502259ad0.png

论文链接:https://www.nature.com/articles/s41586-021-04301-9

同样在本月,美国能源部宣布了一项巨大的突破:人类首次实现了核聚变反应的净能量增益!

9fd5c42e-9194-11ed-ad0d-dac502259ad0.jpg

这是人类首次实现这一里程碑。这一生,我们或许会成为聚变文明!
十、应用于生物学的Transformer2021年,AlphaFold开启了语言模型预测蛋白质3D结构的序幕。

7月,DeepMind宣布了「蛋白质宇宙」——将AlphaFold的蛋白质数据库扩展到2亿个结构!

此外,英伟达AI研究团队还拓展了BioNeMo大型语言模型的框架,以帮助生物技术公司和研究人员生成、预测和理解生物分子数据。

以上便是Jim Fan对2022年十大AI亮点的盘点。当然,Fan也表示,还有无数令人兴奋的作品为人工智能的进步做出了贡献。

每篇论文都是AI大厦里的一砖一瓦,所有的努力都应该庆祝。

不过,Fan在最后也强调,随着人工智能系统变得越来越强大,我们必须意识到潜在的危险和风险,并采取措施减轻它们。

无论是通过仔细的培训设计、适当的监督还是全新的保障方法,人工智能的安全与伦理成为越来越的AI专家所讨论的议程。

毫无疑问,2022年是充满奇迹的一年,也是令人惊叹的一年。未来一年又会有什么震惊世界的突破?我们与你一起关注。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30763

    浏览量

    268914
  • 人工智能
    +关注

    关注

    1791

    文章

    47208

    浏览量

    238298
收藏 人收藏

    评论

    相关推荐

    比亚迪海豹荣获日本年度风云车十大最佳车型奖

    近日,比亚迪海豹凭借卓越表现,荣获2024-2025日本年度风云车“十大最佳车型”奖。这一奖项由“日本年度风云车评选委员会”主办,旨在表彰年度最受关注的
    的头像 发表于 12-17 13:50 129次阅读

    全国产PSM高压电源控制系统,助力核聚变技术发展

    面对日益加剧的能源消耗问题,核聚变作为一种具有巨大潜力的清洁能源,其研究与开发的重要性日益凸显。高压脉冲电源在核聚变反应中发挥着重要作用,它必须具备高电压、强电流、快速响应和精准控制等特性,以适应
    的头像 发表于 09-18 10:40 491次阅读
    全国产PSM高压电源控制系统,助力<b class='flag-5'>核聚变</b>技术发展

    可控核聚变解决方案

    聚变是两个轻原子核聚合,生成新的更重原子核的过程,其反应释放的能量巨大。因该过程同太阳的发光发热过程一致,可控核聚变又称为人造太阳。其凭借资源无限、环境友好等优势,被誉为人类能源的终极解决方案。我国
    发表于 09-05 10:32 1次下载

    解决方案丨持续注能人造太阳装置,助力我国可控核聚变技术研究

    核聚变是两个轻原子核聚合,生成新的更重原子核的过程,其反应释放的能量巨大。因该过程同太阳的发光发热过程一致,可控核聚变又称为人造太阳。其凭借资源无限、环境友好等优势 ,被誉为人类能源的终极解决方案
    的头像 发表于 08-30 16:37 537次阅读
    解决方案丨持续注能人造太阳装置,助力我国可控<b class='flag-5'>核聚变</b>技术研究

    解决方案丨持续注能人造太阳装置,助力我国可控核聚变技术研究

    可控核聚变技术和原理是氘氚原子聚变形成氦原子释放大量的能量,该过程同太阳的发光发热过程一致,因此可控核聚变又称为人造太阳。因其具有资源无限、环境友好等特点,被誉为人类能源的终极解决方案。我国在
    的头像 发表于 08-28 18:20 369次阅读
    解决方案丨持续注能人造太阳装置,助力我国可控<b class='flag-5'>核聚变</b>技术研究

    业务资讯丨森木磊石持续发力加速器、核聚变;PPEC电源控制核心走入高校课堂

    粒子加速器和核聚变是当今科学研究和能源开发领域的重要方向,具有巨大的发展潜力和广泛的应用前景。粒子加速器作为提高粒子能量的重要工具,广泛应用于医疗、辐照加工、环保、无损检测等领域。而核聚变是一种模拟
    的头像 发表于 07-27 08:23 476次阅读
    业务资讯丨森木磊石持续发力加速器、<b class='flag-5'>核聚变</b>;PPEC电源控制核心走入高校课堂

    AI浪潮下的十大消费者新趋势

    人工智能已经风靡全球,当我们沉浸在AI技术为办公与生活带来的各种便利时,一些人也会质疑:AI 真的能为我们描绘出更美好的未来画卷吗? AI 赋能的十大消费者趋势 爱立信消费者实验室的最
    发表于 06-05 10:30 363次阅读

    度亘核芯荣获“2023年度中国十大光学产业技术”奖

    5月18日,由光电汇主办的“2023年中国十大光学产业技术”年度评选颁奖典礼于武汉光谷科技会展中心隆重召开。经专家评审、网络投票等严格评选,度亘核芯“用于车载激光雷达的940nm芯片与光纤模块”在一
    的头像 发表于 05-23 08:28 607次阅读
    度亘核芯荣获“2023<b class='flag-5'>年度</b>中国<b class='flag-5'>十大</b>光学产业技术”奖

    新火种AI|AI教母飞飞初创AI公司,开启最前沿AI算法研究

    AI教母飞飞首次创业,瞄准“空间智能”。
    的头像 发表于 05-06 16:24 311次阅读
    新火种<b class='flag-5'>AI</b>|<b class='flag-5'>AI</b>教母<b class='flag-5'>李</b><b class='flag-5'>飞飞</b>初创<b class='flag-5'>AI</b>公司,开启最前沿<b class='flag-5'>AI</b>算法研究

    韩国“人造太阳”在核聚变研究中取得重大突破

    这一进展是迈向实现近乎无限清洁能源的关键一步。科研人员数年来致力于借助核聚变实现人类无限能源需求,该技术模拟了恒星内部的能量产生过程。核聚变通过高压、高温条件下使氢原子转化为氦原子,从而释放能量。
    的头像 发表于 04-15 10:39 601次阅读

    科学家利用AI预测核聚变反应堆裂变模式,避免重启反应堆

    解决核聚变反应中过热等离子体不可预测性问题,是实现稳定电力产出的最大瓶颈之一。近期,美国普林斯顿等离子体物理实验室(简称 PPPL)取得重要进展,已经成功研发新型AI系统,可提前300毫秒预测聚变中等离子体的“撕裂”行为
    的头像 发表于 02-28 16:08 784次阅读

    核电站工作原理 核电站是核聚变还是核裂变

    核电站是通过核裂变反应来工作的。核裂变是指重核如铀、钚等核素被中子撞击后裂变成两个或多个较轻的核片,同时释放出大量的能量。而核聚变则是指两个轻核聚变成重核的过程。目前,核能发电主要依靠的是核裂变
    的头像 发表于 02-02 16:27 1680次阅读

    睿创微纳8微米荣获“2023年度山东十大科技创新成果”

    近日,在烟台召开的两院院士评选“2023年中国/世界十大科技进展新闻”发布会上,公布了“2023年度山东省十大科技创新成果”榜单。其中,睿创微纳凭借其研发的8微米非制冷红外热成像模组,荣获榜单之首,填补了世界空白。
    的头像 发表于 01-25 16:27 702次阅读

    睿创微纳8微米荣获“2023年度山东十大科技创新成果”

    1月11日,两院院士评选“2023年中国/世界十大科技进展新闻”发布会在烟台召开,会上公布“2023年度山东省十大科技创新成果”榜单。
    的头像 发表于 01-16 09:48 539次阅读
    睿创微纳8微米荣获“2023<b class='flag-5'>年度</b>山东<b class='flag-5'>十大</b>科技创新成果”

    2023年度十大科技名词

    12月26日,“2023年度十大科技名词”在京发布。“大语言模型、生成式人工智能、量子计算、脑机接口、数据要素、智慧城市、碳足迹、柔性制造、再生稻、可控核聚变”入选。个最具影响力和代
    的头像 发表于 01-03 08:27 614次阅读
    2023<b class='flag-5'>年度</b><b class='flag-5'>十大</b>科技名词