0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为、理想、特斯拉、商汤的世界模型是做什么用的

佐思汽车研究 来源:佐思汽车研究 2025-01-14 09:27 次阅读

最近世界模型(World Model)很火,甚至有人说世界模型是终极自动驾驶解决方案,实际上它只是端到端大模型的一种,和VLM没有本质区别。目前的研究基本都集中在用世界模型生成视频或其他连续时间序列上的可视化数据,再用这些视频训练传统或端到端的自动驾驶模型,几乎没有人研究直接用世界模型做自动驾驶的。即便是视频生成,也还是处于实验室的学术研究阶段。

47a33876-cfc8-11ef-9310-92fbcf53809c.jpg

图片来源:网络

为什么要做世界模型,它实际上是端到端自动驾驶的闭环仿真,世界模型可以看做VLM的逆向工程,用prompt这些文字提示输出视频。世界模型和端到端模型是一个互相帮助的过程,世界模型生成的视频交给车端大模型,车端大模型通过它的规划执行接下来的动作,接下来的动作产生新的场景、新的视角,再通过世界模型继续生成新的数据,进行闭环仿真的测试。

47b92f28-cfc8-11ef-9310-92fbcf53809c.png

图片来源:网络

不同于CARLA这些测试型仿真,世界模型是训练型仿真,它要达到海量规模才有价值。

47d6bf70-cfc8-11ef-9310-92fbcf53809c.jpg

图片来源:网络

世界模型生成视频可以是自监督的,无需3D标签,可以使用海量网络汽车驾驶视频。最重要的是它可以生成现实世界中极难采集到的长尾视频,这是其核心价值。换句话说它生成的视频价值是现实世界采集到的视频数据的价值百倍以上,但成本是其1%不到。

47f20140-cfc8-11ef-9310-92fbcf53809c.png

图片来源:网络

所谓世界模型就是视频生成加prompt控制。视频生成有四大类型,包括基于对抗网络GAN的,基于扩散模型的,基于自回归模型(基本上就是transformer)和基于掩码的。其中,扩散模型再分为Stable Video Diffusion (SVD)和Stable Diffusion (SD)两种,它们还有一种共同的称呼即隐扩散模型(Latent Diffusion Model, LDM)。目前也有结合diffusion和transformer的模型即DiT,但它本质上还是扩散模型,只不过用transformer替换了扩散模型中的Unet。大名鼎鼎的SORA则是复合型,Sora模型的核心组成包括Diffusion Transformer(DiT)、Variational Autoencoder(VAE)和Vision Transformer(ViT)。DiT负责从噪声数据中恢复出原始的视频数据,VAE用于将视频数据压缩为潜在表示,而ViT则用于将视频帧转换为特征向量以供DiT处理。据说特斯拉就是用的SVD。

基于世界模型的端到端训练

4811fe96-cfc8-11ef-9310-92fbcf53809c.png

图片来源:网络

生成视频的质量分为两部分,一是视频本身的准确度,主要指标有三个,一个是FID/FVD,另一个是CLIP得分。FID(Fréchet Inception Distance)是一种用于评估生成模型,尤其是在图像生成任务中,生成图像的质量和多样性的指标。它通过比较生成图像与真实图像在特定空间内的分布来工作。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。对于生成图像集和真实图像集,分别通过Inception网络(通常是Inception V3模型)计算它们的特征表示。这一步骤会得到每个图像集的特征向量,计算每个集合的特征向量的均值和协方差矩阵,并做对比,都是高等数学的课程,这里就不展开说了。FVD和FID接近,相当于把FID的图像特征提取网络换成视频特征提取网络,其他都差不多。最后一个是北大提出来的,就是Trajectory Agent IoU (NTA-IoU),与设定轨迹的交并比,Novel Trajectory Lane IoU (NTL-IoU),与设定车道的交并比。

二是视频本身的长度、帧率和分辨率,要尽可能与传统自动驾驶训练视频达到一致的帧率和分辨率。

目前世界模型生成视频的方向有两个,一个是追求更长、更多视角、更高分辨率,代表作有商汤的《InfinityDrive: Breaking Time Limits in Driving World Models》,华为的《MagicDriveDiT: High-Resolution Long Video Generation》,Wayve的GAIA-1,地平线的DrivingWorld。另一个是追求近乎真实的3D场景渲染,理想在这方面情有独钟,理想的Street Gaussians、ReconDreamer、DriveDreamer4D都是这个方向,也是这个领域的主要代表作。

4829e9ca-cfc8-11ef-9310-92fbcf53809c.jpg

图片来源:网络

特斯拉用的什么世界模型,自然是未知,也许它根本就没用世界模型。

483836ec-cfc8-11ef-9310-92fbcf53809c.png

注:“Ours”指的就是InfinityDrive

图片来源:商汤论文《InfinityDrive: Breaking Time Limits in Driving World Models》

4855bcf8-cfc8-11ef-9310-92fbcf53809c.png

图片来源:华为的MagicDriveDiT

华为不仅能生成超高分辨率,还能生成多个角度的视频。

4890c258-cfc8-11ef-9310-92fbcf53809c.png

数据来源:地平线的DrivingWorld,数据尺度比较大,分辨率也很高

我们再来看另一条3D渲染线,它的核心应该说有点偏离世界模型的本来意义了,它是追求接近真实的3D渲染,基本上是理想汽车的独角戏。三个比较有价值的模型基本都有理想汽车的身影,第一个是Street Gaussians: Modeling Dynamic Urban Scenes with Gaussian Splatting,浙江大学和理想汽车合作,九位作者,其中来自理想汽车的作者占四位。第二个是DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation,由极佳科技联合中国科学院自动化研究所、理想汽车、北京大学、慕尼黑工业大学等单位提出,十二位作者两位来自理想汽车。第三个是ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration,总共十六位作者,其中来自理想汽车的多达八位,来自极佳科技的有六位。

48a50434-cfc8-11ef-9310-92fbcf53809c.png

图片来源:论文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

上图可以看到,理想汽车与极佳科技合作的最新成果就是ReconDremaer,纯粹StreetGaussians的话,一旦偏离中心视角,容易出现空洞或鬼影,车道线也出现扭曲。

ReconDreamer整体框架

48caa7b6-cfc8-11ef-9310-92fbcf53809c.png

图片来源:论文《ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration》

除了生成视频,还有生成激光雷达点云视频,如理想与澳门大学合作的《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》,还有生成语义分割图的《SynDiff-AD: Improving Semantic Segmentation and End-to-End Autonomous Driving with Synthetic Data from Latent Diffusion Models》。

OLiDM的整体框架

48d1378e-cfc8-11ef-9310-92fbcf53809c.png

图片来源:论文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》

上图中,世界模型生成激光雷达点云视频,再拿这个去训练激光雷达的识别能力。

48ebf6a0-cfc8-11ef-9310-92fbcf53809c.png

数据来源:论文《OLiDM: Object-aware LiDAR Diffusion Models for Autonomous Driving》。

OLiDM的效果,能有两三个点的提升,已经是非常难得了,现在在nuScenes上0.001的提升都需要一年半以上的时间。

世界模型一点也不神秘,不仅是端到端自动驾驶,它对传统自动驾驶也有明显的提升,自动驾驶的数据成本也大幅度下降至少95%以上,那些所谓影子模式变得毫无价值,实际上没有世界模型生成视频,影子模式本身也毫无价值,这也是马斯克说他用扩散模式生成视频的原因,如果影子模式真有价值,何必多此一举?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    216

    文章

    34509

    浏览量

    252382
  • 特斯拉
    +关注

    关注

    66

    文章

    6321

    浏览量

    126677
  • 商汤
    +关注

    关注

    0

    文章

    56

    浏览量

    3963

原文标题:华为、理想、特斯拉、商汤的世界模型是做什么用的?

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    相关推荐

    dac7624 data output timing是做什么用的?

    1:请问左侧的 data output timing 是做什么用的?右侧的是写数字输入的时序吧。2:这款dac可以单纯的IO模拟时序通信吧3:这个t CSD 要求最大不能超过160ns 很多单片机都达不到吧。单纯的翻转下IO,实际
    发表于 01-01 07:52

    TAS5611a的13脚14脚的晶振是做什么用的?

    最近要做一个项目,D类功放立体声输出,接8欧负载时要求功率要50W以上,查看TI芯片资料TAS5611A比较适合,但是我看到资料上面第13脚,14脚有个晶振的接口,请问这个晶振是做什么用的,需要多少MHZ比较合适?
    发表于 10-29 07:18

    请问TLV320AIC3204中Processing Block是做什么用的啊?

    TLV320AIC3204中Processing Block 是做什么用的啊?
    发表于 10-24 08:24

    TAP3118和TPA3116开发板所处位置的电路是做什么用的?

    如图的TAP3118和TPA3116开发板所处位置的电路是做什么用的,为什么在芯片PDF里面这里这个电路却没有,而是在电感输出那里加了一个1nF对地,这两种方式有什么不一样
    发表于 10-12 08:23

    BOOSTXL_BUCKCONV评估板上的高边电流采样电路,请问C10-C14都是做什么用的呢?

    这是ti的BOOSTXL_BUCKCONV评估板上的高边电流采样电路,请问C10-C14都是做什么用的呢?是用来补偿相位吗?如果不是的话是做什么用的呢?这些电容值怎么计算呢
    发表于 09-06 06:29

    什么是理想元件?什么是电路模型

    理想元件 理想元件是指在电路分析中,为了简化问题,将实际元件抽象为具有理想特性的元件。理想元件的特点是它们的行为可以简单的数学
    的头像 发表于 08-22 15:27 2814次阅读

    opa593的pspice模型里面为什么有很多别的器件呢?

    如图所示,利用cadence pspice打开的opa593的pspice模型里面为什么有很多别的器件,这些器件是做什么用
    发表于 07-30 07:24

    商汤科技与泰国DTGO集团联合发布泰语大模型

    「日日新」出海了! 7月10日,商汤联合泰国DTGO集 团及旗下Quinnnova共同发布「东风」泰语大模型 (DTLM),成为 全球首个能在泰文、中文、英文三种语言环境下高效工作的AI大语言模型
    的头像 发表于 07-11 19:57 1162次阅读
    <b class='flag-5'>商汤</b>科技与泰国DTGO集团联合发布泰语大<b class='flag-5'>模型</b>

    商汤科技发布日日新5.5大模型体系

    商汤科技近日震撼发布其最新的日日新5.5大模型体系,标志着人工智能领域又迈出了坚实的一步。该体系以6000亿参数的超大规模基础模型——日日新5.5为核心,性能较上一代实现了显著提升,高达30%的性能飞跃,展现了
    的头像 发表于 07-08 15:05 601次阅读

    商汤科技发布“日日新SenseNova 5.0”大模型

    商汤科技近日隆重推出全新升级的“日日新SenseNova 5.0”大模型,其卓越性能赢得了业界的广泛赞誉。凭借这一行业领先的技术实力,商汤绝影成功打造了一系列车端大模型产品,并在202
    的头像 发表于 05-07 14:13 583次阅读

    Linux是做什么用的?

    Linux是做什么用的?Linux是一种开源的操作系统,广泛用于服务器、嵌入式设备和个人电脑等领域。它具有以下特点和用途: Linux是做什么用的? 1、服务器操作系统:Linux在服务器领域非常
    发表于 04-28 15:40

    商汤科技新升级大模型,对标GPT-4 Turbo 

    昨日,商汤科技在沪举办技术交流日活动,公布了其“云、端、边”全栈大模型产品矩阵,并对“日日新SenseNova 5.0”大模型体系进行了全面升级。基于此,商汤科技还推出了包括日日新。商
    的头像 发表于 04-24 17:17 706次阅读

    商汤SenseChat大模型成功通过与华为Atlas服务器的相互兼容性测试

    近日,经华为综合评测,SenseCore商汤大装置AI云、商汤日日新·商量SenseChat大语言模型成功通过与华为Atlas系列服务器的相
    的头像 发表于 03-22 13:38 700次阅读
    <b class='flag-5'>商汤</b>SenseChat大<b class='flag-5'>模型</b>成功通过与<b class='flag-5'>华为</b>Atlas服务器的相互兼容性测试

    SENT协议SPC功能是做什么用的?

    SENT协议SPC功能是做什么用的?并且应用synchronous , range selection , ID selection 与 bidrectional transmit 模式中
    发表于 02-02 13:19

    华为的NFC功能是什么?手机NFC功能有什么用

    华为的NFC功能是什么?手机NFC功能有什么用  华为的NFC功能是指华为手机上搭载的近场通信技术。NFC是一种短距离无线通信技术,可以通过近场感应实现设备之间的数据传输和交互。
    的头像 发表于 01-30 14:28 4486次阅读