英伟达发布视频AI大模型论文，自动驾驶是其潜在应用领域-电子发烧友网

电子发烧友网报道（文/李弯弯）近日，英伟达与慕尼黑大学等院校的研究人员联合发布了一篇有关视频潜在扩散模型（VideoLDM，Latent Diffusion Model）的论文，该模型能够将文本转换成视频，实现高分辨率的长视频合成。

研究人员指出，该模型其中一大具有潜力的应用领域，是驾驶数据的高分辨率视频合成，能够模拟特定驾驶场景，在自动驾驶领域中具有巨大的应用潜力。

AI大模型在自动驾驶领域的应用探索

当下，文字大模型、文生图大模型发展迅速，受限于视频训练数据的计算成本高昂以及缺乏大规模公开可用的数据集等原因，视频大模型的发展相对较慢。VideoLDM则成功解决了这个关键问题。

从原理上来分析，VideoLDM基于图像数据集预训练，并在此基础上加入时间维度以形成视频框架，最后在编码的视频序列上进行微调，得到视频生成器。

目前，VideoLDM生成视频的最高分辨率可达2048×1280、24帧。在论文中，该研究团队给出了几个驾驶场景视频的生成案例：

在自动驾驶领域，AI大模型被认为能够赋能感知标注、决策推理等环节。今年4月11日，毫末智行了一款自动驾驶生成式大模型DriveGPT，中文名雪湖·海若。据介绍，毫末DriveGPT雪湖·海若现阶段主要用于解决自动驾驶的认知决策问题。

DriveGPT雪湖·海若的底层模型采用GPT（Generative Pre-trained Transformer）生成式预训练大模型，与ChatGPT使用自然语言进行输入与输出有所不同，DriveGPT输入是感知融合后的文本序列，输出是自动驾驶场景文本序列，即将自动驾驶场景Token化，形成“Drive Language”，最终完成自车的决策规控、障碍物预测以及决策逻辑链的输出等任务。

毫末表示，DriveGPT雪湖·海若首发车型新摩卡DHT-PHEV，即将量产上市。DriveGPT雪湖·海若可以逐步应用到城市NOH、捷径推荐、智能陪练以及脱困场景中。

汽车是AI大模型一大重要应用场景

随着众多AI大模型的发展，其商业应用场景也引起诸多思考，其中汽车被认为是其中一大重要的应用场景。最近，百度、阿里、商汤发布AI大模型，都在汽车智能方面展示出能力。

3月16日，百度正式发布文心一言，在发布会上，李彦宏展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综合能力。

其中在多模态生成方面，文心一言展示出了文本、图片、音频和视频的生成能力。李彦宏表示，多模态是生成式AI一个明确的发展趋势。未来，随着百度多模态统一大模型的能力增强，文心一言的多模态生成能力会不断提升。

文心一言发布之后，长安汽车官宣，旗下逸达将成为国内首款搭载文心一言的量产车型，后续将通过软件升级的形式搭载到新车上。除了长安汽车外，集度、吉利、岚图、红旗、长城、东风日产、爱驰、零跑、海马等多家车企都已确认将内测体验并接入其相关能力，与百度共同打造针对汽车智能场景的大模型人工智能交互体验。

4月11日，阿里也正式发布其AI大模型通义千问。与文心一言、ChatGPT类似，作为大语言模型，通义千问支持多轮交互及复杂指令理解、多模态融合以及外部增强API，能够实现多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。

在近日第二十届上海国际汽车工业展览会上，阿里集团副总裁、斑马智行CEO张春晖谈到，汽车是大模型最大的交互应用场景，智能汽车操作系统将会被重塑。他表示，AliOS智能汽车操作系统已接入通义千问大模型进行测试，相关技术会率先在智己汽车上落地。

商汤科技推出的“日日新SenseNova”大模型体系，含中文语言大模型应用平台“商量SenseChat”、图片生成模型“秒画SenseMirage”、AI数字人视频生成平台“如影SenseAvatar”、3D内容生成平台“琼宇SenseSpace”和“格物SenseThings”等，

在此次展会上，商汤科技展示了其大模型在车舱智能化方面的实力，商汤语言大模型“商量SenseChat”会与嘉宾交流互动，并推荐个性化体验内容。商量SenseChat还支持邮件模式，会自动提炼邮件关键信息，帮助用户节省阅读时间。“秒画SenseMirage”文生图创作平台亦首次与展示舱结合，借助商汤AIGC模型能力自动为嘉宾生成各种风格的照片。

在“日日新SenseNova”大模型体系的支持，其自动驾驶产品方案也获得持续创新的能力。商汤绝影率先实现BEV感知在国内首批量产落地，还首创自动驾驶GOP感知体系，充分提升数据利用效率，引领感知技术突破。

商汤绝影的自动驾驶GOP感知体系可将目标数据获取的人力成本降低94%，目前已投入量产。凭借通用视觉模型，绝影有效实现了对超过3000种物体目标的高精度识别，降低智能驾驶系统对激光雷达和高精度地图的依赖。

小结

今年以来，AI大模型的发展如火如荼，国内外众多科技企业纷纷入局。随着各种AI大模型陆续发布，其商业应用场景也引起业界关注，而汽车被认为是其中一大重要的应用场景。

从目前的情况来看，百度、阿里发布的AI大模型已经在推进汽车领域的应用。不过当前主要还是在智能座舱方面，用于人工智能交流对话等领域，在自动驾驶方面的应用少有提及。估计原因在于，虽然其AI大模型都具有视频生成能力，但这方面的能力还有待升级。就如李彦宏在发布会上就提到，视频生成能力方面，因为成本较高，现阶段还未对所有用户开放，当然未来会逐步接入。

可以看到，AI大模型在汽车的智能座舱、自动驾驶等领域都将有所作为，业界也正在推进AI大模型加速上车，预计在智能座舱方面会率先落地，而在自动驾驶方面还需要在视频能力方面有更多突破。而英伟达此次发布视频模型论文，可能会起到一定的引领作用。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3842

浏览量
91839
自动驾驶

自动驾驶

+关注

关注
784

文章
13924

浏览量
166886

AI大模型不再依赖英伟达GPU？苹果揭秘自研大模型

电子发烧友网报道（文/梁浩斌）过去几年中爆发的AI算力需求，英伟达GPU成为了最大的赢家，无论是自动驾驶还是AI大

发表于 08-05 06:07 •4077次阅读

<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>不再依赖<b class='flag-5'>英伟</b><b class='flag-5'>达</b>GPU？苹果揭秘自研大<b class='flag-5'>模型</b>

英伟达高管：完全自动驾驶汽车尚需时日

带来安全隐患，并损害整个行业的信誉。卡尼指出，自动驾驶技术的研发是一个长期且复杂的过程，需要不断积累经验和数据，以确保系统的安全性和可靠性。他强调，英伟达在自动驾驶

发表于 01-23 11:27 •213次阅读

英伟达：全自动驾驶汽车至少需十年

在自动驾驶技术迅猛发展的当下，英伟达作为该领域的重要参与者，却对完全自动驾驶的实现时间表达了审慎态度。据Carscoops报道，

发表于 01-23 11:08 •171次阅读

黄仁勋宣布：丰田与英伟达携手打造下一代自动驾驶汽车

自动驾驶技术的研发上注入了新的活力。黄仁勋表示，英伟达与丰田的合作将充分利用双方在各自领域的优势，共同推动自动驾驶汽车技术的发展。

发表于 01-09 10:25 •353次阅读

英伟达发布Cosmos世界基础模型

自动驾驶汽车、机器人等物理AI系统的开发进程。 Cosmos平台的核心在于其强大的生成世界基础模型，这一模型能够模拟和预测现实世界的各种复杂

发表于 01-09 10:23 •301次阅读

英伟达在华加大招聘，聚焦自动驾驶技术

近日，据最新报道，英伟达公司今年在中国市场显著加大了招聘力度，旨在增强其研发能力，并深入探索最新的自动驾驶技术。这一战略调整反映了英伟

发表于 12-13 10:32 •611次阅读

人工智能的应用领域有自动驾驶吗

人工智能的应用领域确实包括自动驾驶 。近年来，随着科技的迅猛发展，人工智能（AI）的应用已经渗透到生活的方方面面，特别是在自动驾驶领域，

发表于 10-22 16:18 •663次阅读

英伟达Cosmos AI项目曝光：构建先进视频模型

近日，英伟达内部一项名为Cosmos的AI项目浮出水面，引起了业界的广泛关注。该项目尚处于保密阶段，未向公众正式发布，但其雄心勃勃的目标已初

发表于 08-07 16:51 •590次阅读

FPGA在自动驾驶领域有哪些优势?

FPGA（Field-Programmable Gate Array，现场可编程门阵列）在自动驾驶领域具有显著的优势，这些优势使得FPGA成为自动驾驶技术中不可或缺的一部分。以下是FPGA在自

发表于 07-29 17:11

FPGA在自动驾驶领域有哪些应用？

FPGA（Field-Programmable Gate Array，现场可编程门阵列）在自动驾驶领域具有广泛的应用，其高性能、可配置性、低功耗和低延迟等特点为自动驾驶的实现提供了强有

发表于 07-29 17:09

英伟达首席执行官黄仁勋：AI模型推动英伟达AI芯片需求

近来，以ChatGPT为代表的AI聊天机器人已经导致英伟达AI芯片供应紧张。然而，随着能够创造视频并进行近似人类交流的新型

发表于 05-24 10:04 •556次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

。 **5.**自动驾驶 在自动驾驶领域，Blackwell 架构的 GPU 可以用于感知和决策算法的计算，提高车辆的安全性和自主性。这些只是英伟

发表于 05-13 17:16

沃尔沃利用英伟达的SoC和AI来提升自动驾驶的安全性

在2024年英伟达GPU技术大会（NVIDIA GTC 2024）上，沃尔沃介绍了如何利用人工智能和日益提升的算力来提升自动驾驶的安全性。

发表于 05-08 14:38 •1275次阅读

英伟达参投英国自动驾驶公司融资

英伟达近日宣布，将参与英国自动驾驶技术领军企业Wayve Technologies Ltd的10.5亿美元融资。此次融资由软银集团主导，Wayve的现有股东微软也增加了投资。

发表于 05-07 14:51 •396次阅读

高通自动驾驶靠软件开发革新力压英伟达自动驾驶芯片

抛开价格不谈，英伟达自动驾驶芯片毫无疑问是最强的，设计范围在2019年底确定的Orin至今仍是量产最强的自动驾驶芯片，但除了奔驰外的欧美大厂更倾向于选择高通平台

发表于 02-20 13:50 •1582次阅读

搜索历史

英伟达发布视频AI大模型论文，自动驾驶是其潜在应用领域

评论

AI大模型不再依赖英伟达GPU？苹果揭秘自研大模型

英伟达高管：完全自动驾驶汽车尚需时日

英伟达：全自动驾驶汽车至少需十年

黄仁勋宣布：丰田与英伟达携手打造下一代自动驾驶汽车

英伟达发布Cosmos世界基础模型

英伟达在华加大招聘，聚焦自动驾驶技术

人工智能的应用领域有自动驾驶吗

英伟达Cosmos AI项目曝光：构建先进视频模型

FPGA在自动驾驶领域有哪些优势?

FPGA在自动驾驶领域有哪些应用？

英伟达首席执行官黄仁勋：AI模型推动英伟达AI芯片需求

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

沃尔沃利用英伟达的SoC和AI来提升自动驾驶的安全性

英伟达参投英国自动驾驶公司融资

高通自动驾驶靠软件开发革新力压英伟达自动驾驶芯片