Sora与世界模型：为何它未能成为全面代表？-电子发烧友网

新年伊始，OpenAI Sora 横空出世，声称是“作为世界模拟的视频生成模型”（Video generation models as world simulators），让“世界模型”这一概念再次进入人们的视野。那么什么是世界模型？Sora 到底是不是 world simulator 呢？南京大学人工智能学院教授俞扬近日撰文溯源了世界模型（world model）的概念，认为世界模型的核心作用是反事实推理，而 Sora 更多是视频工具，难以作为反事实推理的工具准确回答 what if 问题。Sora没有准确学到物理规律这一现象或许表明，简单的堆砌数据并不是通向更高级智能技术的道路。

俞扬 | 作者
随着媒体狂炒 Sora，OpenAI的介绍材料中称Sora是 “world simulator”，世界模型这个词又进入视野，但很少有文章来介绍世界模型。这里回顾一下什么是世界模型，以及讨论 Sora 是不是 world simulator。

什么是世界模型

当AI领域中讲到世界/world、环境/environment 这个词的时候，通常是为了与智能体/agent 加以区分。研究智能体最多的领域，一个是强化学习，一个是机器人领域。因此可以看到，world models、world modeling 最早也最常出现在机器人领域的论文中。而今天world models这个词影响最大的，可能是Jurgen 2018年放到arxiv的这篇以“world models”命名的文章，该文章最终以 “Recurrent World Models Facilitate Policy Evolution”的title发表在NeurIPS‘18。

论文题目：Recurrent World Models Facilitate Policy Evolution

论文地址：

https://worldmodels.github.io/

该论文中并没有定义什么是World models，而是类比了认知科学中人脑的mental model，引用了1971年的文献。

mental model是人脑对周边世界的镜像

Wikipedia 中介绍的 mental model，很明确的指出其可能参与认知、推理、决策过程。并且说到 mental model 主要包含 mental representations 和 mental simulation 两部分。

an internal representation of external reality, hypothesized to play a major role incognition, reasoning and decision-making. The term was coined by Kenneth Craik in 1943 who suggested that the mind constructs "small-scale models" of reality that it uses to anticipate events.

到这里还是说得云雾缭绕，那么论文中的结构图一目了然的说明了什么是一个world model：

图中纵向V->z是观测的低维表征，用VAE实现，水平的M->h->M->h是序列的预测下一个时刻的表征，用RNN实现，这两部分加起来就是World Model。

也就是说，World model 主要包含状态表征和转移模型，这也正好对应mental representations 和 mental simulation。

看到上面这张图可能会想，这不是所有的序列预测都是world model了？其实熟悉强化学习的同学能一眼看出来，这张图的结构是错误（不完整）的，而真正的结构是下面这张图，RNN的输入不仅是z，还有动作action，这就不是通常的序列预测了（加一个动作会很不一样吗？是的，加入动作可以让数据分布自由变化，带来巨大的挑战）。

Jurgen的这篇论文属于强化学习领域。那么，强化学习里不是有很多model-based RL吗，其中的model跟world model有什么区别？答案是没有区别，就是同一个东西。Jurgen先说了一段：

基本意思就是，不管有多少model-based RL工作，我是RNN先驱，RNN来做model是我发明的，我就是要搞。

在Jurgen文章的早期版本中，还说到很多 model-based RL，虽然学了model，但并没有完全在model中训练RL。

没有完全在model中训练RL，实际上并不是model-based RL的model有什么区别，而是model-based RL这个方向长久以来的无奈：model不够准确，完全在model里训练的RL效果很差。这一问题直到近几年才得到解决。

编注：强化学习算法可以分为无模型（model-free）强化学习与有模型（model-based）强化学习，后者中的模型也被称为世界模型（World model）。在基于世界模型的强化学习方法中，智能体首先学习一个关于环境的内嵌的模型，在内嵌的模型中学习行为决策，从而提高在真实环境中的表现。

聪明的Sutton在很久以前就意识到model不够准确的问题。在1990年提出Dyna框架的论文 Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming（发表在第一次从workshop变成conference的ICML上），管这个 model 叫 action model，强调预测action执行的结果。RL一边从真实数据中学习（第3行），一边从model中学习（第5行），以防model不准确造成策略学不好。

论文题目：Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming

论文地址：https://dl.acm.org/doi/10.1145/122344.122377

可以看到，world model对于决策十分重要。如果能获得准确的world model，那就可以通过在world model中反复试错，找到现实最优决策。

这就是 world model 的核心作用：反事实推理/Counterfactual reasoning，也就是说，即便对于数据中没有见过的决策，在world model中都能推理出决策的结果。

了解因果推理的同学会很熟悉反事实推理这个词，在图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯：

最下层是“关联”，也就是今天大部分预测模型主要在做的事；

中间层是“干预”，强化学习中的探索就是典型的干预；

最上层是“反事实”，通过想象回答 what if 问题。

Judea为反事实推理绘制的示意图，是科学家在大脑中想象，这与Jurgen在论文中用的示意图异曲同工。

上：Jurgen论文中的世界模型示意图。下：Judea书中的因果阶梯。

到这里我们可以总结，AI研究人员对world model的追求，是试图超越数据，进行反事实推理，回答what if问题能力的追求。这是一种人类天然具备，而当前的AI还做得很差的能力。一旦产生突破，AI决策能力会大幅提升，实现全自动驾驶等场景应用。

Sora 是不是 world simulator

simulator这个词更多出现在工程领域，其作用与world model一样，尝试那些难以在现实世界实施的高成本高风险试错。OpenAI似乎希望重新组成一个词组，但意思不变。

Sora生成的视频，仅能通过模糊的提示词引导，而难以进行准确的操控。因此它更多的是视频工具，而难以作为反事实推理的工具去准确的回答what if问题。

甚至难以评价Sora的生成能力有多强，因为完全不清楚demo的视频与训练数据的差异有多大。

更让人失望的是，这些demo呈现出Sora并没有准确地学到物理规律。已经看到有人指出了Sora生成视频中不符合物理规律之处。（OpenAI 发布文生视频模型 Sora，AI 能理解运动中的物理世界，这是世界模型吗？意味着什么？https://www.zhihu.com/question/644478663/answer/3398992400）

我猜测OpenAI放出这些demo，应该基于非常充足的训练数据，甚至包括CG生成的数据。然而即便如此那些用几个变量的方程就能描述的物理规律还是没有掌握。OpenAI认为Sora证明了一条通往simulators of the physical world的路线，但看起来简单的堆砌数据并不是通向更高级智能技术的道路。

审核编辑：黄飞

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
211

文章
28501

浏览量
207473
AI

AI

+关注

关注
87

文章
31097

浏览量
269431
Sora

Sora

+关注

关注
0

文章
82

浏览量
225

原文标题：Sora为什么不是世界模型？

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

面对大模型的关键跃迁，华为云为什么能成为医药健康的同行者

大模型

脑极体

发布于 :2024年11月27日 09:46:43

深圳特信电子单臂螺旋天线：为何它能成为无线通信领域的佼佼者

深圳特信电子｜单臂螺旋天线：为何它能成为无线通信领域的佼佼者

发表于 09-05 09:05 •437次阅读

汤姆猫正在推进申请接入OpenAI的Sora模型

汤姆猫在互动平台上透露，公司正在积极推进申请接入OpenAI的Sora模型，并计划进行相关素材制作的测试。目前，汤姆猫尚未正式接入Sora模型。

发表于 03-05 10:20 •924次阅读

sora模型发布 sora模型对现实产生的影响有多大

Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器” )，于2024年2月15日(美国当地时间)正式对

发表于 02-22 17:05 •1338次阅读

sora模型是什么意思 sora模型引发行业变革

约为290亿美元)，且文生视频大模型将会大幅推动人工智能基础设施的需求，英伟达、OpenAI、软银等巨头公司都被曝正在进行AI芯片的制造布局，英伟达也因大模型训练需要GPU算力支持而股价大涨。与此同时，受Sora发布的影响，美

发表于 02-22 17:00 •1868次阅读

sora模型中国可以使用吗 sora模型是哪个公司

Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器” ，于2024年2月15日(美国当地时间)正式对外

发表于 02-22 16:52 •3325次阅读

sora模型上市公司 sora模型对现实的影响

内容的补充和完善。 Sora对于需要制作视频的艺术家、电影制片人或学生来说，都带来了无限可能。该模型可以深度模拟真实物理世界，标志着人工智能在理解真实世界场景并与之互动的能力方面实现飞

发表于 02-22 16:46 •1134次阅读

sora模型怎么使用 sora模型对现实的影响

行业目前大概只有平均“4s”的视频生成长度 Sora可以根据用户的文本提示创建最长60秒的逼真视频，该模型了解这些物体在物理世界中的存在方式，可以深度模拟真实物理世界，能生成具有多个角

发表于 02-22 16:42 •1190次阅读

字节跳动辟谣推出中文版Sora 期待国产Sora大模型

字节跳动辟谣推出中文版Sora 期待国产Sora大模型 “文成视频大模型”的热度持续火爆，大家都在期待国产的大模型面世。科技巨头字节跳动也有

发表于 02-21 17:29 •872次阅读

sora如何使用 sora是什么软件

Sora是一种扩散模型，具备从噪声中生成完整视频的能力，它生成的视频一开始看起来像静态噪音，通过多个步骤逐渐去除噪声后，视频也从最初的随机像素转化为清晰的图像场景，其能够一次生成多帧预测，确保画面

发表于 02-21 17:20 •2291次阅读

sora最新消息 sora是什么意思

Sora，是美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型，而是作为“世界模拟器”，于2024年2月15日(美国当地时间)正式对外

发表于 02-21 16:38 •1923次阅读

sora系列是哪个公司的 sora视频怎么用

sora系列是哪个公司的 Sora，美国人工智能研究公司OpenAI发布的人工智能文生视频大模型(但OpenAI并未单纯将其视为视频模型，而是作为“

发表于 02-21 16:35 •4503次阅读

OpenAI发布Sora模型，瞬间生成高清大片

近日，人工智能领域的领军企业OpenAI发布了一款名为“Sora”的视频生成AI模型，再次展示了其在AI技术领域的创新实力。Sora以其出色的视频生成能力，瞬间成为业界的焦点。

发表于 02-20 13:33 •837次阅读

Sora到底懂不懂物理世界? Sora开启更多可能

OpenAI的视频生成模型Sora持续引发关注，而围绕Sora到底懂不懂物理世界？这个讨论越发火热，甚至是在讨论Sora 到底是不是物理引擎

发表于 02-20 11:08 •705次阅读

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相

奥特曼发布王炸模型Sora OpenAI首个文生视频模型Sora正式亮相 2月16日凌晨OpenAI的首个文生视频模型

发表于 02-18 17:41 •1001次阅读

搜索历史

Sora与世界模型：为何它未能成为全面代表？

评论