在OpenAI研发出Sora后不久,谷歌Deep Mind团队公开了在世界模型领域的新进展——基础世界模型Genie。该模型主要借鉴非对抗方式进行训练,可根据各类图像乃至草图生成具有丰富动作表现的2D世界,从而实现人们与虚构世界的深度互动。只需输入一张图像,Genie便可构建一个全新的交互环境。
DeepMind指出,Genie有能力根据最新的文生图大模型生成初始帧,再借助Genie的能力赋予这些图像更深层次的含义。Genie作为一个包含110亿参数的基础世界模型,成功研发得益于谷歌声名在外的潜在动作模型,用于推断视频帧间的运动,视频分词器则可以将原始视频帧转化为离散标记,而动态模型则负责预测下一帧的活动情况。
值得注意的是,相较于号称“高清晰度、高真实感”的Sora, Genie似乎更注重潜在行为的预测,而不是极力展现画面的真实性。现阶段,从图像或文本中生成高质量视频尚未成为Genie关注的核心业务点。DeepMind进一步透露,Genie主要围绕“2D平台类游戏及大约率算法”展开应用,这种处理方法具有广泛适应性,可应用于各领域,也可以扩展至更大规模的互联网数据集。
然而,这个还在试验阶段的Genie尚不能视为商业产品问世。据DeepMind人士解释,Genie的训练视频为160x90像素且每秒仅10帧的超低分辨率视频,生成的模拟游戏以每秒1帧的速率运行。因此,实际场景更为复杂且要求更高实时性的商业应用仍需耐心等待解决方案。
-
DeepMind
+关注
关注
0文章
131浏览量
11057 -
genie
+关注
关注
0文章
7浏览量
4310 -
OpenAI
+关注
关注
9文章
1184浏览量
6915 -
大模型
+关注
关注
2文章
2781浏览量
3432
发布评论请先 登录
相关推荐
【书籍评测活动NO.58】ROS 2智能机器人开发实践
普渡机器人接入DeepSeek满血版模型
【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块
《具身智能机器人系统》第10-13章阅读心得之具身智能机器人计算挑战
【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型
【「具身智能机器人系统」阅读体验】1.初步理解具身智能
《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型
Google DeepMind发布Genie 2:打造交互式3D虚拟世界
名单公布!【书籍评测活动NO.51】具身智能机器人系统 | 了解AI的下一个浪潮!
Snapchat聊天机器人集成谷歌Gemini技术
引领通用具身新时代:普渡发布首款类人形机器人PUDU D7

评论