CityDreamer：一键生成无边界的3D城市-电子发烧友网

近些年，3D 自然场景的生成出现了大量的研究工作，但是 3D 城市生成的研究工作还寥寥无几。这主要是因为 3D 城市生成更难，人类对于其中的结构失真更敏感。近日，来自南洋理工大学 S-Lab 的研究者提出了一个新的框架 CityDreamer，专注于生成无边界的 3D 城市，让我们先看一下效果。

看起来还不错？这都来自于以下的这篇研究。

论文地址：https://arxiv.org/abs/2009.00610
项目地址：https://haozhexie.com/project/city-dreamer
代码地址：https://github.com/hzxie/city-dreamer

为满足元宇宙中对 3D 创意工具不断增长的需求，三维场景生成最近受到了相当多的关注。其中，生成 3D 城市比 3D 自然场景更复杂。在自然场景中，相同类别的物体通常有相似的外观，例如树通常是绿色的。但是在城市中，建筑的外观非常多样，但它们被赋予了相同的类别，这将导致建筑外观的质量下降。

为了解决这个问题，研究人员提出了 CityDreamer 以生成无边界的 3D 城市，它将建筑和城市背景（包括道路、绿化、水域）生成分别用 2 个不同的模块生成。这两个模块都采用鸟瞰（Bird's Eye View, BEV）作为场景表示，并采用体积渲染器（Volumetric Renderer ）通过对抗训练生成逼真的图像。

值得注意的是，场景参数化的方式经过精心定制，以适应背景物体和建筑物的独特特征。每个类别中的背景对象通常具有相似的外观，同时呈现出不规则的纹理。因此，CityDreamer 引入生成哈希网格来保持自然性，同时维护 3D 一致性。相比之下，建筑实例表现出各种各样的外观，但其立面的纹理通常显示出规则的周期性图案。研究人员因此，设计了周期性位置编码，这对于处理多样性的建筑立面来说是简单而有效的。

为了使生成的城市在布局上和外观上都更逼真，研究人员们构建了 2 个数据集：OSM 和 GoogleEarth。前者从 OpenStreetMap [1] 提取了超过 80 个知名城市、超过 6000km2 的俯视视角的高度图和语义分割图；后者从 Google Earth Studio [2] 上提取了美国纽约市的 400 环形轨迹，包含 24,000 张图像及对应的语义分割和建筑实例分割标注。这些标注是通过将从 OSM 数据集生成的 3D 城市布局投影至图像上生成的。这种方式可以很容易地将标注数据扩展至世界上的其他城市。

方法

CityDreamer 将 3D 城市生成分解为 4 步：无边界城市布局生成、城市背景生成、建筑实例生成和图像融合。

无边界城市布局生成

CityDreamer 将无限的城市布局生成转化为可扩展的语义地图和高度场的生成问题。为此，CityDreamer 采用了基于 MaskGIT [3] 的无边界布局生成器（Unbounded Layout Generator, ULG），它天然地支持 inpainting 和 outpainting 功能。具体来说，ULG 使用了 VQVAE 来编码语义图和高度场的图像切片，将它们转换为离散潜在空间并创建 Codeboook。在推理过程中，ULG 以自回归的方式生成 Codebook 索引，随后，ULG 使用 VQVAE 的解码器生成一对语义图和高度场。由于 VQVAE 生成固定大小的语义图和高度场，因此 ULG 使用图像 outpainting 来创建任意大小的语义图和高度场。在此过程中，ULG 采用滑动窗口来预测每一步的局部 Codebook 索引，滑动期间有 25% 的重叠。

城市背景生成

City Background Generator (CBG) 主要用于生成城市的背景，具体包括道路、绿化和水域。该模块使用了鸟瞰视图（BEV）作为场景的表示。具体而言，该表示使用由语义图和高度图组成的 BEV 表征来表达一个大尺度三维场景。

针对城市背景相同类别通常具有相似外观的特性，CBG 引入生成哈希网格（Generative Hash Grid）作为场景的参数化：保持自然性，同时维护 3D 一致性。具体而言，CBG 使用哈希函数

来将场景特征

和空间点坐标

映射到多尺度混合的可学习参数上：

为了保证渲染的三维一致性，我们使用基于体积渲染的渲染网络来完成三维空间特征到二维图像的映射。对于相机光线上的一点，我们经过查询生成式哈希网格得到其对应的特征，使用经风格噪声调制的多层 MLP 来得到其对应点的颜色和体密度，最终通过体渲染来将一条相机光线上的所有点积分为对应像素的颜色。

建筑实例生成

Building Instance Generator (BIG) 用于生成城市的建筑。和城市背景生成一样，我们使用了鸟瞰视图作为场景的表示，使用基于体积渲染的渲染网络来完成三维空间特征到二维图像的映射。观察到建筑立面和屋顶分布的显著差异，建筑立面和屋顶在 BIG 中被分配了 2 个不同的类别标签。

针对建筑立面所呈现出的周期性规律，我们设计了更轻量化的场景参数化方式：基于周期性函数的场景参数化。具体而言，BIG 将建筑特征

和空间坐标

通过周期性函数映射到一个高维空间中：

其中，$ m Concat$ 表示连接（Concatenation）操作，

被定义为

图像融合

给定城市背景的图像和掩膜（分别用

和

表示）以及建筑实例的图像和掩膜的集合（分别用

和

表示），CityDreamer 使用如下方式得到融合后的图像

其中 n 表示建筑实例的数量。

实验

下图展示了 CityDreamer 和其他 SOTA 方法的对比，这些方法包括 PersistentNature [4]、SceneDreamer [5] 和 InfiniCity [6]。实验结果表明，CityDreamer 的效果明显优于其他方法。

下图展示了更多视角的生成结果，该结果证明了 CityDreamer 的鲁棒性。

参考文献：

[1] https://openstreetmap.org

[2] https://earth.google.com/studio

[3] Chang et al. MaskGIT: Masked Generative Image Transformer. CVPR 2022.

[4] Lin et al. InfiniCity: Infinite-Scale City Synthesis. ICCV 2023.

[5] Chai et al. Persistent Nature: A Generative Model of Unbounded 3D Worlds. CVPR 2023.

[6] Chen et al. SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections. arXiv 2023.

原文标题：CityDreamer：一键生成无边界的3D城市

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2909

文章
44608

浏览量
373054

原文标题：CityDreamer：一键生成无边界的3D城市

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

一键断电开关的种类有哪些

一键断电开关的种类主要可以从其功能和实现方式上进行分类。以下是一些常见的一键断电开关种类： 1. 继电器式一键断电开关定义：这种开关通过继电器或接触器控制电路的通断，实现

发表于 09-13 16:45 •990次阅读

一键断电开关的控制原理是什么

一键断电开关，也被称为紧急断电开关或紧急停止开关，是一种安全装置，用于在紧急情况下迅速切断电源，以防止事故的发生或扩大。这种开关的设计和应用在工业、实验室、医疗设备以及任何需要快速断电的场合都

发表于 09-13 16:28 •1105次阅读

变电站一键顺控系统和开关柜一键顺控有区别吗？

变电站一键顺控系统和开关柜一键顺控技术虽然都涉及到“一键顺控”的概念，但它们在应用范围和具体实现上有所不同，因此变电站一键顺控系统和开关柜一键

发表于 07-31 13:34 •570次阅读

欢创播报腾讯元宝首发3D生成应用

1 腾讯元宝首发3D生成应用只需一张照片，便能迅速打造独一无二的3D角色。7月16日，腾讯旗下大模型应用“腾讯元宝”上线了“

发表于 07-18 11:39 •753次阅读

Meta推出革命性3D Gen AI模型：1分钟内生成高质量3D内容

在科技日新月异的今天，Meta再次引领创新潮流，宣布了一项令人瞩目的技术突破——3D Gen AI模型的诞生。这款先进的模型以其前所未有的高效性与卓越品质，重新定义了3D内容创作的边界

发表于 07-04 18:12 •1017次阅读

奥比中光3D相机打造高质量、低成本的3D动作捕捉与3D动画内容生成方案

高质量、低成本的3D动作捕捉与3D动画内容生成方案。 Moverse公司总部位于希腊塞萨洛尼基，是三维动画相关媒体和娱乐行业的一家科技创业公司。基于奥比中光

发表于 06-25 16:37 •1073次阅读

GIS智慧城市 3D 可视化，应急管控一屏解决 #三维可视化 #智慧城市 #GIS

3D智慧城市

阿梨是苹果
发布于 :2024年05月23日 11:23:26

简析智慧灯杆一键告警功能的实用场景

智慧路灯杆是一种兼具智能化和多功能的新型物联网基础设施，通过搭载一键告警对讲盒，能够大大丰富安防及报警求助资源，对提升城市的安全性和管理效能具有重要的作用。本篇就结合城市中的不同场景，

发表于 04-28 16:42 •372次阅读

ad19中3d模型不显示？

封装库导入3d模型不显示，但导入3d模型后的封装库生成pcb文件时显示3d模型，这是什么原因导致的。

发表于 04-24 13:41

智慧杆一键报警连入网关后无法对讲是什么原因？

一键式对讲报警盒是智慧路灯杆上常见的挂载外设之一，能够为公共安全提供即时支持，增强城市管理的智能化和应急反应能力。本篇就为大家简单介绍一下在智慧路灯杆上部署

发表于 03-28 17:25 •395次阅读

NVIDIA生成式AI研究实现在1秒内生成3D形状

NVIDIA 研究人员使 LATTE3D （一款最新文本转 3D 生成式 AI 模型）实现双倍加速。

发表于 03-27 10:28 •493次阅读

Stability AI推出Stable Video 3D模型，可制作多视角3D视频

SV3D_u是Stable Video 3D的一个版本，仅需单幅图片即可生成运动轨迹视频，无须进行相机调整。扩充版本的SV3D_p加入了轨道

发表于 03-21 14:57 •1018次阅读

Adobe Substance 3D整合AI功能：基于文本生成纹理、背景

Substance 3D Stager是以Adobe Dimension为基础改造而成，使用者可直观地进行3D场景构建，包括模型、材质和灯光等要素。借助其强大功能，能够生成极具观赏性的虚拟照片。

发表于 03-20 10:28 •721次阅读

Adobe提出DMV3D：3D生成只需30秒！让文本、图像都动起来的新方法！

因此，本文研究者的目标是实现快速、逼真和通用的 3D 生成。为此，他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别扩散模型，能

发表于 01-30 16:20 •855次阅读

4DGen：基于动态3D高斯的可控4D生成新工作

尽管3D和视频生成取得了飞速的发展，由于缺少高质量的4D数据集，4D生成始终面临着巨大的挑战。

发表于 01-04 15:57 •933次阅读