Skip to content

Commit 0faea92

Browse files
committed
feat: add 3d representation
1 parent 0f283d2 commit 0faea92

File tree

6 files changed

+43
-6
lines changed

6 files changed

+43
-6
lines changed

.gitattributes

Lines changed: 0 additions & 1 deletion
This file was deleted.

README.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -71,7 +71,7 @@
7171
- 潜空间反演 ✅
7272
- 指令驱动 ✅
7373
- 6 三维生成与编辑
74-
- 6.1 三维表征
74+
- 6.1 三维表征
7575
- 6.2 三维生成
7676
- 6.3 三维编辑
7777
- 7 视频生成与编辑

docs/chapter5.md

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -66,7 +66,7 @@ Stable Diffusion系列是由[Stability](https://stability.ai/)、[Runway](https:
6666
<div align=center>
6767
<img width="400" src="./images/chapter5/controlnet.png"/>
6868
</div>
69-
<div align=center>图5.4 ControlNet介绍</div>
69+
<div align=center>图5.4 ControlNet框架结构</div>
7070

7171
如图5.4所示,在Stable Diffusion这样的文本到图像扩散模型中,ControlNet被嵌入于U-Net网络的各个编码层级,具体而言,Stable Diffusion的12个编码块(4种分辨率,每级重复3次)以及1个中间块都对应一个ControlNet可训练分支,其输出通过跳跃连接加到原模型的相应层上,这一简单结构在Stable Diffusion的整个U-Net中被重复应用14次,以对生成过程进行全面控制。由于锁定了原始网络的权重,仅对控制分支进行微调,ControlNet可以快速收敛并保持原模型的生成能力不变。
7272

@@ -75,7 +75,7 @@ ControlNet可以接收多种额外的图像条件作为引导输入,如Canny
7575
<div align=center>
7676
<img width="400" src="./images/chapter5/controlnet_block.png"/>
7777
</div>
78-
<div align=center>图5.4 ControlNet条件注入介绍</div>
78+
<div align=center>图5.4 ControlNet条件注入</div>
7979

8080
## 5.2 模型微调
8181

@@ -88,7 +88,7 @@ ControlNet可以接收多种额外的图像条件作为引导输入,如Canny
8888
<div align=center>
8989
<img width="550" src="./images/chapter5/textual_inversion.png"/>
9090
</div>
91-
<div align=center>图5.4 Textual_Inversion方法介绍</div>
91+
<div align=center>图5.4 Textual_Inversion方法</div>
9292

9393
这种理解的过程就是模型优化**文本嵌入空间中的伪词向量**的过程,使得冻结的预训练文本到图像模型(如 LDM)能够生成与用户提供的少量图像(3-5张)高度匹配的个性化内容,优化目标定义为:
9494

@@ -164,7 +164,7 @@ $$
164164
\mathbf{x}_{t-1} = \sqrt{\alpha_{t-1}} \left( \frac{\mathbf{x_t} - \sqrt{1-\alpha_t} \epsilon_\theta(\mathbf{x_t}, t)}{\sqrt{\alpha_t}} \right) + \sqrt{1 - \alpha_{t-1}} \epsilon_\theta(\mathbf{x_t}, t)
165165
$$
166166

167-
其中,$ \alpha_t $ 随 $ t $ 增大而递减,$ \epsilon$ 是噪声。当方差参数 $σ_t=0$ 时,随机噪声项被消除,整个过程完全由模型预测的噪声 $ϵ_θ$ 驱动,从而确保每一步的确定性。
167+
其中,$ \alpha_t $ 随 $ t $ 增大而递减,$ \epsilon$ 是噪声。当方差参数 $σ_t=0$ 时,随机噪声项被消除,整个过程完全由模型预测的噪声 $ϵ_θ$ 驱动,从而确保每一步的确定性。DDIM前向过程也是对图片进行加噪,区别在于DDIM前向加的噪声是高斯随机噪声,而这里加的噪声是模型预测的噪声。
168168

169169
在潜空间反演的基础上,P2P算法成功实现了基于文本词语的细粒度图片编辑。
170170

docs/chapter6.md

Lines changed: 38 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,38 @@
1+
# 第6章 三维生成与编辑
2+
3+
> The ultimate display would, of course, be a room within which the computer could control the existence of matter.(终极显示器理应是一间房间,在那里计算机能掌控物质的存在。)-- Ivan Sutherland
4+
5+
&emsp;&emsp;在短短半个世纪里,三维内容生成与编辑技术从伊万·萨瑟兰(Ivan Sutherland)的“终极显示器”设想,迅速迈向由实时光线追踪、NeRF 及扩散模型驱动的“可触”数字世界;它不仅重塑了影视、游戏与工业设计的生产管线,也改写了我们理解与操控空间信息的方式。如今,算法性能的指数级跃迁与 GPU 并行架构的演进交织,让艺术创意与科学计算进入前所未有的共振期——从单帧渲染到多模态、人机共创的交互编辑,三维技术已成为链接物理与虚拟、数据与叙事的核心枢纽。
6+
7+
## 6.1 三维表征
8+
9+
&emsp;&emsp;世界纷繁复杂,应如何对其进行有效且严谨的表征呢?在计算机图形学领域中,通常将所观察到的场景或物体解耦为两种基本要素,即**外观(appearance)**与**形状(shape/geometry)**。进一步而言,外观可以细分为光照、材质等具体属性。通过将光照、材质与几何结构等元素明确解耦,能够实现对场景或物体的参数化描述,从而为后续的场景建模与编辑提供更为灵活和精准的表达方式。相比之下,计算机视觉领域通常采用一种较为直接的方式,以简单的RGB色彩值对世界进行粗略的表征与理解。这两种不同的表示方式可通过 渲染(rendering)与反渲染(inverse rendering)这对相反过程实现相互转换,从而在抽象的参数空间与具体的图像空间之间建立起严谨而有效的桥梁。很多相关的研究都准从图6.1的理解范式,即真实场景通常是由参数化的形式表征,比如坐标系变换、相机内外参数、光照和材质、物理几何等,然后通过图形学管线的渲染可以得到人类肉眼可见的图片。另一方面计算机视觉做的事情就是利用神经网络来拟合这些图片,得到隐式表征的世界。
10+
11+
<div align=center>
12+
<img width="550" src="./images/chapter6/cv_cg_compare.png"/>
13+
</div>
14+
<div align=center>图6.1 计算机视觉和计算机图形学如何理解视觉世界</div>
15+
16+
其中,渲染过程依赖于形状与外观的准确表征,并且通常要求该过程是可微的,以支持参数的高效优化和推导。与之相对,反渲染则可粗略理解为基于同一物体或场景多个视角的RGB图像,反推其潜在的几何结构或外观参数的过程。需要指出的是,渲染过程具有确定性,而当前许多反渲染方法本质上则是通过神经网络来近似或推测相关参数,这一推测过程通常是非确定性的,存在一定的不确定性和误差。
17+
18+
那么哪些可以参数化表征场景或者真实世界的形式呢?具体而言,目前参数化表征场景或真实世界的主流方式如图所示。
19+
20+
<div align=center>
21+
<img width="450" src="./images/chapter6/3d_rep.png"/>
22+
</div>
23+
<div align=center>图6.1 三维表征方式</div>
24+
25+
26+
其中,前三种方式通常被称为**显式表征**(Explicit Representations),它们在实际应用中具备良好的可编辑性,但往往存在资源消耗大、重建困难等缺点;后三种方式则被称为**隐式表征**(Implicit Representations),通常可通过神经网络直接进行重建,具有重建精度高、便于连续表示的优势,但编辑能力相对较弱。其中,后三种隐式表征方式分别利用神经网络预测不同的属性:一种预测物体或场景中每个空间点的符号距离函数;一种预测空间点的密度与可见性;另一种则直接预测三维空间中每个高斯椭球的属性。具体而言,表6.1中进一步详细比较了各种表征方法的核心概念以及各自的优缺点。
27+
28+
29+
| 表征方式 | Mesh | Point Cloud | Occupancy Field | Signed Distance Field | Nerual Rendering | Gaussian Splatting |
30+
| -------- | ---------------------------------------------------------- | -------------------------------------------------------- | -------------------------------------------------------- | ------------------------------------------------------------------ | ------------------------------------------------------------------------ | ------------------------------------------------------------------------------------ |
31+
| 定义 | 网格是一个点、法向量,面的集合,它定义了一个3D物体的形状。 | 点云用点来描述几何物体。 | 三维场景中每个点的状态,1表示点被物体占据,0表示未被占据 | 表面内为负值,在表面外为正值。 | 神经辐射场通过神经网络来表示三维场景的颜色和密度。 | 3D高斯点云渲染技术,通过高斯分布来表示三维场景。可以理解为带有颜色形状等属性的电云。 |
32+
| 优点 | 精确地表示物体的几何形状;易于渲染和编辑。 | 存储及计算开销较小。 | 可表示任意拓扑关系。 | 精确地表示物体表面的形状和位置信息。 | 细节丰富;可以很好地处理复杂的几何形状和光照条件;可以渲染高质量的图像。 | 可以实现实时渲染;可以处理复杂的几何形状和光照条件;可以渲染高质量的图像。 |
33+
| 缺点 | 需要大量的计算资源和储存空间。 | 不能表示拓扑结构,当点足够多时,才能较好的表示几何特性。 | 高分辨率下非常消耗内存。 | 复杂的物体,需要较高的计算资源,因为需要计算出每个点到表面的距离。 | 需要大量的计算资源和数据集来进行训练;难以显式编辑。 | 虽然渲染速度快质量高,但是难以表示准确的几何形状;难以显式编辑。 |
34+
35+
36+
## 6.2 三维生成
37+
38+
如今借助NeRF、扩散模型与大语言模型驱动的 Text-to-3D 一键生成,3D 内容的创造速度与质量发生很大地跃迁。DreamFusion、Gaussian Splatting 等方法让文本或单张照片即可还原可交互的三维场景;同时,基于 SDF/GAN 的形状潜空间模型,则使海量个性化几何在毫秒级被“召唤”到屏幕。为元宇宙、电商数字孪生、机器人视觉等领域提供了前所未有的内容燃料。

docs/images/chapter6/3d_rep.png

271 KB
Loading
721 KB
Loading

0 commit comments

Comments
 (0)