Deferred Shading延迟渲染

时间 2019-12-09

标签 deferred shading 延迟渲染繁體版

原文原文链接

Deferred Shading

传统的渲染过程一般为：1）绘制Mesh；2）指定材质；3）处理光照效果；4）输出。传统的过程Mesh越多，光照处理越费时，多光源时就更慢了。html

延迟渲染的步骤：1）Pass0先不作光照处理，将Mesh的Position信息和Normal信息绘制到纹理（RenderTargets，D3D支持多向输出）；2）Pass1仅绘制屏幕大小的一个四边形，利用以前获得的Position纹理和Normal纹理对有效地区域选择性地进行光照处理，再输出最后的图像。app

分析：因为延迟渲染将光照的处理量由空间转换到了平面，减小了光照等效果的计算量，提升了绘制速度，对多光源的绘制优点更为明显。函数

渲染流程post

延迟渲染管线可分为四个阶段：geometry, lighting, composition, post-processing性能

Post-processing阶段与传统的forward shading没有太大差异，这里不提，只说明一下前三个阶段。优化

Geometry阶段：将本帧全部的几何信息光栅化到G-buffer。包括位置，法线，贴图等。url

Lighting阶段：以G-buffer做为输入（位置，法线）进行逐像素的光照计算，将diffuse lighting和specularorm

Lighting 结果分别保存在两张RT上做为lighting buffer。htm

Composition阶段：将G-buffer中的贴图buffer和lighting buffer融合，获得渲染结果。blog

总体渲染过程并不复杂，但在实际的过程当中仍是有许多问题须要考虑的，下面一一列举。

G-buffer

Geometry阶段将几何信息渲染到multi render target上（MRT），当前最多支持4个MRT。而且驱动要求4个MRT必须相同的bit宽度。RT对显存占用过大会增长带宽，下降cache命中。而简单格式的RT又会影响画质。所以决定使用32bit的RT（如A8R8G8B8，R16G16F）或64bit宽度的RT（如A16R16G16B16F）。须要在画质和性能间作出折衷。（开发时尽量能够方便的配置）。[1]中有一些性能比较。

MRT中必须的信息：position(depth), normal, diffuse(texture)

可能须要的信息：specular, power, emissive, ao, material id

这些信息须要在这4个RT上用合理格式，合理的组织。这里还能够就存储空间和shader的复杂性作折衷。如只保存depth，而后在光照时计算position[12]。以及用球面坐标保存法线[13]。以目前的资料得出的结论是应该尽量地pack数据，减小内存占用，多出来的若干条shader指令不会明显影响性能。

光照计算

使用延迟渲染技术最大的好处就是能够渲染光照极为复杂的场景。这里场景中的光照能够分为两类。

影响整个场景的scene light。如directional light。渲染一个screen quad，逐像素光照计算，没什么好说的。

另外一类是只影响一部分区域的local light。如点光源，聚光灯，以及特效等等。这些local light只影响到屏幕上的某些像素，固然不须要逐像素的进行光照计算。最简单的方法是绘制这些光源的包围体（点光源的包围体是球，聚光灯的包围体是圆锥），包围体的大小要大于等于光源的衰减范围。这些包围体通过变换投影到屏幕上的对应区域，随后在pixel shader中计算光照。

优化：

1. 光源包围体的视锥剔除，遮挡剔除。

2. 光源包围体投影后很小时剔除；若干个靠的比较近的小光源合并成一个较大的光源[11]

3. 光源包围体的backface culling

4. 屏幕空间中没有被光源照到的，或者被更近的物体遮挡住的像素不须要光照计算，所以能够逐像素的深度剔除。

a. 使用正确的stencil light volume。相似shadow volume的方案，将渲染light volume的正反两面，获得正确的stencil mask，而后光照计算时使用stencil buffer。这种方法能够获得正确的结果，可是须要渲染每盏灯时频繁改变render state，可能会带来必定性能上的损失。

b 使用z test，能够获得“必定程度上正确”的结果。

阴影

光照计算的同时计算阴影。使用传统的shadow map，预先生成一张阴影图。考虑在编辑场景的时候指定那些重要的光源才会产生阴影。在计算shadow map时要针对光源的binding volume进行剔除。

方向光和聚光灯可使用基本的shadow map投影（正交投影，透视投影）。点光源会复杂一些，须要使用cubic shadow map。（考虑unwrapping method[14]）

半透明

因为在延迟渲染的过程当中只计算离屏幕距离最近的那个像素的光照，所以没法处理半透明物体的光照。

方案1

延迟渲染的过程当中只处理不透明的物体，将全部半透明的物体放在渲染过程的最后，使用传统的forward shading渲染。

方案2

在Geometry阶段将半透明的物体和背景逐像素的交织起来，将透明度放在一个单独的通道中。按通常的方法计算光照。随后在composition阶段再根据透明度将透明物体和背景逐像素的混合起来。

优势：

光照一致性。半透明的物体也参加延迟渲染，能够接受多光源的光照。

简单而且健壮。不须要单独区分不透明物体和半透明物体，不须要单独的半透明渲染管道。

速度快。只增长了7到10条ps指令，两张贴图，只有约2%的性能损失。

缺点：

模糊。在半透明的物体上会有一点模糊，缘由是在交织的过程当中会有必定信息损失。

边缘锯齿。反交织的过程当中半透明物体的边缘会产生一些锯齿。

只能有一层半透明。

多种材质

在延迟光照的过程当中支持多种材质须要以下方案：

在G-buffer阶段输出材质的ID到G-buffer的一个通道中，随后在lighting阶段和composition阶段根据材质ID使用不一样的光照函数计算光照。这种方案在sm 3.0中使用动态分支的前提下能够很好的工做。

反锯齿

Dx9 API不支持反锯齿的MRT，Dx10支持。

一种方案是使用超采样，先渲染到大的RT上，再downsample到正常的大小，获得没有锯齿的结果。延迟渲染的效率跟分辨率有很大关系，所以这种方法会极大的下降性能，基本不可取。

另外一种方案是使用“intelligent blur”，只模糊物体边缘的像素：

根据相邻像素的深度和法线提取物体边界，而后对提取出的边界进行模糊。模糊时要避免不正确的泄露。如后面物体的颜色泄露到前面的物体上[11]。整体而言实现会较为复杂。

另外一种方案：pre-lighting [8][9][17]

一种pre-z rendering 和deferred rendering的结合。G-buffer阶段只保存depth和normal，而后计算光照信息到lighting buffer，格式以下

LightColor.r * N.L * Att
LightColor.g * N.L * Att
LightColor.b * N.L * Att
R.V^n * N.L * Att

最后使用传统的forward shading再将整个场景渲染一遍，期间查询lighting buffer。

与普通的deferred shading相比：

优势：

占用带宽小，第一遍渲染只输出normal，depth是自动得到的。

能够用在较老的硬件平台上，不须要MRT支持。

对现有forward shading管道改动较小，比较容易实现。

缺点：

整个场景须要渲染两遍，至关于在pre-z和forward shading中间加了一个lighting stage。