[ZZ] Maxwell 架构

时间 2019-11-12

原文原文链接

　　http://digi.163.com/14/0218/23/9LDCTFON00162DSP.htmlhtml

【IT168 评测】随着一句“娘娘，封神啦（宝鸡口音）”，中国的观众迅速认识到了两个极其出彩的相声演员。若是说关键词是引起关注的最大因素，那么提到“GeForce”，各位想到的又是什么？前端

相信很多读者第一次真正认识到NVIDIA（如下简称NV）这个公司仍是从一款叫GeForce 256的显卡开始，当年逆天的性能让很多DIY玩家完全跪倒在NV的的“石榴裙”之下不肯爬起。虽然说这么多年过去了，NV的产品愈来愈多，可是GeForce 256的做为第一款GeForce产品，不只为NV，也为业界带来了一场“绿色”革命！程序员

1999年GeForce 256发布至今已经15年了，15年的沉淀又带来了什么，GeForce系列的茁壮发展，架构的不断改进和革新，一切都恍如昨日。而今天，一款从Fermi就被期待的架构，终于揭开了神秘的面纱，那就是今天的主角——全新Maxwell架构的产品GTX 750以及GTX 750 Ti！算法

至于为何这么多人都在期待Maxwell架构的产品，下面的架构分析和回顾会为各位一一揭晓。编程

Fermi架构解析回顾小程序

一、SP、SM缓存

从高层次上看，Fermi和GT200结构形似，并没有太大不一样，但往深处看就会发现绝大部分都已经进化。最核心的流处理器(Streaming Processor/SP)如今不但数量大增，还有了个新名字CUDA核心(CUDA Core)，由此便可看出NVIDIA的转型之意，不过咱们暂时仍是继续沿用流处理器的说法。服务器

全部流处理器如今都符合IEEE 754-2008浮点算法(Cypress也是如此)和完整的32位整数算法，然后者在过去只是模拟的，事实上仅能计算24-bit整数乘法；同时引入的还有积和熔加运算(Fused Multiply-Add/FMA)，每循环操做数单精度512个、双精度256个。全部一切都符合业界标准，计算结果不会产生意外误差。网络

双精度浮点(FP64)性能大大提高，峰值执行率能够达到单精度浮点(FP32)的1/2，而过去只有1/8，AMD如今也不过1/5，好比Radeon HD 5870分别为单精度2.72TFlops、双精度544GFlops。因为最终核心频率未定，因此暂时还不清楚Fermi的具体浮点运算能力(双精度预计可达624GFlops)。多线程

G80/GT200都是8个流处理器构成一组SM(Streaming Multiprocessor)，Fermi增长到了32个，最多16组，少于GT200的30组，但流处理器总量从240个增至512个，是G80的整整四倍。除了流处理器，每组SM还有4个特殊功能单元(Special Function UnitSFU)，用于执行抽象数学和插值计算，G80/GT200均为2个。同时MUL已被删掉，因此不会再有单/双指令执行计算率了。

至于SM之上的纹理处理器群(Texture Processor Cluster/TPC)，NVIDIA暂时没有披露具体组成方式，并且ROP单元、纹理/像素填充率等其它图形指标也未公布。

二、缓存

GT200的每组SM都有16KB共享内存，由其中8个SP使用。注意它们不是缓存(cache)，而是软件管理的内存(memory)，能够写入、读取数据。为了知足应用程序和通用计算的须要，Fermi引入了真正的缓存，每组SM拥有64KB可配置内存(合计1MB)，可分红16KB共享内存加48KB一级缓存，或者48KB共享内存加16KB一级缓存，可灵活知足不一样类型程序的须要。

GT200的每组TPC还有一个一级纹理缓存，不过当GPU出于计算模式的时候就没什么用了，故而Fermi并未在这方面进行加强。整个芯片拥有一个容量768KB的共享二级缓存，执行原子内存操做(AMO)的时候比GT200快5-20倍。

三、效率

CPU和GPU执行的都是被称做线程的指令流。高端CPU如今每次最多只能执行8个线程(Intel Core i7)，而GPU的并行计算能力就强大多了：G80 12288个、GT200 30720个、Fermi 24576个。

为何Fermi还不如GT200多？由于NVIDIA发现计算的瓶颈在于共享内存大小，而不是线程数，因此前者从16KB翻两番达到64KB，后者则减小了20%，不过依然是G80的两倍，并且每32个线程构成一组“Warp”。

在G80和GT200上，每一个时钟周期只有一半Warp被送至SM，换言之SM须要两个循环才能完整执行32个线程；同时SM分配逻辑和执行硬件紧密联系在一块儿，向SFU发送线程的时候整个SM都必须等待这些线程执行完毕，严重影响总体效率。

Fermi解决了这个问题，在每一个SM前端都有两个Warp调度器和两个独立分配单元，而且和SM其它部分彻底独立，都可在一个时钟循环里选择发送一半Warp，并且这些线程能够来自不一样的Warp。分配单元和执行硬件之间有一个完整的交叉开关(Crossbar)，每一个单元均可以像SM内的任何单元分配线程(不过存在一些限制)。

这种线程架构也不是没有缺点，就是要求Warp的每一个线程都必须同时执行一样的指令，不然会有部分单元空闲。每组SM每一个循环内能够执行的不一样操做数：FP32 32个、FP64 16个、INT 32个、SFU 4个、LD/ST 16个。

四、并行内核(Parallel Kernel)

在GPU编程术语中，内核是运行在GPU硬件上的一个功能或小程序。G80/GT200整个芯片每次只能执行一个内核，容易形成SM单元闲置。这在图形运算中不是问题，通用计算上就不行了。Fermi的全局分配逻辑则能够向整个系统发送多个并行内核，否则SP数量翻一番还多，更容易浪费。

应用程序在GPU和CUDA模式之间的切换时间也快得多了，NVIDIA宣称是GT200的10倍。外部链接亦有改进，Fermi如今支持和CPU之间的并行传输，而以前都是串行的。

五、ECC支持

AMD Cypress能够检测内存总线上的错误，却不能修正，而NVIDIA Fermi的寄存器文件、一级缓存、二级缓存、DRAM所有完整支持ECC错误校验，这一样是为Tesla准备的，以前咱们也提到过。不少客户此前就是由于Tesla没有ECC才拒绝采纳，由于他们的安装量很是庞大，必须有ECC。

六、统一64-bit内存寻址

之前的架构里多种不一样载入指令，取决于内存类型：本地(每线程)、共享(每组线程)、全局(每内核)。这就和指针形成了麻烦，程序员不得不费劲清理。Fermi统一了寻址空间，简化为一种指令，内存地址取决于存储位置：最低位是本地，而后是共享，剩下的是全局。这种统一寻址空间是支持C++的必需前提。

GT80/GT200的寻址空间都是32-bit的，最多搭配4GB GDDR3显存，而Fermi一举支持64-bit寻址，即便实际寻址只有40-bit，支持显存容量最多也可达惊人的1TB，目前实际配置最多6GB GDDR5——还是Tesla。

七、新的指令集架构(ISA)

下边对开发人员来讲是很是酷的：NVIDIA宣布了一个名为“Nexus”的插件，能够在Visual Studio里执行CUDA代码的硬件调试，至关于把GPU当成CPU看待，难度大大下降。Fermi的指令集架构大大扩充，支持DX11和OpenCL责无旁贷，C++前边也已经说过，如今又多了Visual Studio，固然还有C、Fortran、OpenGL 3.1/3.2。

Kepler架构解析回顾

Kepler GK110 性能卓越，效率极高

Kepler GK110 由 71 亿个晶体管组成，不只速度最快，并且仍是有史以来架构最复杂的微处理器。GK110 新加了许多注重计算性能创新功能，目的是要成为英伟达 Tesla和HPC市场上的并行处理动力站。

Kepler GK110 会提供超过每秒 1 万亿次双精度浮点计算的吞吐量，DGEMM 效率大于80%，而以前的 Fermi 架构的效率是 60 65%。除了大大提升的性能以外，Kepler 架构在电源效率方面有 3 次巨大的飞跃，使 Fermi 的性能/功率比提升了 3 倍。

Kepler GK110 的如下新功能提升 GPU 的利用率，简化了并行程序设计，并有助于 GPU 在各类计算环境中部署，不管是从我的工做站仍是到超级计算机：

Dynamic Parallelism

可以让 GPU 在无需 CPU 介入的状况下，经过专用加速硬件路径为本身创造新的工做，对结果同步，并控制这项工做的调度。这种灵活性是为了适应程序执行过程当中并行的数量和形式，编程人员能够处理更多的各类并行工做，更有效的将 GPU 用为计算用途。此功能容许结构较简单，一但较复杂的任务方便有效地运行，能使较大部分的应用程序在整个 GPU 上运行。此外，程序可以更容易的建立，CPU 能为其余任务释放。

Hyper-Q

Hyper - Q 容许多个 CPU 核同时在单一 GPU 上启动工做，从而大大提升了GPU 的利用率并削减了 CPU 空闲时间。Hyper Q 增长了主机和 Kepler GK110 GPU 之间的链接总数（工做队列），容许 32 个并发、硬件管理的链接（与 Fermi 相比，Fermi 只容许单个链接）。Hyper - Q 是一种灵活的解决方案，容许来自多个 CUDA 流、多个消息传递接口（MPI）进程，甚至是进程内多个线程的单独链接。之前遇到跨任务虚假串行化的应用程序，限制了 GPU 的利用率，而如今无需改变任何现有代码性能就能大幅度提高。

Grid Management Unit

使 Dynamic Parallelism 可以使用先进、灵活的 GRID 管理和调度控制系统。新 GK110 Grid Management Unit (GMU) 管理并按优先顺序在 GPU上执行的 Grid。GMU 能够暂停新 GRID 和等待队列的调度，并能停止 GRID，直到其可以执行时为止，这为 Dynamic Parallelism 这样的强大运行提供了灵活性。GMU 确保CPU 和 GPU 产生的工做负载获得妥善的管理和调度。

NVIDIA GPUDirect

可以使单个计算机内的 GPU 或位于网络内不一样服务器内的 GPU 直接交换数据，无需进入 CPU 系统内存。GPUDirect 中的 RDMA 功能容许第三方设备，例如 SSD、NIC、和 IB 适配器，直接访问相同系统内多个 GPU 上的内存，大大下降 MPI 从 GPU 内存发送/接收信息的延迟。还下降了系统内存带宽的要求并释放其余 CUDA 任务使用的 GPU DMA 引擎。Kepler GK110 还支持其余的GPUDirect 功能，包括 Peer to Peer 和 GPUDirect for Video。

Kepler 架构概述

Kepler GK110 专为英伟达 Tesla打造，其目标是成为世界上并行计算性能最高的微处理器。GK110 不只大大超过由 Fermi 提供的原始计算能力，并且很是节能，显著减小电力消耗，同时产生的热量更少。

完整 Kepler GK110 实施包括 15 SMX 单元和六个 64 位内存控制器。不一样的产品将使用GK110 不一样的配置。例如，某些产品可能部署 13 或 14 个 SMX。在下面进一步讨论的该架构的主要功能，包括：

新 SMX 处理器架构

加强的内存子系统，在每一个层次提供额外的缓存能力，更多的带宽，且彻底进行了从新设计，DRAM I/O 实施的速度大大加快。

贯穿整个设计的硬件支持使其具备新的编程模型功能

Kepler GK110 支持新 CUDA Compute Capability 3.5。

Kepler 架构的一个主要设计目标是提升电源效率。设计 Kepler 时，英伟达工程师应用从 Fermi中积累的经验，以更好地优化 Kepler 、实现高效运行。台积电的 28nm 制造工艺在下降功耗方面起着重要的做用，但许多 GPU 架构须要修改，以进一步下降功耗，同时保持出色的性能。

Kepler 每个硬件设备都通过设计和擦洗，以提供卓越的性能/功率比。出色性能/功率比的最佳案例是 Kepler GK110 新流式多处理器 (SMX) 中的设计，与最近 Kepler GK104 引入的 SMX 单元的许多方面相似，但计算算法包括更多双精度单位。

流式多处理器 (SMX) 架构

Kepler GK110 的新 SMX 引入几个架构创新，使其不只成为有史以来最强大的多处理器，并且更具编程性，更节能。 SMX: 192 个单精度 CUDA 核、64 个双精度单元、32 个特殊功能单元 (SFU) 和 32 个加载/存储单元 (LD/ST)。

SMX 处理核架构

每一个 Kepler GK110 SMX 单元具备 192 单精度CUDA 核，每一个核彻底由浮点和整数算术逻辑单元组成。Kepler 彻底保留 Fermi 引入的 IEEE 754-2008 标准的单精度和双精度算术，包括积和熔加 (FMA) 运算。

Kepler GK110 SMX 的设计目标之一是大大提升 GPU 的双精度性能，由于双精度算术是许多HPC 应用的核心。Kepler GK110 的 SMX 还保留了特殊功能单元 (SFU) 以达到和上一代 GPU 相似的快速超越运算，所提供的 SFU 数量是 Fermi GF110 SM 的 8 倍。

与 GK104 SMX 单元相似，GK110 SMX 单元内的核使用主 GPU 频率而不是 2 倍的着色频率。2x 着色频率在 G80 Tesla 架构的 GPU 中引入，并用于以后全部的 Tesla 和 Fermi 架构的GPU。在更高时钟频率上运行执行单元使芯片使用较少许的执行单元达到特定目标的吞吐量，这实质上是一个面积优化，但速度更快的内核的时钟逻辑更耗电。对于 Kepler，咱们的首要任务是的性能/功率比。虽然咱们作了不少面积和功耗方面的优化，可是咱们更倾向优化功耗，甚至以增长面积成本为代价使大量处理核在能耗少、低 GPU 频率状况下运行。

Quad Warp Scheduler

SMX 以 32 个并行线程为一组的形式调度进程，这 32 个并行线程叫作 Warp。而每一个 SMX 中拥有四组 Warp Scheduler 和八组 Instruction Dispatch 单元，容许四个 Warp 同时发出执行。Kepler 的 Quad Warp Scheduler 选择四个 Warp，在每一个循环中能够指派每 Warp 2 个独立的指令。与 Fermi 不一样，Fermi 不容许双精度指令和部分其余指令配对，而 Kepler GK110 容许双精度指令和其余特定没有注册文件读取的指令配对例如加载/存储指令、纹理指令以及一些整数型指令。

每一个 Kepler SMX 包含 4 组 Warp Scheduler，每组 Warp Scheduler 包含两组 Instruction Dispatch 单元。单个 Warp Scheduler 单元如上所示。其中包括：

a) 记录长延迟操做（纹理和加载）的寄存器

b) Warp 内调度决定（例如在合格的候选 Warp 中挑选出最佳 Warp 运行）

c) 线程块级调度（例如，GigaThread 引擎）

然而，Fermi 的 scheduler 还包含复杂的硬件以防止数据在其自己数学数据路径中的弊端。多端口寄存器记录板会纪录任何没有有效数据的寄存器，依赖检查块针对记录板分析多个彻底解码的 Warp指令中寄存器的使用状况过，肯定哪一个有资格发出。

对于 Kepler，咱们认识到这一信息是肯定性的（数学管道延迟是不变量），所以，编译器能够提早肯定指令什么时候准备发出，并在指令中提供此信息。这样一来，咱们就能够用硬件块替换几个复杂、耗电的块，其中硬件块提取出以前肯定的延迟信息并将其用于在 Warp 间调度阶段屏蔽Warp，使其失去资格。

新 ISA 编码：每一个线程 255 个寄存器

可由线程访问的寄存器的数量在 GK110 中已经翻了两番，容许线程最多访问 255 个寄存器。因为增长了每一个线程可用的寄存器数量，Fermi 中承受很大寄存器压力或泄露行为的代码的速度能大大的提升。典型的例子是在 QUDA 库中使用 CUDA 执行格点 QCD（量子色动力学）计算。基于 QUDA fp64 的算法因为可以让每一个线程使用更多寄存器并减小的本地内存泄漏，因此其性能提升了 5.3 倍。

Shuffle 指令

为了进一步提升性能，Kepler 采用 Shuffle 指令，它容许线程在 Warp 中共享数据。此前，Warp 内线程之间的数据共享须要存储和加载操做以经过共享内存传递数据。使用 Shuffle 指令，Warp 能够读取来自Warp 内其余线程中任意排列的值。Shuffle 支持任意索引引用（即任何线程读取任何其余线程）。有用的 Shuffle 子集包括下一线程（由固定量弥补抵消）和 Warp 中线程间 XOR “蝴蝶”式排列，也称为 CUDA 性。

Shuffle 性能优于共享内存，所以存储和加载操做可以一步完成。Shuffle 也能够减小每一个线程块所需共享内存的数量，由于数据在 Warp 级交换也不须要放置在共享内存中。在 FFT 的状况下，须要共享一个 Warp 内的数据，经过使用 Shuffle 得到 6％的性能增益。

纹理改进

GPU 的专用硬件纹理单元对于须要取样或过滤图像数据的计算机程序来讲是宝贵的资源。Kepler中的纹理吞吐量与 Fermi 相比有明显提升，每一个 SMX 单元包含 16 纹理过滤单元，对比 FermiGF110 SM 提升了 4 倍。

此外，Kepler 改变了管理纹理状态的方法。在 Fermi 时代，为让 GPU 引用纹理，必须在固定大小绑定表中分配“槽”才能启动 Grid。表中槽数量最终限制程序一次能够读取多少个独特的纹理。最终，在 Fermi 中限制程序仅能够同时访问 128 纹理。

Kepler 中有无绑定纹理，不须要额外步骤：纹理状态已保存为内存中的对象，硬件按需获取这些状态对象，绑定表过期。这有效地消除了计算程序引用独特纹理数量的任何限制。相反，程序能够在任什么时候间映射纹理和通纹理处理周围，由于他们将任何其余指针

Kepler 内存子系统 L一、L二、ECC

Kepler 的内存层次结构与 Fermi 相似。Kepler 架构支持统一内存加载和存储的请求路径，每一个SMX 多处理器有一个 L1 缓存。Kepler GK110 还使编译器指示为只读数据增设一个新的缓存，以下所述。

Kepler GK110 设计的初衷就是利用卓越的电源效率达到最大化计算性能和吞吐量。该架构有不少创新，如 SMX、Dynamic Parallelism 和 Hyper Q 使混合计算大大简化和加快了编程，适用于更普遍的应用。Kepler GK110 GPU 将用于许多系统，从工做站到超级计算机，解决 HPC 中最严峻的挑战。

回顾了前面两代架构以后，咱们如今就来看一下Maxwell带来的改变。

NVIDIA全新的RM

其实，Maxwell并无全面革新的技术改进，而是在以前Fermi和Kepler的基础上作了不少的改进而得来的，因此，若是看到全架构图，你会发现有改变，但不是翻天覆地的，由于不须要这样的革新，就能作到性能的进步，这就是NVIDIA的力量！

GM107架构图

Maxwell在流式多处理器方面采用了一种全新设计，可大幅提升每瓦特性能和每单位面积的性能。虽然KeplerSMX设计在这一代产品中已经至关高效，可是随着它的发展，NVIDIA的GPU架构师显然找到了让架构效率再一次重大飞跃的方法。

MaxwellSM设计实现证实了这一点，控制逻辑分区、负荷均衡、时钟门控粒度、编译器调度、每时钟周期发出指令条数等方面的改进以及其它诸多加强之处让Maxwell SM(亦称“SMM”)可以在效率上远超Kepler SMX。全新的Maxwell SM架构可以在GM107中把SM的数量增至五个(GK107中仅有两个)，而芯片面积仅增长25%。

Maxwell SM架构图

GM 107 GPU包含一个GPC、五个Maxwell流式多处理器(SMM)以及两个64位显存控制器(共128位)。这就是这一芯片的完整实现形式，每组SMM单元又由4个小单元组成，每组32个CUDA核心，TMU单元又下降到8个，位宽维持128bit，所以CUDA核心总数为640个，纹理单元40个，ROP单元为16个，与GeForce GTX 750Ti中的芯片配置相同。

经过对比GK107和GM107 SM总数的相关指标可发现，GM107有五个SM，而前者只有两个。GM107的峰值纹理性能比前者高25%，CUDA核心数量多1.7倍，着色器性能大约高2.3倍。

全新的G-SYNC同步技术

全新的G-SYNC同步技术核心重点

G-SYNC的出现让这种状况完全改观，本质上说G-SYNC能够从根源上杜绝撕裂和卡顿，由于G-SYNC是在显示器中加入一个芯片，让显示器遵从显卡的命令肯定实时的刷新频率。简而言之就是显卡渲染出一帧，显示器就刷新一帧。这样作的好处是不管场景渲染变化如何大，显卡帧数如何波动，只要保持在必定的水平之上，咱们看到的都是连贯平滑的图像。

NVIDIA显卡技术全览

本次的首发咱们收到了公版卡以及其余厂商送来的非公版显卡，首先，仍是带你们一块儿来看下公版卡的状况！

GTX750系列的定位

GTX 750 Ti

NVIDIA GTX750Ti核心代号GM107-400，采用最新的Maxwell架构，拥有640个CUDA处理器，功耗仅为60W，显卡采用P2010公版PCB，配备了5CM的风扇及全铝散热器。

GTX750Ti配备了2GB/128Bit GDDR5显存颗粒，主频为1020MHz，支持GPU Boost 2.0技术，能够根据实时功耗与温度智能超频，显存频率为5500MHz。

输出接口则是配备了双DVI+mini HDMI的组合，彻底能够知足主流用户的需求。

除了原厂卡以外，做为AIC厂商也纷纷在第一时间推出了相应的产品，其中包括了微星、索泰这样的大厂！

微星

影驰

七彩虹

介绍完各款显卡，就让咱们来实战，看下R9 290X显卡的表现如何!首先，仍是介绍一下本次测试的测试平台。本次此时咱们选择了常规的测试平台，各方面信息请看下表：

硬件平台信息
It168 显卡测试平台信息
CPU	Intel Core i7 4770K 4C8T OC=4.2GHz
主板	MSI Z87 XPOWER（Z87芯片组）
内存	Kingston DDR3-1600 4GB*2
显卡	HD7770 1000/4500 GTX650Ti 928/5400 R7 260X 1100/6500 HD7850 860/4800 GTX650Ti BOOST 980/6008 GTX660 980/6008 HD7870 1000/4800 R9 270X 1050/5600 HD7950 800/5000 GTX660Ti 915/6008 GTX760 980/6008 GTX750 1020/6008 GTX750Ti 1020/6008
硬盘	Kingston V300 240GB
电源	Antec 1000W
软件平台信息
系统软件	Windows 7 64bit with sp1 NVIDIA 334.69 Beta AMD Catalyst 14.1 beta
测试软件	3DMark 3DMark11 GPU-Z 0.7.3 Unigine Valley MSI Afterburner 《古墓丽影9》《孤岛危机3》《孤岛惊魂3》《战地3》《失落星球2》《狙击精英2》《地铁 2033》《异形VS铁血战士》《光荣使命》

测试过程主要是以游戏实测为主，另外采用了几个比较经常使用的软件，3DMark，CPU-Z，也包括了超频工做可能用到的MSI Afterburner等软件。

测试说明

测试项目方面，咱们加入了很多近期推出的DX11测试软件，例如3DMARK、Heaven 4.0以及Valley 1.0。而游戏方面若游戏有自带或者第三方Benchamark软件则使用，若没有的则使用FRAPS监查帧数变化最平均值，务求尽可能得到最准确的数据;因为测试对象为旗舰级显卡，咱们直接采用1920*1200高分辨率进行性能测试，因此部分要求强度相对较低的游戏，开启4xAA或者8xAA全屏抗锯齿的方式进行测试。

帧数与游戏流畅度的关系
vga.it168.com
< 30 FPS	很是有限的流畅度
30-40 FPS	平均值恰好达标的流畅度
40-60 FPS	较好的流畅度
> 60 FPS	最佳的流畅度

关于FPS：

衡量一块显卡的性能咱们一般都会用到FPS这个单位，帧数这个数字越大表明着显卡的每秒渲染能力越强，数值越高表明着用户在游戏中将得到体验效果越流畅。

一般一个游戏的FPS数值是经过测试数值求平均值得到，这样的测试一般能够展示真实游戏中场景与体验的一个预先录制片断。这个录制的片断将会被应用在每款测试的显卡上，测试的前提是每款显卡都采用相同的画质设置，这样才能保证得到客观真实的测试结果。

*假如一款显卡在测试中平均帧数低于30FPS，那就意味着没法顺畅的玩该款游戏。 *达到大约30～40FPS左右，咱们将能够较为流畅的运行游戏，固然也会有片刻停顿的情况。总的来讲，仍是可以得到较好的游戏享受。在这个分辨率下得到匹配的最佳分辨率。 *当一款显卡的平均帧数能够达到或者超越60FPS，那就是说咱们能够放心地享受游戏带来的快感，而且打开全部能够打开的画质设置。 *超越100FPS的显卡?或许这是一款怪兽级的显卡有或者是在一款至关老的游戏才会遇到的状况。

既然针对平台不一样，测试项目天然也相去甚远。三大平台除了PC追求极致性能外，笔记本和平板都受限于电池和移动因素，性能不是很高，所以以前的3Dmark11虽然有三档可选，依然不能准确衡量移动设备的真实性能。

而此次Futuremark为移动平台量身定作了专有测试方案，新一代3DMark三个场景的画面精细程度以及对配置的要求可谓天差地别。Fire Strike、Cloud Gate、Ice Storm三大场景，他们分别对应当前最热门的三大类型的电脑——台式电脑、笔记本电脑和平板电脑。

时至今日依然没有任何一个测试软件或者游戏可以取代3DMark在游戏玩家心目中的地位，由于3DMark的魅力就在于它所带来的不只仅是惊艳的画面，更重要的是向广大玩家提供了一种权威、系统、公正的衡量显卡性能的方式。

3DMark 11的特点与亮点：

一、原生支持DirectX 11：基于原生DX11引擎，全面使用DX11 API的全部新特性，包括曲面细分、计算着色器、多线程。

二、原生支持64bit，保留32bit：原生64位编译程序，独立的32位、64位可执行文件，并支持兼容模式。

三、全新测试场景：总计六个测试场景，包括四个图形测试(实际上是两个场景)、一个物理测试、一个综合测试，全面衡量GPU、CPU性能。

四、抛弃PhysX，使用Bullet物理引擎：抛弃封闭的NVIDIA PhysX而改用开源的Bullet专业物理库，支持碰撞检测、刚体、软体，根据ZLib受权协议而无偿使用。

对于现代显卡测试而言，除了3DMark以外必不可少的项目就是来自俄罗斯的Unigine Heaven(天堂)，尤以其高负载、高压榨而知名。如今，新一代3DMark发布以后，Unigine也奉上了全新的显卡测试程序“Valley”(山谷)。

Valley正是Heaven的开发团队一手打造的，能够在最大程度上榨干GPU显卡资源。此次场景来到了一个优美空灵的山谷，群山环绕，郁郁葱葱，白雪皑皑，旭日初升，并且拥有极致的细节，每一片花瓣、每一株小草都清晰可见。

Unigine Valley分为基础版、高级版、专业版三个版本，其中基础版免费，支持测试预设、自定义设置、GPU监视、交互模式，不支持循环测试(也就是拷机模式)、命令行、CSV报告，对于普通用户和通常评测足够用了。

《孤岛危机3》支持大量的高端图形选项以及高分辨率材质。在游戏中，PC玩家将能看到一系列的选项，包括了游戏效果、物品细节、粒子系统、后置处理、着色器、阴影、水体、各向异性过滤、材质分辨率、动态模糊以及天然光。技术主管Marco Corbetta表示之因此《孤岛危机2》并不包含这么多的选项，是由于开发主机板的开发组实在是搞的太慢了。

Square Enix证明了旗下经典做品《古墓丽影》系列将推出全新做品，官方表示，此次他们将带领玩家回到劳拉最初的探险中，完总体验她成为一名伟大冒险家的精采过程。《古墓丽影9》将讲述劳拉的首次冒险之旅，主角劳拉·克劳馥的年龄被设定在21岁，那时的她还只是一名刚出茅庐的新人，经验欠缺。随着游戏剧情的发展，玩家将与劳拉共同成长，得到新的武器和道具并习得新技能。在冒险的小岛上，玩家能够在营地对道具进行组合，有些特定区域就须要特定道具和技能才能经过。岛上的各个营地之间能够快捷传送，玩家无需长途跋涉。而除了劳拉外还将有其余角色出如今岛上。

回顾以往的做品，劳拉的标志天然是双枪，这次这部讲述劳拉初次的生存冒险，将会采用弓箭做为劳拉的标志武器。在濒临日本的海域的一座小岛，劳拉除了面对神秘的宗教威胁，还要面对如何生存，譬如拿起弓箭，射杀小动物以觅食，谁说劳拉不是一个谋杀者呢?可为了生存，弱肉强食只是为了可以生存。

由EA DICE工做室开发的《战地3》采用了最新的“寒霜2”引擎，完美支持DirectX 11，而且拥有强大的物理效果，最大的亮点仍是光照系统，其渲染的场景已近乎乱真的地步，视觉效果堪称绝赞。游戏还支持即时昼夜系统，为玩家营造一个亲临现场的真实环境。

寒霜2引擎最大的特色即是支持大规模的破坏效果。因为考虑到游戏的画面表现以及开发成本，DICE放弃了以只支持DX9的WINDOWS XP操做系统。另外因为该引擎基于DX11研发，向下兼容DX10，于是游戏只能运行于WINDOWS VISTA以上的的操做系统。

《战地3》采用了ANT引擎制做人物的动做效果。在此以前，ANT引擎已在EA Sports旗下的《FIFA》等游戏中获得应用，不过在FPS游戏中使用尚属首次。相较于Havok等物理引擎，用ANT引擎能够花费较少的精力制做出逼真的效果。举例来讲，战士在下蹲时会先低头俯身、放低枪口，而不是像之前的游戏那样头、身、枪如木偶般同时发生位移。此外，ANT引擎也可让电脑AI的行动更加合理。但这款大做目前并不能良好的兼容120Hz3D以及红蓝3D模式。

游戏介绍：《地铁2033》(Metro 2033)是俄罗斯工做室4A Games开发的一款新做，也是DX11游戏的新成员。该游戏的核心引擎是号称自主全新研发的4A Engine，支持当今几乎全部画质技术，好比高分辨率纹理、GPU PhysX物理加速、硬件曲面细分、形态学抗锯齿(MLAA)、并行计算景深、屏幕环境光遮蔽(SSAO)、次表面散射、视差贴图、物体动态模糊等等。

画面设置：《地铁2033》虽然支持PhysX，但对CPU软件加速支持的也很好，所以使用A卡玩游戏时并不会因PhysX效果而拖累性能。该游戏因为加入了太多的尖端技术致使要求很是BT，以致于咱们都不敢开启抗锯齿进行测试，只是将游戏内置的效果调至最高。游戏自带Benchmark，这段画战斗场景并非很宏大，但已经让高端显卡不堪重负了。

测试说明：若是说是CRYSIS发动了DX10时代的显卡危机，那地铁2033无疑是DX11时代的显卡杀手!地铁2033几乎支持当时能够采用的全部新技术，在画面雕琢上大肆铺张，全然不顾显卡们的感觉，和CRYSIS一模一样。然而CRYSIS靠着特效的堆积和不错的优化，其惊艳绝伦的画面和DX9C游戏拉开了距离，终究赚足了眼球;而地铁则没有这么好运了，画面当然不差，BUG倒是不少，招来了大量的非议。

《Aliens vs. Predator》同时登录PC、X360和PS3，其中PC版由于支持DX11里的细分曲面(Tessellation)、高清环境光遮蔽(HDAO)、计算着色器后期处理、真实阴影等技术而备受关注，是AMD大力推行的游戏之一，可是这样的主题不免让本做有不少不和谐的地方，暴力血腥场面必然不会少!发行商世嘉在2009年11月就曾明志，表示不会为了经过审查而放弃电子娱乐产品发行商的责任，由于游戏要维持“异形大战铁血战士”这一中心主题，不管画面、玩法仍是故事线都不能偏离。

画面设置AVP原始版本并不支持AA，但升级至1.1版本以后，MSAA选项出如今了DX11加强特效当中，固然还支持Tessellation、HDAO、DirectCompute等招牌。该游戏要求不算过高，因此笔者直接将特效调至最高进行测试。

《狙击精英》是2005年Reblion推出的一款以二战为背景的狙击游戏做品，一经推出后就得到英国独立游戏开发者协会的“最佳PC/主机游戏”大奖，《狙击精英V2》则是这款做品的续做，据游戏开发商称续做继续秉承了游戏潜入类狙击的风格，较初代来讲更加注重枪击后的真实感，“咱们保证，新游戏将是最真实的二战狙击类游戏。不只仅在武器弹道上，还有在开枪以前那种紧张的气氛，都会很真实的表现出来。”Rebellion的首席执行官杰森·科林斯雷(Jason Kingsley)如是说。

游戏的画面在总体上至关的不错，不管是从总体的质感，仍是画面的流畅性看都达到了很高的水准，在光源的处理上也很是的到位。同时，游戏依旧延续了初代精益求精的场景设计的理念，好比城市巷战地图中的断壁残垣以及黑烟冲天、山洞地图中充满着神秘气息的导弹基地等都给笔者留下了深入的印像。

在互联网时代的今天，网络日益融入人们的生活，爱网、用网成为时尚，上网络玩游戏成为青年喜好的娱乐方式之一。军事游戏在国外一些军队已发展多年、造成体系，并普遍应用于教育、训练。我军军事游戏目前尚处于起步阶段，基层部队平常娱乐多以小型益智类棋牌游戏为主，形式和功能都比较单一。

一些部队开展网上军事游戏对抗，使用的也大都是国外军事游戏的汉化版，游戏内容和体现的价值理念、军事思想，与我军有很大差别，长期使用不利于部队教育训练，甚至可能误导官兵。新研发的军事游戏《光荣使命》拥有彻底自主知识产权，填补了我军军事游戏的空白。

《孤岛惊魂3》继承着《孤岛惊魂》系列的纯种血统，融合了系列前做的全部优势，并有着新鲜的创做路线，不管是《孤岛惊魂》系列的老玩家仍是新近加入的新手，均可以享受到它宏大的故事。”

在《孤岛惊魂3》中，玩家将会扮演Jason Brody。在这个没有法律、暴力才是真王道的原始天堂中，玩家将决定整个故事的发展。玩家所做出的选择，包括与谁战斗、与谁结盟都会影响到剧情。在游戏中，玩家扮演的Jason Brody将在这我的性已经泯灭了的孤岛上杀出一条血路。

接下来咱们来看一下这两款显卡的待机及满载的温度和功耗如何!

从上面的测试不难看出，全新架构下的GTX750系列，不只功耗控制的很好，并且温度也很低，让人对将来GM系列的核心的表现很是期待。

下面咱们来看一下GTX750超频后的表现，虽然公版卡没有外接6pin供电口，可是因为自己的功耗很低，所以，简单的超频也能知足PCI-E接口的供电需求！

到这里，本次的测试也告一段落了，若是说公版卡并无发挥出Maxwell架构的彻底之处，那么咱们彷佛多了一个期待非公版显卡的表现的理由了，更不用说将来强大的GM110芯片了。从总体上来看，Maxwell带来的能效比确实有大幅的提高，实在是让人欣喜。

咱们要看到的是目前的GTX750系列依旧采用28nm工艺来制造，若是说完整版的GM110核心能到20nm制程，想必性能又会有大幅飞升，对于将来的发展，老是让人很期待。

截至到发稿时，咱们接到消息，GTX 750Ti的NVIDIA官方订价为人民币999元，而GTX750订价为799元，这样的价格以消费者的角度来讲，彷佛并无到神器的地步，不过做为全新架构的产品上市，价格虚高是业界一向的做风，若是笔者没有预料错误的话，相信在几个月内会有所下调，那时候非公版产品也全面上市并铺货，到时候必定会成为新一代入门级游戏利器的。

再来讲一下另外一个状况，那就是在GTX750系列发布、上市以前，AMD悄悄的发布的R7 265，这款显卡能够当作是HD7850的马甲版，至于AMD如此作的缘由除了是统一产品命名以外，更可能是应该仍是感到了来自NV的压力，将来的竞争将会更加激烈。

最后，出来性能以外，GTX750系列的功耗也成为了不少消费者关注的重点，特别是网吧业主，一块节电而性能又不错的产品相信未来也会成为很多网吧的标配，再配合NV独家的GFE软件，游戏玩家应该会更加享受将来的体验，那就和笔者一同起来更多新产品的带来吧。