CUDA学习（八十三）

时间 2021-01-12

原文原文链接

计算能力为3.x Architecture：多处理器由以下部分组成：用于算术运算的192个CUDA内核（请参阅算术运算吞吐量的算术指令）， 32个特殊功能单元用于单精度浮点超越函数 4个warp调度器。当多处理器被执行时，它首先在四个调度器中进行分配。然后，在每个指令发布时间，每个调度程序为其准备执行的其中一个分配的warp发出两条独立指令（如果有的话）多处理器具有只读常量高速缓存，该高