CUDA学习(八十六)

计算能力6.x: 多处理器由以下部分组成: 64(计算能力6.0)或128(6.1和6.2)用于算术运算的CUDA内核 用于单精度浮点超越函数的16(6.0)或32(6.1和6.2)特殊功能单元, 2(6.0)或4(6.1和6.2)warp调度程序。 当一个多处理器被执行时,它首先在它的调度器中进行分配。 然后,在每个指令发布时间,每个调度程序为其分配的一个warp指令发出一条指令,如果有的话,该
相关文章
相关标签/搜索