CUDA学习(二十五)

硬件实施(HARDWARE IMPLEMENTATION): NVIDIA GPU架构是围绕可扩展的多线程流处理器(SM)阵列构建的。 当主机CPU上的CUDA程序调用内核网格时,网格块被枚举并分配给具有可用执行能力的多处理器。 一个线程块的线程在一个多处理器上同时执行,多个线程块可以在一个多处理器上同时执行。 当线程块终止时,在空闲的多处理器上启动新的块。 多处理器被设计为同时执行数百个线程。
相关文章
相关标签/搜索