CUDA学习——Chapter 2(4)内存空间布局对核函数性能的影响(1)

第二章 1.坐标映射 从前面的博文我们可以知道,global memory是可以划分成网格(一个程序对应一个网格),网格由块组成,块由线程组成。一个块内的线程可以相互访问,相互等待。 通过对前面并行向量加法的分析,我们知道,网格和块的大小会影响核函数的性能,这一篇博文将随着书本来探究如何组织网格和块从而获得更高效的性能。 还是以矩阵加法为例,在矩阵加法中,传统的是使用二维网格和二维块的布局来分配线
相关文章
相关标签/搜索