CUDA学习——Chapter 2(4)内存空间布局对核函数性能的影响(2)

第二章 3.使用一维网格和一维块对矩阵求和 前面我们使用了二维网格和二维块对矩阵求和,这种分割是非常直观的。那么现在我们就要使用抽象一点的概念,以稍复杂的编程来获得可能能取得的更高的性能。这就需要我们对映射有比较好的深入了解。 首先,我们再复习一下一维网格和一维块的结构: 其中,nx是x方向上最大的线程数,ny是一个线程需要处理的数据元素个数(因为这个块是一维的,照理来说是不应该有ny的)。所以这
相关文章
相关标签/搜索