cuda矩阵转置

一直觉得经典的cuda矩阵转置只能用于矩阵的宽高都能被线程块大小整除的状况,也是很奇怪,不知道怎么造成这个概念的,而后此次又要用到,本想着大干一番,把宽高不能被线程块整除的矩阵转置攻克了,但是没想到一测试,人原本就能够实现,这就尴尬了, 因此在此记录下来,纠正本身的这个错误。 代码: #define BLOCK_DIM 16 __global__ void myTranspose(float *i
相关文章
相关标签/搜索