CUDA ---- Memory Model

时间 2021-08-15

原文原文链接

Memory kernel性能高低是不能单纯的从warp的执行上来解释的。比如之前博文涉及到的，将block的维度设置为warp大小的一半会导致load efficiency降低，这个问题无法用warp的调度或者并行性来解释。根本原因是获取global memory的方式很差劲。众所周知，memory的操作在讲求效率的语言中占有极重的地位。low-latency和high-bandwidth是高