CUDA SHARED MEMORY

时间 2021-07-10

原文原文链接

在global Memory部分，数据对齐和连续是很重要的话题，当使用L1的时候，对齐问题可以忽略，但是非连续的获取内存依然会降低性能。依赖于算法本质，某些情况下，非连续访问是不可避免的。使用shared memory是另一种提高性能的方式。 GPU上的memory有两种： On-board memory On-chip memory global memory就是一块很大的on-board me