CUDA实践指南(十五)

分段访问: 如上所示,在顺序访问未对齐的情况下,计算能力2.x设备的高速缓存有助于实现合理的性能。 然而,它可能与非单位跨步访问有所不同,并且这是处理多维数据或矩阵时经常发生的模式。 出于这个原因,确保所获取的每个缓存行中的数据尽可能多地被实际使用,这是这些设备上的存储器访问的性能优化的重要部分。 为了说明跨接访问对有效带宽的影响,请参阅内核中的内核strideCopy(),以说明非单元跨度数据副
相关文章
相关标签/搜索