NVIDIA CUDA初级教程视频--(十)

** 第十章CUDA程序基本优化 ** 1.有效的数据并行算法+针对GPU架构特性的优化=最优性能 2.并行规约parallel reduction:把不相关的计算放到不同的线程 3.warp分割:块内线程如何划分warp,通晓warp分割有助于:减少 分支发散,让warp尽早完工。
相关文章
相关标签/搜索