【并行计算10】GPU ARCHITECTURE

Thread execution Execution model Warp Warp Divergence 减少branch结构 为什么是2是保证了if和else的情况 减少判断的次数,unroll Memory hierarchy local variable不一定非常快哦! Register&Local memory 一个block中thread越多,则local variable会被挤出到g
相关文章
相关标签/搜索