《CUDA C编程权威指南》——3.3节并行性的表现述

本节书摘来自华章社区《CUDA C编程权威指南》一书中的第3章,第3.3节并行性的表现述,作者[美] 马克斯·格罗斯曼(Max Grossman) ,更多章节内容可以访问云栖社区“华章社区”公众号查看 3.3 并行性的表现 为更好地理解线程束执行的本质,将使用不同的执行配置分析下述的sumMatrixOn-GPU2D核函数。使用nvprof配置指标,可以有助于理解为什么有些网格/块的维数组合比其他
相关文章
相关标签/搜索