《OpenACC并行程序设计:性能优化实践指南》一 3.9 增加GPU任务并行

3.9 增加GPU任务并行 在图3-10中,放大主机-设备的追踪数据,可以看出在一些内核启动和开始执行内核间有时间差。此外,因为同步主机与GPU间的数据拷贝,所以GPU依旧有时空闲。使用CUDA流引入异步GPU活动,来确保PIConGPU可以向GPU发送更多的任务,让GPU找出最好的处理方式。图3-11显示了使用CUDA流的结果。现在每个主机线程都使用CUDA流(每个GPU有5个流),一个流负责主
相关文章
相关标签/搜索