CUDA编程（四）并行化我们的程序

时间 2020-12-31

原文原文链接

CUDA编程（四） CUDA编程（四）并行化我们的程序上一篇博客主要讲解了怎么去获取核函数执行的准确时间，以及如何去根据这个时间评估CUDA程序的表现，也就是推算所谓的内存带宽，博客的最后我们计算了在GPU上单线程计算立方和的程序的内存带宽，发现其内存带宽的表现是十分糟糕的，其所使用的内存带宽大概只有 5M/s，而像GeForce 8800GTX这样比较老的显卡，也具有超过50GB/s 的内存带