CUDA实践指南(二十五)

指令优化: 对指令执行方式的了解通常允许进行低级别的优化,尤其是在频繁运行的代码(程序中所谓的热点)中尤其有用。 最佳实践表明,在完成所有更高级别的优化之后执行此优化。 算术指令: 单精度浮点数提供了最佳的性能,并且极大地鼓励了它们的使用。单个算术运算的吞吐量详见CUDA C编程指南。 划分模数: 低优先级:使用移位操作来避免代价大的除法和模数计算。 整数除法和模运算特别昂贵,应尽可能地避免或用位
相关文章
相关标签/搜索