CUDA学习(二十八)

多处理器级别: 在更低层次上,应用程序应该最大化多处理器内各个功能单元之间的并行执行; 如“硬件多线程”中所述,GPU多处理器依赖于线程级并行性来最大限度地利用其功能单元。因此利用率与驻留经线的数量直接相关。在每个指令发布时间,一个warp调度器选择一个准备好执行下一个指令的warp(如果有的话),然后发送指令给warp的活动线程。一个warp准备好执行下一条指令需要的时钟周期数称为等待时间,当所
相关文章
相关标签/搜索