《Bandwidth Reduced Parallel SpMV on the SW26010 Many-Core Platform》读后笔记

核心思路:1)通过轻工作量的预处理阶段,把矩阵A纵向从上到下分割成一个个的row-slice,划分后每个row-slice中的非零元个数大致相同。每个row-slice由一个CPE单独计算。 2)计算一个row-slice时,读取相应的x时使用动态前向规划技术避免取到无用的x,降低了带宽。 3)对CPE进行划分,同组CPE可以共享所需要的x,可进一步降低带宽。 4)设计了parameter aut
相关文章
相关标签/搜索