矩阵分块转置降低 cache miss分析 (Cache Lab PartB)

Lab中给出的cache规格为: s=5, E=1, b=5 矩阵A和B在内存中连续存放。 Lab要求分别对32 * 32 , 64 * 64, 61 * 67的矩阵做转置优化,用到的都是将矩阵分块分别转置的方法。相较于普通转置,为什么分块能够优化cache miss次数? 分块是通过什么来实现优化的 — > 通过减少B一次访问的列数。 最根本的原因在于: Cache不能够一次装满整个矩阵,以最小
相关文章
相关标签/搜索