矩阵分块转置降低 cache miss分析（Cache Lab PartB）

时间 2021-01-12

原文原文链接

Lab中给出的cache规格为： s=5, E=1, b=5 矩阵A和B在内存中连续存放。 Lab要求分别对32 * 32 ， 64 * 64， 61 * 67的矩阵做转置优化，用到的都是将矩阵分块分别转置的方法。相较于普通转置，为什么分块能够优化cache miss次数？分块是通过什么来实现优化的 — > 通过减少B一次访问的列数。最根本的原因在于： Cache不能够一次装满整个矩阵，以最小

>>阅读原文<<

1. CPU Cache 机制以及 Cache miss
2. CSAPP: cache lab (Part B未完成)
3. Cache miss and Code optimization by blocking
4. Nginx Proxy Cache分析
5. OpenRisc-41-or1200的cache模块分析
6. 低秩矩阵分解
7. 2.5 分块矩阵
8. cache
9. spark-cache的源码分析
10. cache分析好persist解释
更多相关文章...
• R 矩阵 - R 语言教程
• IP地址分配（静态分配+动态分配+零配置） - TCP/IP教程
• Git五分钟教程
• 算法总结-二分查找法

矩阵分块转置降低 cache miss分析 （Cache Lab PartB）

矩阵分块转置降低 cache miss分析（Cache Lab PartB）