代码 抽出骨架:一个精简的Openblas api实现

简洁版本的Openblas实现了一个intel x86_64 sgemm,但 保留了 Openblas骨架和精髓 个人觉得Openblas项目中可以借鉴的地方: 1.多线程快速切换(利用job,去更新参数,而不是释放和重新生成新线程) 2.矩阵分块(参考gotoblas的论文),cache利用(尤其在多线程的情况下控制好L3-L1cache的利用程度,最大程度保证cpu不断流) 3.计算单元汇编级
相关文章
相关标签/搜索