深度学习加速综述:算法、编译器、体系结构与硬件设计

深度学习加速综述:算法、编译器、体系结构与硬件设计 概述 一、算法顶层 1.1 大规模分布式机器学习 1.2 优化算法 1.3(轻量级)高效的神经网络结构 1.4 神经网络架构搜索 1.5 网络量化剪枝 1.6 卷积运算的优化 二、深度学习编译器 2.1 需求 2.2 TVM 2.3 Tensorflow XLA 2.4 Pytorch Glow 三、体系结构与硬件设计 3.0 关注指标 3.1
相关文章
相关标签/搜索