ISSCC 2017论文导读 Session 14: A 28nm SoC with a 1.2GHz Prediction Sparse Deep-Neural-Network Engine

时间 2019-12-09

标签 isscc 论文导读 session 28nm soc 1.2ghz ghz prediction sparse deep neural network engine 栏目网站开发繁體版

原文原文链接

A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Error Rate Tolerance for IoT Applicationsmarkdown

单位：Harvard（哈佛大学）session

这是一篇专门为DNN加速设计的芯片，在CNN加速芯片设计当道的今天也算是很是另类了~~不过能在ISSCC上发表，天然也有它的innovation，下面讲一讲。架构

就我当前的能够理解部分（知识结构不足哈，Razor timing violation detection这一块暂时不是特别清楚，留着之后再补），我以为本文的创新点有：（1）稀疏计算，数据0不会参与运算；（2）采用sign-magnitude number format保存参数和计算；ide

DNN计算（就是一个向量*矩阵）是存在SIMD窗口的，一个输入同时能够计算多个节点。可是很容易想到，若是SIMD窗口太大，数据是重用了，可是参数一次要读太多会使得带宽变大。函数

所以，做者分析了数据和参数读取的相对比例，如图，能够看出，8通道的SIMD其效率是较高的，带宽也在合理范围内，同时能够在128b位宽的AXI总线下运行得到10x的数据有效重用率。spa

下面是总体架构图，是一个5阶段的SIMD流水架构，流程基本上是：
一、Host Processor将配置和输入数据载入CFG和IPBUF
二、乘累加器进行计算，数据由IPBUF读入，权重由W-MEM读入
三、在Activation步骤，进行偏置、激活操做，随后将数据写回XBUF（隐藏层结果）
四、向host发起中断请求，数据输出设计

分别对几个点展开讲一下：orm

XBUF：有两份，使得同时能够写结果到XBUF,又能够读数据用于计算；图片

Weight采用sign-magnitude number format：其实就是1bit符号位，后面是绝对值的原码，这样的好处是减小了补码表示带来的bit翻转率，既下降了功耗，也减小了出错率；ci

MAC Datapath：有8个并行的16bit MAC单元。由于采用SM，因此做者对同号和异号分开处理——其实就是同号乘结果累加，异号减去。

重点还有sparse怎么作。在MAC单元计算完（累加完成），而后要加上Bias，而后过RELU单元（也是由于RELU因此数据结果才稀疏，可是换其余激活函数就不行了），对于0数据（以及小于阈值的比较小的值），是不会写回XBUF的，同时Activation生产了SKIP信号存在临时的NBUF中。NBUF（512B SRAM）中维护的是参数中非零的index，DMA阶段会根据index来生成weight address，用于下个阶段从W-MEM取参数；这样就能够避免0数据的计算cycle了。

最后总结[1]：

DNN ENGINE——一款高能效的DNN加速器(568nj/pred@1.2GHz)，时序容差>10^-1@MNIST 98.36%

-Parallelism：10x的数据重用@带宽128b/cycle

-Sparcity：+4x吞吐，-4x能耗

-Resilience：+50%吞吐/-30%能耗(2/Razor)

[1] https://reconfigdeeplearning.com/2017/02/08/isscc-2017-session-14-slides14-3/ [2] ISSCC2017， A 28nm SoC with a 1.2GHz 568nJ/Prediction Sparse Deep-Neural-Network Engine with >0.1 Timing Error Rate Tolerance for IoT Applications