图解神秘的NC4HW4

时间 2020-12-06

标签 git github web 算法微信框架编辑器学习 flex 优化栏目 Git 繁體版

原文原文链接

【GiantPandaCV导语】以卷积和im2col+gemm实现卷积操做举例,来图解深度学习中Tensor的NC4HW4(其实应该是N{C/4+C%4>0?1:0}HW4),写成NC4HW4方便阅读.git

什么是NC4HW4？

对于卷积操做, 根据计算机内存排布特色, 按行进行处理.处理完一个通道的数据, 转入下一个通道继续按行处理.

卷积操做示意图

对于一个nchw格式的Tensor来讲, 其在计算机中的内存排布是这样的:

NCHW的Tensor内存排布示意图

使用cpp一次指令处理一个数据, 用来处理卷积操做, 即循环实现乘法相加便可.

卷积实现示意图

如今有一条指令处理4组数据的能力, 好比x86结构的sse指令,arm的neon指令.以及GPGPU的OpenGL和OpenCL,单次处理RGBA四组数据. 若是继续使用nchw内存排布的话, 是这样的.

想使用指令集加速卷积，不能直接计算

根据按行处理特色, 对于Feature和kernel的宽不是4倍数进行处理, 会出现错误. 图中的kernel很明显以已经到了第二行的值。那么有没有方法在按行处理的思想上, 一次处理4个数,而不受影响.答案是有的, 即NC4HW4.即把前4个通道合并在一个通道上, 依次类推, 在通道数不够4的状况下进行补0.

通过NC4HW4重排后的Tensor在内存中的排布状况以下:

通过NC4HW4重排后的Tensor在内存中的排布示意图

那么, 此时在进行单次指令处理4组数据的处理,就没有问题了.只不过处理结果也是NC4HW4结构的，须要在结果输出加上NC4HW4转nchw.

使用指令集加速卷积，能够直接计算

NC4HW4中使用im2col+gemm实现卷积:

im2col+gemm在深度学习中是最经常使用的对卷积进行加速计算的方案。最先在caffe框架中支持。思路以下:

卷积示意图

使用im2col+gemm进行计算:

Im2Col图解

对于NC4HW4内存排布的Tensor来讲,一样能够采用im2col+gemm来处理.
有以下卷积,可使用NC4HW4内存排布方式,使用指令集优化对卷积进行加速.

卷积示意图

NCHW转NC4HW4.

NCHW转NC4HW4

NC4HW4对feature进行im2col

NC4HW4对feature进行im2col示意图

NC4HW4对kernel进行im2col

NC4HW4对kernel进行im2col

使用SSE,Neon,OpenCL或OpenGL实现Gemm.

使用SSE,Neon,OpenCL或OpenGL实现Gemm

最后

欢迎关注我和BBuf及公众号的小伙伴们一块维护的一个深度学习框架Msnhnet: https://github.com/msnh2012/Msnhnet

推荐阅读

欢迎关注GiantPandaCV, 在这里你将看到独家的深度学习分享，坚持原创，天天分享咱们学习到的新鲜知识。( • ̀ω•́ )✧github

有对文章相关的问题，或者想要加入交流群，欢迎添加BBuf微信：web

二维码

为了方便读者获取资料以及咱们公众号的做者发布一些Github工程的更新，咱们成立了一个QQ群，二维码以下，感兴趣能够加入。算法

公众号QQ交流群

本文分享自微信公众号 - GiantPandaCV（BBuf233）。
若有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一块儿分享。微信

相关文章

相关标签/搜索

神秘的程序员们

图解AI：动图

超详解+图解

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<