MASK-RCNN是一个多用途的网络,能够用来作目标检测,实例分割或者人体姿态识别.主要结构以下.网络
简单的说,就是首先用Faster-RCNN得到ROI,再进行ROI Align,而后输出ROI的分类,同时输出分割掩码.spa
1. Faster-RCNN和ROI Alignblog
Faster-RCNN是一个两阶段检测器,第一阶段(即RPN)提出候选ROI,再过滤掉一部分,第二阶段对剩下的ROI进行分类.ast
MASK-RCNN对Faster-RCNN作了修改,得到ROI之后并无立刻输出分类,而是进行了ROI Align.ROI Align经过双线性插值得到准确的特征图,而不是四舍五入之后的特征图.例如,若是输出的ROI坐标是[x/16],其中16是特征图步幅,[⋅]表示四舍五入,这样得到的特征图和ROI的坐标并无彻底对端,虽然对分类影响不大,可是对掩码的输出影响较大.ROI Align经过双线性插值得到准确的特征图,以下图所示.im