Deep Learning on Point Sets for 3D Classification and Segmentation

         点云数据是一种重要的几何数据结构, 由于其不规则的格式, 大部分研究都集中在怎样将数据转换成3d立体网格. 但是这样的工作是大量的且会出现问题. 所以作者提出一种新的网络结构来处理这样的情况,利用max_pooling来处理3D非有序点云.

Net Architect

image

  • Classification NetWork
    • 该网络的输入是 n \times 3n×3, 其中n是点云的个数.

    • 其中第一个 input transform (简称IT) 中的 T-Net 的结构是经过一个步长为1的 1\times31×3 卷积, 输出为64维. 然后经过两个步长为 1\times11×1的卷积输出分别为 128, 1024.然后max_pooling, 步长为n \times 1n×1.最后经过两个输出分别为 512, 256, 9的全连接层. 其中最后一个全连接层不加激活函数和batch normal. 得到一个 3\times33×3 的转换矩阵. 原始输入乘以转换矩阵得到作为下一层的输出.(n * 3n3)

    • 将上一层的输出分别经过 1\times31×3 和 1\times11×1 的卷积输出都为64维. 作为下一层的输入( n\times64n×64).

    • 经过一个 feature transform(简称FT), FT 与 IT 类似, 只是第一个卷积核为 1\times11×1 (n\times64n×64).

    • 经过三个卷积核为 1\times11×1的卷积核,输出分别为64, 128, 1024. 最后再经过步长为 n \times 1n×1 的max_pooling 层(10241024).

    • 经过两个全连接层(加入dropout, keep_prob=0.7)输出分别为512, 256, 最后再经过一个连接层, 输出的维数为要分类的维数.