最近在研究学习TensorFlow,在作识别手写数字的demo时,遇到了tf.nn.conv2d这个方法,查阅了官网的API 发现讲得比较简略,仍是没理解。google了一下,参考了网上一些朋友写得博客,结合本身的理解,差很少整明白了。python
tf.nn.conv2d (input, filter, strides, padding, use_cudnn_on_gpu=None, data_format=None, name=None)api
import tensorflow as tf # case 1 # 输入是1张 3*3 大小的图片,图像通道数是5,卷积核是 1*1 大小,数量是1 # 步长是[1,1,1,1]最后获得一个 3*3 的feature map # 1张图最后输出就是一个 shape为[1,3,3,1] 的张量 input = tf.Variable(tf.random_normal([1,3,3,5])) filter = tf.Variable(tf.random_normal([1,1,5,1])) op1 = tf.nn.conv2d(input, filter, strides=[1,1,1,1], padding='SAME') # case 2 # 输入是1张 3*3 大小的图片,图像通道数是5,卷积核是 2*2 大小,数量是1 # 步长是[1,1,1,1]最后获得一个 3*3 的feature map # 1张图最后输出就是一个 shape为[1,3,3,1] 的张量 input = tf.Variable(tf.random_normal([1,3,3,5])) filter = tf.Variable(tf.random_normal([2,2,5,1])) op2 = tf.nn.conv2d(input, filter, strides=[1,1,1,1], padding='SAME') # case 3 # 输入是1张 3*3 大小的图片,图像通道数是5,卷积核是 3*3 大小,数量是1 # 步长是[1,1,1,1]最后获得一个 1*1 的feature map (不考虑边界) # 1张图最后输出就是一个 shape为[1,1,1,1] 的张量 input = tf.Variable(tf.random_normal([1,3,3,5])) filter = tf.Variable(tf.random_normal([3,3,5,1])) op3 = tf.nn.conv2d(input, filter, strides=[1, 1, 1, 1], padding='VALID') # case 4 # 输入是1张 5*5 大小的图片,图像通道数是5,卷积核是 3*3 大小,数量是1 # 步长是[1,1,1,1]最后获得一个 3*3 的feature map (不考虑边界) # 1张图最后输出就是一个 shape为[1,3,3,1] 的张量 input = tf.Variable(tf.random_normal([1,5,5,5])) filter = tf.Variable(tf.random_normal([3,3,5,1])) op4 = tf.nn.conv2d(input, filter, strides=[1, 1, 1, 1], padding='VALID') # case 5 # 输入是1张 5*5 大小的图片,图像通道数是5,卷积核是 3*3 大小,数量是1 # 步长是[1,1,1,1]最后获得一个 5*5 的feature map (考虑边界) # 1张图最后输出就是一个 shape为[1,5,5,1] 的张量 input