深度学习面试

时间 2019-11-05

原文原文链接

什么是卷积？编程

对图像（不一样的数据窗口数据）和滤波矩阵（一组固定的权重：由于每一个神经元的多个权重固定，因此又能够看作一个恒定的滤波器filter）作内积（逐个元素相乘再求和）的操做就是所谓的『卷积』操做，也是卷积神经网络的名字来源。网络

什么是CNN的池化dom

池化，简言之，即取区域平均或最大函数

简述下什么是生成对抗网络？学习

GAN之因此是对抗的，是由于GAN的内部是竞争关系，一方叫generator，它的主要工做是生成图片，而且尽可能使得其看上去是来自于训练样本的。另外一方是discriminator，其目标是判断输入图片是否属于真实训练样本。更直白的讲，将generator想象成假币制造商，而discriminator是警察。generator目的是尽量把假币造的跟真的同样，从而可以骗过discriminator，即生成样本并使它看上去好像来自于真实训练样本同样.net

请介绍下tensorflow的计算图orm

Tensorflow是一个经过计算图的形式来表述计算的编程系统，计算图也叫数据流图，能够把计算图看作是一种有向图，Tensorflow中的每个节点都是计算图上的一个Tensor, 也就是张量，而节点之间的边描述了计算之间的依赖关系(定义时)和数学操做(运算时)blog

deeplearning 调参经验？图片

参数初始化下面几种方式,随便选一个,结果基本都差很少。可是必定要作。不然可能会减慢收敛速度，影响收敛结果，甚至形成Nan等一系列问题。 get

.LSTM为何比RNN好？

由于LSTM有进有出且当前的cell informaton是经过input gate控制以后叠加的，RNN是叠乘，所以LSTM能够防止梯度消失或者爆炸。

9.Sigmiod、Relu、Tanh三个激活函数的缺点和不足，有没有更好的激活函数？

sigmoid、Tanh、ReLU的缺点在121问题中已有说明，为了解决ReLU的dead cell的状况，发明了Leaky Relu，即在输入小于0时不让输出为0，而是乘以一个较小的系数，从而保证有导数存在。一样的目的，还有一个ELU

为何引入非线性激活函数？

第一，对于神经网络来讲，网络的每一层至关于f(wx+b)=f(w'x)，对于线性函数，其实至关于f(x)=x，那么在线性激活函数下，每一层至关于用一个矩阵去乘以x，那么多层就是反复的用矩阵去乘以输入。根据矩阵的乘法法则，多个矩阵相乘获得一个大矩阵。因此线性激励函数下，多层网络与一层网络至关。好比，两层的网络f(W1*f(W2x))=W1W2x=Wx。第二，非线性变换是深度学习有效的缘由之一。缘由在于非线性至关于对空间进行变换，变换完成后至关于对问题空间进行简化，原来线性不可解的问题如今变得能够解了。下图能够很形象的解释这个问题，左图用一根线是没法划分的。通过一系列变换后，就变成线性可解的问题了。

relu为什么好过sigmoid和tanh？

第一，采用sigmoid等函数，算激活函数时（指数运算），计算量大，反向传播求偏差梯度时，求导涉及除法和指数运算，计算量相对大，而采用Relu激活函数，整个过程的计算量节省不少。

第二，对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的状况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0，这种状况会形成信息丢失），这种现象称为饱和，从而没法完成深层网络的训练。而ReLU就不会有饱和倾向，不会有特别小的梯度出现。

第三，Relu会使一部分神经元的输出为0，这样就形成了网络的稀疏性，而且减小了参数的相互依存关系，缓解了过拟合问题的发生（以及一些人的生物解释balabala）。固然如今也有一些对relu的改进，好比prelu，random relu等，在不一样的数据集上会有一些训练速度上或者准确率上的改进。

转：http://www.javashuo.com/article/p-wkwzxagp-ea.html