如何用Keras打造出“风格迁移”的AI艺术做品

时间 2019-11-30

标签如何 keras 造出风格迁移艺术繁體版

原文原文链接

过去几年，卷积神经网络（CNN）成为一种前沿的计算机视觉工具，在业界和学界普遍应用。除了人脸识别和无人驾驶领域，CNN 这几年还在艺术领域广受欢迎，其中衍生出一个表明性技术就是“风格迁移”，根据这项技术诞生了不少美图应用，好比 2016 年大火的 Prisma APP。git

“风格迁移”是展现神经网络强大能力的一个颇有趣的途径。2015 年，德国和美国的一组研究人员发布了一篇论文《A Neural Algorithm of Artistic Style》详细讨论了深度卷积神经网络如何区分照片中的“内容”和“风格”。论文做者展现了 CNN如何可以将一张照片的艺术风格应用在另外一张照片上，生成一张全新的使人眼前一亮的照片。并且他们的方法不须要训练一个新的神经网络，使用来自 ImageNet 这类数据集中的预训练权重就有很好的效果。github

在本文，我（做者 Walid Ahmad——译者注）会展现如何用流行的 Python 程序库 Keras 创做“风格迁移”的 AI 做品，总体思路和上面这篇论文的方法一致。本文的所有代码点击这里获取。算法

使用两张基本的图像素材，咱们就能创造出下面这样的 AI 艺术做品：后端

咱们要解决的这个问题是如今有了两张基本图像素材，咱们想把它们“合并”在一块儿。其中一张照片的内容咱们但愿可以保留，咱们把这张照片称为 p。在我举的这个例子中，我从谷歌上随便搜了一张可爱的猫咪照片：bash

另外一张基本图像的艺术风格咱们但愿可以保留，咱们称它为 a。我选了一张巴洛克风格的著名照片：《Violin on Palette》。网络

最后，咱们会获得一张生成照片 x，并用随机的颜色数值将它初始化。随着咱们最小化内容和风格的损失函数，这张照片会随之不断变化。session

##~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~##
## Specify paths for 1) content image 2) style image and 3) generated image
##~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~##

cImPath = './data/base_images/cat.jpg'
sImPath = './data/base_images/violin_and_palette.jpg'
genImOutputPath = './results/output.jpg'

##~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~##
## 图像处理
##~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~##
from keras import backend as K
from keras.applications.vgg16 import preprocess_input
from keras.preprocessing.image import load_img, img_to_array

targetHeight = 512
targetWidth = 512
targetSize = (targetHeight, targetWidth)

cImage = load_img(path=cImPath, target_size=targetSize)
cImArr = img_to_array(cImage)
cImArr = K.variable(preprocess_input(np.expand_dims(cImArr, axis=0)), dtype='float32')

sImage = load_img(path=sImPath, target_size=targetSize)
sImArr = img_to_array(sImage)
sImArr = K.variable(preprocess_input(np.expand_dims(sImArr, axis=0)), dtype='float32')

gIm0 = np.random.randint(256, size=(targetWidth, targetHeight, 3)).astype('float64')
gIm0 = preprocess_input(np.expand_dims(gIm0, axis=0))
gImPlaceholder = K.placeholder(shape=(1, targetWidth, targetHeight, 3))
复制代码

注意，咱们这里为了后面的优化，将glm0初始化为 float64。并且为了不GPU的内存错误，咱们将cImArr和slmArr保持为float32.架构

内容损失

内容损失的目标是确保生成的照片x仍能保留内容照片p的“全局”风格。好比，在咱们的这个例子中，咱们但愿最终生成的图像能看起来仍是照片p中的猫咪。这意味着，猫咪的脸、耳朵、眼睛等这些都是能够识别出的。要想达到这个目标，内容损失函数会分别在给定层L中定义为p和x的特征表示之间的均方偏差。内容损失函数为：app

在这里，dom

F和P是两个矩阵，包含N个行和M个列
N是给定层L中的过滤器数量，M是给定层I的特征图谱（高度乘以宽度）中空间元素的数量
F包含给定层L中X的特征表示
P包含给定层L中p的特征表示

def get_feature_reps(x, layer_names, model):
    """ Get feature representations of input x for one or more layers in a given model. """
    featMatrices = []
    for ln in layer_names:
        selectedLayer = model.get_layer(ln)
        featRaw = selectedLayer.output
        featRawShape = K.shape(featRaw).eval(session=tf_session)
        N_l = featRawShape[-1]
        M_l = featRawShape[1]*featRawShape[2]
        featMatrix = K.reshape(featRaw, (M_l, N_l))
        featMatrix = K.transpose(featMatrix)
        featMatrices.append(featMatrix)
    return featMatrices

def get_content_loss(F, P):
    cLoss = 0.5*K.sum(K.square(F - P))
    return cLoss
复制代码

风格损失

风格损失须要保存风格照片a的风格特征。论文做者并未利用特征表示之间的不一样，而是利用选定层中的格拉姆矩阵的不一样之处，其中格拉姆矩阵定义以下：

格拉姆矩阵是一个正方矩阵，包含层级L中每一个矢量过滤器（vectorized filter）之间的点积。所以该矩阵能够看做层级L中过滤器的一个非规整矩阵。

def get_Gram_matrix(F):
    G = K.dot(F, K.transpose(F))
    return G
复制代码

那么咱们能够将给定层L中的风格损失函数定义为：

其中A是风格照片a的格拉姆矩阵，G为生成照片x的格拉姆矩阵。

在大多数卷积神经网络中如VGG，提高层（ascending layer）的感觉野（receptive field）会愈来愈大。随着感觉野不断变大，输入图像的更大规模的特征也得以保存下来。正因如此，咱们应该选择多个层级用于“风格迁移”，将局部和全局的风格质量进行合并。为了让这些层之间链接顺畅，咱们能够为每一个层赋予一个权重w，将整个风格损失函数定义为：

def get_style_loss(ws, Gs, As):
    sLoss = K.variable(0.)
    for w, G, A in zip(ws, Gs, As):
        M_l = K.int_shape(G)[1]
        N_l = K.int_shape(G)[0]
        G_gram = get_Gram_matrix(G)
        A_gram = get_Gram_matrix(A)
        sLoss+= w*0.25*K.sum(K.square(G_gram - A_gram))/ (N_l**2 * M_l**2)
    return sLoss
复制代码

整合两个函数

最后，咱们只需分别为内容损失函数和风格损失函数赋予加权系数，而后大功告成！

终于获得一个整洁优美的函数公式，能让咱们利用⍺和 ß在生成照片上调整内容照片和风格照片二者的相对影响。根据那篇论文的建议以及我本身的经验，让⍺= 1 ，ß = 10,000 效果会很好。

def get_total_loss(gImPlaceholder, alpha=1.0, beta=10000.0):
    F = get_feature_reps(gImPlaceholder, layer_names=[cLayerName], model=gModel)[0]
    Gs = get_feature_reps(gImPlaceholder, layer_names=sLayerNames, model=gModel)
    contentLoss = get_content_loss(F, P)
    styleLoss = get_style_loss(ws, Gs, As)
    totalLoss = alpha*contentLoss + beta*styleLoss
    return totalLoss
复制代码

模型应用详情

要想开始改变咱们的生成图像以最小化损失函数，咱们必须用scipy和Keras后端再定义两个函数。首先，用一个函数计算总体损失，其次，用另外一个函数计算梯度。二者计算后获得的结果会分别做为目标函数和梯度函数输入到Scipy优化函数中。在这里，咱们使用L-BFGS算法（limited-memory BFGS）。

对于每张内容照片和风格照片，咱们会提取特征表示，用来构建P和A（对于每一个选中的风格层），而后为风格层赋给相同的权重。在实际操做中，一般用L-BFGS算法进行超过500次迭代后，产生的结果就比较可信了。

def calculate_loss(gImArr):
  """ Calculate total loss using K.function """
    if gImArr.shape != (1, targetWidth, targetWidth, 3):
        gImArr = gImArr.reshape((1, targetWidth, targetHeight, 3))
    loss_fcn = K.function([gModel.input], [get_total_loss(gModel.input)])
    return loss_fcn([gImArr])[0].astype('float64')

def get_grad(gImArr):
  """ Calculate the gradient of the loss function with respect to the generated image """
    if gImArr.shape != (1, targetWidth, targetHeight, 3):
        gImArr = gImArr.reshape((1, targetWidth, targetHeight, 3))
    grad_fcn = K.function([gModel.input], 
                          K.gradients(get_total_loss(gModel.input), [gModel.input]))
    grad = grad_fcn([gImArr])[0].flatten().astype('float64')
    return grad

from keras.applications import VGG16
from scipy.optimize import fmin_l_bfgs_b

tf_session = K.get_session()
cModel = VGG16(include_top=False, weights='imagenet', input_tensor=cImArr)
sModel = VGG16(include_top=False, weights='imagenet', input_tensor=sImArr)
gModel = VGG16(include_top=False, weights='imagenet', input_tensor=gImPlaceholder)
cLayerName = 'block4_conv2'
sLayerNames = [
                'block1_conv1',
                'block2_conv1',
                'block3_conv1',
                'block4_conv1',
                ]

P = get_feature_reps(x=cImArr, layer_names=[cLayerName], model=cModel)[0]
As = get_feature_reps(x=sImArr, layer_names=sLayerNames, model=sModel)
ws = np.ones(len(sLayerNames))/float(len(sLayerNames))

iterations = 600
x_val = gIm0.flatten()
xopt, f_val, info= fmin_l_bfgs_b(calculate_loss, x_val, fprime=get_grad,
                            maxiter=iterations, disp=True)
复制代码

虽然过程有点慢，但能保证效果···

咱们开始看见若隐若现地出现一个立体主义画派版的小猫咪！等算法再迭代上几回后：

咱们能够根据猫咪原图的大小对照片略做修改，将两张图并列在一块儿。很容易看到猫咪的主要特征，好比眼睛、鼻子和爪爪都维持在原来的状态。不过，为了匹配照片风格，它们都被扁平化了，并且棱角分明——但这正是咱们想要的结果啊！

咱们用一样的方法但是试试其余照片。好比我从谷歌上找了一张建筑图，而后选了梵高的名画《罗纳河上的星夜》：

风格迁移后的做品：

总结

在本文咱们探究了如何用Keras应用“风格迁移”技术，不过咱们还能够作不少工做，创造出更加迷人的做品：

尝试用不一样的权重：不一样的照片混合可能须要调整风格损失权重w或不断优化⍺和 ß的值。例如，在有些例子中，ß/⍺的比例值为10⁵ 效果会更好。
尝试用更多的风格层级：这会消耗更多的计算资源，但可以更顺畅地对风格进行迁移。你能够试试VGG19，而不是VGG16，或者将不一样的神经网络架构结合在一块儿。
尝试用多张内容照片和风格照片：你能够为损失函数增长几张风格照片，混合多张照片或多种艺术风格。增长内容照片或许会带来更有意思的艺术效果。
增长总变分去噪方法：若是你仔细看看上面我获得的照片，你会发现上面有些颗粒状图案——小小的颜色旋涡。用神经网络处理照片一般都会有这个问题，其中一个缘由就是照片的有损压缩被带进了特征图谱里。添加总变分去噪能够有效减轻这个问题，点击查看这一步的代码。

下面是我参考的一些资料，你们能够去看一看：

参考资料1

参考资料2

如何用Keras打造出“风格迁移”的AI艺术做品

内容损失

风格损失

整合两个函数

模型应用详情

总结

欢迎关注咱们，学习资源，AI教程，论文解读，趣味科普，你想看的都在这里！