微软让人工智能看图写故事写出惊悚故事

微软释出了Pix2story,让用户只要指定图片,人工智能就能看图说故事。微软提到,他们试图教导人工智能创意,试图将人工智能发展至另一个层次,而在Pix2story中,他们让人工智能发挥创意结合特定类型产生故事。微软提到,说故事是人的天性之一,在写作被发明之前,人们就透过讲故事分享价值观,而编写故事并非一件简单的事,特别如果是光靠看图片,并以各类艺术类型(Genre)写出故事。自然语言处理技术发展至今,是作为推动计算机与人类互动革新的领域,微软试着让自然语言处理能以更自然和更聚焦的方式叙事。

微软在Azure上开发了Pix2Story,这是一个应用类神经网络的网页应用程序,用户只要选择图片,Pix2Story就会发挥创意为该张照片编写出一小段冒险、科幻和惊悚类型风格的故事。而该系统的架构设计,首先要从上传的照片取得图说,并将这些图说输入至递归神经网络(Recurrent Neural Network)模型,根据图片以及文体产生故事。产生输入照片图说的方法,微软以MS COCO图说数据集的30万张图片,训练了视觉语意嵌入模型,对上传的图像进行分析和产生的图说。视觉语义嵌入负责将输入的图片转换成图说,这部分包含两个模型,第一个是卷积神经网络,用于萃取称为注释向量的特征向量。第二个模型则是长期短期记忆(Long Short-Term Memory)网络,透过上下文向量、先前的隐藏状态以及先前产生的单词,一次产生一个单词。

另外,还要以不同的艺术类型产生故事,为此微软以2千部小说,花费两个星期训练编码译码(Encoder-Decoder)模型。微软将小说的段落映射到Skip-thought向量(Vector),而这是一种可以生成用于不同任务的通用型语句表达的模型。微软提到,在这个项目中,他们训练编码译码模型,并使用书本中文字的连续性,来重建编码段落周围的句子。编码器会将句子映像到向量中,而译码器接着对该向量进行调整,为来源句子进行类型翻译。由于视觉语意嵌入模型输入给Skip-thought模型短句子,则输出也会是短句子,因此当结果想要输出是更加叙事的段落,则需要对输入做风格转换,这意味要使用Skip-thought向量表达,将输入设置加上成想要输出包含的特征,这个操作的公式为Skip-thought的输入等于,图片编码图说减去平均所有图说编码,再加上相似长度的编码段落以及预期输出的特征。