UWP 手绘视频创做工具技术分享系列 - 有 AI 的手绘视频

时间 2019-11-26

标签 uwp 视频工具技术分享系列繁體版

原文原文链接

AI（Artificial Intelligence）正在不断的改变着各个行业的形态和人们的生活方式，图像识别、语音识别、天然语言理解等 AI 技术正在自动驾驶、智能机器人、人脸识别、智能助理等领域中发挥着愈来愈重要的做用。算法

那么当手绘视频遇到 AI，有 AI 的手绘视频领域，有 AI 的 UWP 手绘视频创做工具，会发生些什么呢？咱们从12月23日的一次发布会开始讲起吧：工具

2018年短视频新生态峰会暨来画新品发布会学习

在本次发布会上，来画视频发布了正式上线的 iOS Android 手绘视频 App 和一系列新功能，二更、同道大叔、Prezi 创始人等也带来了短视频行业的精彩分享，而在 AI 方面，更是发布了两大核心功能：智能配音和智能绘画。优化

众所周知，在视频中，图像和声音是最重要的两个因素，而对应到手绘视频中，则是配音和手绘素材：动画

1. 配音ui

首先来讲配音，在配音方面，来画与科大讯飞进行了深度合做。科大讯飞是国内外语音识别和语音生成领域领先的人工智能公司，而本次合做也是科大讯飞在短视频领域的首次尝试，双方都对本次合做寄予了很高的期待。过往你们想制做一个短视频时，配音须要专业配音人员完成。由于咱们不少人的声音或者对语速、语音的控制完成不了专业的要求。但依靠来画和科大讯飞完成的智能配音功能，以下图的操做方式，用户只须要输入简单的文字以及你想使用谁的声音。好比葛优、林志玲或者其余人的声音，能够设置基本语速，还能够作相应停顿，就能够一键生成视频中须要的配音，把它结合到手绘视频中。人工智能

因为手绘视频不像拍摄视频那样对配音的音画同步要求那么严格，咱们在实现时更多的是针对手绘视频的每一个分镜头进行配音生成，让每一个分镜头的配音是和当前画面同步的。针对每一个分镜头，能够设置不一样的语音来源，不一样的语速，配合转场动画设置不一样的停顿时间。spa

在技术实现上，借助科大讯飞的 tts 技术，得到每一个分组的 mp3 语音文件，在手绘视频预览和生成时，把多个 mp3 文件合成到视频文件的音轨中，设置不一样的音量和语音开始时间、语音长度等信息。为保证语音生成的成功率（时长和同步方面），在输入文字后，能够根据文字数量，以及设置的语速和停顿时间，来预估语音的时长，减小反复转换尝试。3d

2. 手绘素材视频

在中国，有数亿的手绘爱好者，你们渴望用手绘视频的方式来表达本身的感觉。可是苦于绘画基础的差别，不少人没办法很顺利的完成手绘视频的创做。

为此，目前来画视频平台积累了大量的手绘素材，拥有丰富的标签和精准的分类，让用户能够随心的选择。

尽管如此，来画还在不断探索更好的技术方式来知足用户对手绘素材的需求，下降创做门槛。而这种技术方式就是来画的 AI。

来画 AI 由三部分组成：手绘路径的智能识别、智能优化和智能生成。

这是一个不断递进的过程，当用户绘制一段路径时，来画 AI 算法能够识别和理解路径，推荐出最符合用户想法的分类素材供选择，选择后还能够作智能填色等后续处理。好比用户在画相似圆形的路径，AI 能够识别为圆，球形，水果等；而在用户画了两个圆形，再去画一个梯形时，AI 会认为你想画一辆汽车。这就是咱们目前研发完成的智能识别功能，它能够极大下降用户创做素材的时间和难度。

而更进一步，当用户绘制一段路径，好比曲线时，AI 算法识别和理解路径，并对曲线中有误差的部分路径作出局部纠正和优化，这样能够在下降创做时间难度的基础上，极大的保留用户的手绘内容和风格。

最终，咱们要实现的是 AI 自动绘画，你只须要告诉 AI 你想画的内容，AI 就能够依照对该用户绘制风格的理解和评定，自动完成整副画做的绘制，包括总体画风、路径、颜色填充等。这样的来画AI，可以极大的下降用户创做素材的时间和难度，让全部没有绘画基础的人，也能够快速的完成高质量的属于本身的手绘视频创做，这才是来画 AI 要实现的目标。

在技术实现方面，智能识别是图像识别的深度学习，具体说是手绘草稿的识别范畴；在算法模型的训练方面，咱们对接近 400 个分类的 4000w 个 SVG 数据进行了数据清洗和标注、训练，目前算法对于常见图形的识别效果很好，随着这一功能的上线，后面也会增强更多分类的数据采集和训练工做；而智能优化和智能生成，除了对于草稿的图像识别，还有对于绘制图形的路径理解和目标图形的路径理解，这也是后面突破的重点方向。

结合了配音功能和手绘素材智能识别的 UWP 来画视频将会在接下来发布，欢迎你们下载使用，多提宝贵意见。

对这两个方面感兴趣的朋友，欢迎和我交流，谢谢！