UWP 手绘视频创做工具技术分享系列 - 有 AI 的手绘视频

AI(Artificial Intelligence)正在不断的改变着各个行业的形态和人们的生活方式,图像识别、语音识别、天然语言理解等 AI 技术正在自动驾驶、智能机器人、人脸识别、智能助理等领域中发挥着愈来愈重要的做用。算法

那么当手绘视频遇到 AI,有 AI 的手绘视频领域,有 AI 的 UWP 手绘视频创做工具,会发生些什么呢?咱们从12月23日的一次发布会开始讲起吧:工具

2018年短视频新生态峰会暨来画新品发布会学习

 

在本次发布会上,来画视频发布了正式上线的 iOS Android 手绘视频 App 和一系列新功能,二更、同道大叔、Prezi 创始人等也带来了短视频行业的精彩分享,而在 AI 方面,更是发布了两大核心功能:智能配音和智能绘画。优化

众所周知,在视频中,图像和声音是最重要的两个因素,而对应到手绘视频中,则是配音和手绘素材:动画

1. 配音ui

首先来讲配音,在配音方面,来画与科大讯飞进行了深度合做。科大讯飞是国内外语音识别和语音生成领域领先的人工智能公司,而本次合做也是科大讯飞在短视频领域的首次尝试,双方都对本次合做寄予了很高的期待。过往你们想制做一个短视频时,配音须要专业配音人员完成。由于咱们不少人的声音或者对语速、语音的控制完成不了专业的要求。但依靠来画和科大讯飞完成的智能配音功能,以下图的操做方式,用户只须要输入简单的文字以及你想使用谁的声音。好比葛优、林志玲或者其余人的声音,能够设置基本语速,还能够作相应停顿,就能够一键生成视频中须要的配音,把它结合到手绘视频中。人工智能

因为手绘视频不像拍摄视频那样对配音的音画同步要求那么严格,咱们在实现时更多的是针对手绘视频的每一个分镜头进行配音生成,让每一个分镜头的配音是和当前画面同步的。针对每一个分镜头,能够设置不一样的语音来源,不一样的语速,配合转场动画设置不一样的停顿时间。spa

在技术实现上,借助科大讯飞的 tts 技术,得到每一个分组的 mp3 语音文件,在手绘视频预览和生成时,把多个 mp3 文件合成到视频文件的音轨中,设置不一样的音量和语音开始时间、语音长度等信息。为保证语音生成的成功率(时长和同步方面),在输入文字后,能够根据文字数量,以及设置的语速和停顿时间,来预估语音的时长,减小反复转换尝试。3d

2.  手绘素材视频

在中国,有数亿的手绘爱好者,你们渴望用手绘视频的方式来表达本身的感觉。可是苦于绘画基础的差别,不少人没办法很顺利的完成手绘视频的创做。
为此,目前来画视频平台积累了大量的手绘素材,拥有丰富的标签和精准的分类,让用户能够随心的选择。
尽管如此,来画还在不断探索更好的技术方式来知足用户对手绘素材的需求,下降创做门槛。而这种技术方式就是来画的 AI。
来画 AI 由三部分组成:手绘路径的智能识别、智能优化和智能生成。
这是一个不断递进的过程,当用户绘制一段路径时,来画 AI 算法能够识别和理解路径,推荐出最符合用户想法的分类素材供选择,选择后还能够作智能填色等后续处理。好比用户在画相似圆形的路径,AI 能够识别为圆,球形,水果等;而在用户画了两个圆形,再去画一个梯形时,AI 会认为你想画一辆汽车。这就是咱们目前研发完成的智能识别功能,它能够极大下降用户创做素材的时间和难度。
而更进一步,当用户绘制一段路径,好比曲线时,AI 算法识别和理解路径,并对曲线中有误差的部分路径作出局部纠正和优化,这样能够在下降创做时间难度的基础上,极大的保留用户的手绘内容和风格。
最终,咱们要实现的是 AI 自动绘画,你只须要告诉 AI 你想画的内容,AI 就能够依照对该用户绘制风格的理解和评定,自动完成整副画做的绘制,包括总体画风、路径、颜色填充等。这样的来画AI,可以极大的下降用户创做素材的时间和难度,让全部没有绘画基础的人,也能够快速的完成高质量的属于本身的手绘视频创做,这才是来画 AI 要实现的目标。

在技术实现方面,智能识别是图像识别的深度学习,具体说是手绘草稿的识别范畴;在算法模型的训练方面,咱们对接近 400 个分类的 4000w 个 SVG 数据进行了数据清洗和标注、训练,目前算法对于常见图形的识别效果很好,随着这一功能的上线,后面也会增强更多分类的数据采集和训练工做;而智能优化和智能生成,除了对于草稿的图像识别,还有对于绘制图形的路径理解和目标图形的路径理解,这也是后面突破的重点方向。

结合了配音功能和手绘素材智能识别的 UWP 来画视频将会在接下来发布,欢迎你们下载使用,多提宝贵意见。

对这两个方面感兴趣的朋友,欢迎和我交流,谢谢!

相关文章
相关标签/搜索