✎ 编 者 按
复制代码
成立于2019年,拍乐云是国内第一家视频会议背景的实时互动通讯云服务提供商,汇聚了一大批专一于音频、视频、白板、网络、AI等领域的资深技术专家。在过去两年间,拍乐云一直致力于帮助用户实现高清、稳定、易用、低时延的实时互动。随着5G和AI技术的发展以及全球疫情的影响,音视频应用场景日益多变,拍乐云如何用更好的产品体验为用户提供完善的解决方案?LiveVideoStack近日采访了拍乐云首席科学家&合伙人章琦老师,他将从产品、技术挑战、应对策略以及AI赋能等角度和你们聊聊他对音视频技术的理解和展望。章琦老师也是LiveVideoStackCon北京站的嘉宾讲师,将在会上为咱们带来精彩的演讲。算法
讲师介绍:章琦,拍乐云首席科学家&合伙人。浙大数学系硕士毕业,20年视频开发经验,8年WebEx音视频引擎架构师工做经验,OpenH264做者,历任虹软、WebEx、网易等公司,精通视频算法,也精通音视频工程,主导了多家公司的音视频引擎架构设计,深刻理解人工智能技术以及其在实时通讯领域的应用,拥有年服务千亿级分钟音视频通话的经验。markdown
LiveVideoStack: 章老师,您好,很是高兴邀请您接受采访,您能够跟你们介绍一下您在拍乐云所负责的工做吗?网络
章琦:我在拍乐云主要负责音视频相关的开发工做,包括编码解码、音视频引擎、前沿技术的研究等。除了开发和管理工做,我也会参与到客户对接中。由于咱们作的是toB企业服务,技术、产品、服务都很重要,因此会很是关注技术支持的对接、用户的使用反馈。架构
LiveVideoStack: 咱们看到,拍乐云最近推出了业内首个“线上美术音视频方案”,这其中有一项视频矫正技术,您能介绍一下这项技术以及它所用到的算法吗?ide
章琦:美术线上教学场景下,视频的内容以画布居多。若是要完美呈现画的内容,保证画的空间比例关系,对拍摄的角度要求很高,须要将摄像头对准画布正中心,这在实际操做中其实很难,稍有误差,做品的空间几何关系就会变化。为了下降用户使用难度,咱们支持用户能够随意拍摄,在拍摄后对视频进行矫正处理,这其中须要关注摄像头的拍摄位置和角度,所以须要实时估计采集参数,而后求解几何变换矩阵,最后对视频进行处理,同时为了下降大量运算引入的时延,咱们还进行了GPU优化,使整个操做在1毫秒左右,使用户的体验更加流畅。性能
LiveVideoStack: 在互联网这条高速公路上,最常发生的就是网络拥塞,所形成的后果就是丢包、延时和抖动,大大下降音视频的质量,在应对网络拥塞方面,拍乐云是如何作的呢?学习
章琦:拍乐云应对网络拥塞的主要手段是带宽预测,动态码率调整和自适应的FEC、ARQ、PLC等技术,能够实如今极限场景下依然通话流畅。同时还采用了前向纠错、丢包重传和丢包隐藏三大丢包恢复策略来应对拥塞。除了弱网对抗,拍乐云还自建了Pano Backbone全球实时传输加速网络,解决跨区域、跨国的链路问题,下降拥塞发生的几率,保障音视频的通讯质量。优化
LiveVideoStack: 您以前讲过,全部抵抗弱网的手段都须要付出代价,也能够被认为是等价交换。这里的代价指的是什么?编码
章琦:这里的代价指的是抗弱网带来的其余性能的受损。举例来讲,传输上的丢包是随机事件,在数据发送的时候没法得知这个数据是否会在传输时被丢。前向纠错编码虽然具有抗丢包能力,可是它对于数据包的保护是比较盲目的,客观上致使传输效率下降。从这个角度上来讲,判断系统的抗弱网能力要避免从单一维度出发,须要全面考量。人工智能
LiveVideoStack: 您认为在将来,AI技术还能给RTC行业带来哪些大的变化?
章琦:AI技术对整个RTC行业带来的影响必然是很是深远的,客观地说,以深度学习为表明的AI技术的发展与成熟,对音视频关键技术的突破提供了另外一个有但愿的方向。有些使用传统技术没法解决的问题,能够经过与AI技术的融合,大大下降问题解决的难度。不管是RTC行业的核心音视频编解码,仍是其余一些音视频处理和加强技术,好比如今比较热的音频降噪、 视频超分、对象分割识别等,在AI的加持下,都得到了突破。
LiveVideoStack: 您是浙大数学系毕业,是什么样的机缘巧合使您踏上了音视频这条路?
章琦:个人硕士研究方向是数字图像处理,三年求学期间,受益于个人导师叶懋东老师匪浅,只惋惜当时的想法不够成熟,在数学这个方向的学习上未能理解叶老师的深意,至今以为遗憾。读研期间,我还参与了信电系信息与通讯工程研究所刘济林和王兴国老师的一些研究项目,他们是国内比较早研究视频编解码技术的团队,在技术上,受陈国斌博士师兄影响比较大, 能够说他们几位都是我踏上音视频开发这条路的贵人。
LiveVideoStack: 在音视频领域深耕这么多年,您能预测一下,下一个音视频技术发展趋势在哪里吗?
章琦:深度学习、虚拟现实技术、3D视频等等。深度学习在前面已有回答,这里再也不赘述。虚拟现实和3D视频会依赖于相关硬件技术的成熟,我相信这一天不会太远了。
LiveVideoStack: 我了解到您平时很喜欢阅读,若是让您分别推荐一本音视频领域内的技术书,和一本行业外的其余类型的书,您会推荐哪两本?
章琦:第一本书我想推荐 Write Great Code Volume 2: Thinking Low-Level, Writing High-Level。这本书的做者是Randall Hyde,他的另外一本久负盛名的做品是The Art of Assembly Language。不推荐The Art of Assembly Language 的缘由是大多数同窗都不会有写汇编代码的机会。不过不须要写汇编代码,并不表示你不须要掌握相关的知识,对音视频开发来讲,代码执行的效率是很是重要的指标。不过实际工做中,我发现有至关比例的同窗都不注意代码执行的效率。可能也是不具有相关的知识和感受. 这本书是汇编语言的你们信手拈来之做,能够帮助你从汇编的角度来审视高级语言,理解软件是如何在CPU上运行的,从而写出高效且漂亮的代码。
Write Great Code Volume 2: Thinking Low-Level, Writing High-Level
第二本书我想推荐的是《中的精神 – 吴清源自传》, 在围棋这个圈子中,吴清源是以昭和棋圣之名享誉于世的大人物。他击败了全部日本的一流棋手,将他们的对局棋分降为先相先或让先,独步日本棋坛二十余年。可是这样一位高高在上的大人物,他的生活却至关清贫。与之对照的是他的精神世界很是丰富,舍棋以外,别无他物。金庸说他最佩服的人里,古人是范蠡,今人是吴清源。这本书就是吴清源精神世界的最好写照。
《中的精神:吴清源自传》
LiveVideoStack: 您将参加9月份在北京的LiveVideoStackCon音视频大会,那么在会上您会带来哪些使人期待的内容?
章琦:我会分享拍乐云视频编码器的设计实践以及针对实时视频系统应用场景落地的一些优化策略。
你们知道,实时视频系统对于时延的要求极高,因此视频编码器必须知足实时性的要求。现代编码器在 Rate-distortation 性能的提高上是以复杂度的上升为代价的,当前应用设备的碎片化很是严重、设备的运算能力差别巨大,这些都是新技术落地实时音视频系统将面临的挑战。因此我想分享下咱们在设计实时视频编码器时,在平衡复杂度和实时性上的一些考量。
LiveVideoStack: : 好的,谢谢您接受采访,期待您在2021LiveVideoStackCon北京站的精彩演讲!
编辑:Alex
LiveVideoStackCon2021北京站火热报名中!