用机器学习提高WebRTC视频质量评估的正确姿式

时间 2019-12-09

标签机器学习提高 webrtc 视频质量评估正确繁體版

原文原文链接

如何确保WebRTC视频通话或视频流的质量良好呢？
能够从统计API中获取全部可能的指标，但仍然没法接近答案。缘由很简单。首先，报告的大部分统计数据都是关于网络的，而不是视频质量。而后，众所周知，而且尝试过的人也知道，虽然这些影响了通话的感知质量，但它们并不直接相关，这意味着您没法根据这些指标猜想或计算视频质量。最后，通话质量是一个很是主观的问题，而这些问题是计算机难以直接计算的。web

在受控环境中，例如在实验室中，或在进行单元测试时，人们可使用参考指标进行视频质量评估，即在发送方标记带有ID的帧，而后捕获接收方的帧，匹配ID （以补偿抖动，延迟或其余网络引发的问题）并测量两个图像之间的某种差别。谷歌的 “ 全栈测试 ” 能够解决许多编解码器和网络损伤的问题，能够做为单元测试套件的一部分运行。可是如何在生产和实时中作到这一点呢？
对于大多数WebRTC PaaS用例，参考框架（https://chromium.googlesource...）不可用（服务提供商以任何方式访问客户内容都是非法的）。固然，服务的用户能够在发送方和接收方来记录流，并离线计算质量得分。可是，这不容许对忽然的质量降低采起行动或作出反应。它只会有助于过后分析。那么如何在不须要额外录音、上传、下载...的状况下实时检测到质量降低并采起行动呢？
在个人案例中，或者在某些特定状况下，哪一个WebRTC PaaS提供了最佳视频质量呢？对大多数人来讲，这是一个没法回答的问题。如何在检测网络的同时实时、自动实现4×4比较，或者这种Zoom与WebRTC（https://jitsi.org/news/a-simp...）的比较呢？
CoSMo R＆D推出了一种新的基于人工智能的视频评估工具，与其KITE测试引擎和相应的网络仪表模块相结合，实现了这一壮举。
介绍
1992年，康奈尔大学(Cornell University)的CU-SeeMe开始进行第一次互联网上实时通讯(RTC)实验。随着Skype在2003年8月的推出，RTC在互联网上迅速普及。从2011年开始，WebRTC技术使得RTC能够直接在web浏览器和移动应用程序上使用。
根据2017年6月发布的思科视觉网络指数【1】，实时视频流量（流媒体，视频会议）应从2016年互联网视频流量的3％（每个月1.5 exabyte）急剧增加到2021年的13％（每个月24 exabyte）。
对于任何处理视频的应用程序，终端用户的体验质量(QoE)是很是重要的。行业中已经有许多工具和指标来自动评估视频应用程序的QoE。例如，Netflix开发了视频多方法评估融合(VMAF)度量【2】，经过使用不一样的视频编码器和编码设置来度量交付的质量。这个度量有助于常规和客观地评估几十个编码设置下的数千个视频编码的质量。
但它须要原始参考非失真视频来计算压缩后的视频质量得分。该方法很好地适用于非失真视频预先录制内容的视频流，但不适用于RTC，由于RTC一般没法提供原始视频。
能够从源端记录原始视频，可是不能实时地进行视频质量评估。此外，在实时通讯期间录制实况视频会带来法律和安全问题。因为这些缘由，执行视频质量评估的实体（例如第三方平台即服务）可能不能被受权存储视频文件。
所以，RTC的特殊状况不能经过须要参考视频的度量来解决。所以，有必要使用无需参考指标的评估方法。这些指标称为无参考视频质量评估（NR-VQA）指标。
I. 视频质量指标
视频质量评估技术可分为三类。
首先，存在全参考（FR）技术，其须要彻底访问参考视频。在FR方法中，咱们发现了传统的视频质量方法：信噪比（SNR），峰值信噪比（PSNR）【3】，均方偏差（MSE），结构类似性（SSIM）【4】，视觉信息保真度（VIF）【5】，VSNR【6】或视频质量度量工具（VQM）【7】。
这些指标众所周知且易于计算，但它们并不能很好地反映用户体验的质量【八、9】。
而后存在缩减参考（RR）技术，其须要从参考视频提取的一组粗略特征。
最后，无参考（NR）技术不须要关于参考视频的任何信息。实际上，他们根本不须要任何参考视频。
对NR视频质量指标的全面而详细的评论已于2014年发布【10】。最近对音频和视频质量评估方法的调查已于2017年发布【11】。度量被分为两组：基于像素的方法（NR-P），其根据从基于像素的特征导出的统计来计算，以及比特流方法（NR-B），其从编码的比特流计算。
II. 先前为WebRTC视频质量评估所作的努力
在文献【12】中已经提出了经过WebRTC向许多观众评估广播视频质量的第一个举措。对于这个实验，做者使用SSIM索引【4】做为视频质量的衡量标准。测试的目的是测量有多少观众能够加入观看广播，同时保持可接受的图像质量。在准确评估用户体验时，结果并不肯定。随着加入广播的观众数量的增长，SSIM测量值仍保持使人惊讶的稳定，其值为[0.96，0.97]。而后忽然，当客户端数量达到大约175时，SSIM降低到接近0的值。当从1到175的观众增长时，用户体验不可能在没有质量损失的状况下保持可接受。此外，测试使用的是伪客户端，只实现了WebRTC中负责negotiation和传输的部分，而不是WebRTC媒体处理管道，这对于评估广播实验的视频质量是不现实的。
在文献【13】中，做者评估了在有损网络上压缩和传输受损的视频上的各类NR指标（0到10％丢包率）。研究的八个NR度量是复杂性（帧中存在的对象或元素的数量），运动，块效应（相邻块之间的不连续性），急动（帧的非流畅和非平滑呈现），平均模糊，模糊比，平均噪音和噪音比。因为这些NR指标中没有一个可以准确评估此类受损视频的质量，所以他们建议使用机器学习技术将若干NR指标与两个网络测量（比特率和数据包丢失水平）相结合，以提供改进NR度量标准可以提供与视频质量度量（VQM）至关的视频评级，这是一种可靠的FR度量，可提供与人类感知的良好相关性。在本次实验中，他们使用了从实时质量视频数据库得到的十个视频。这些视频使用H.264在8个不一样级别进行压缩，而且经过网络传输时受到了损害，网络丢失了12个包。
他们根据FR度量标准视频质量度量（VQM）【14】给出的分数评估了他们的结果质量，但没有针对NR度量。
在文献【15】中，做者依靠许多基于比特流的特征来评估接收视频的损伤以及这些损伤如何影响感知视频质量。
论文【16】提出了音频和视频指标的组合来评估视听质量。评估已在两个不一样的数据集上进行。
首先，他们展现了FR指标组合的结果。做者选择的FR音频指标是音频质量的感知评估（PEAQ）【17】和ViSQOL【18】。至于FR视频指标，他们使用视频质量度量（VQM）【7】，峰值信噪比（PSNR）和SSIM【4】。
而后他们展现了NR指标组合的结果。NR音频指标是SESQA和下降的SESQA（RSESQA）【19】。对于NR视频指标，他们使用了块状模糊度量【20】，盲/无参考图像空间质量评估器（BRISQUE）【21】，盲图像质量指数（BIQI）【22】和天然图像质量评估器（ NIQE）【23】。两个数据集的最佳组合是RSESQA的块状模糊。
最近在移动宽带网络上评估WebRTC视频流体验质量的实验已在文献【24】中发表。各类分辨率的不一样视频（从720×480到1920×1080）经过Chrome浏览器和Kurento Media Server之间的WebRTC进行视频通话的输入。WebRTC视频的质量由28人主观评估，得分从1（质量差）到5（优质）。而后，做者使用了几个指标，这些指标均基于原始视频和WebRTC视频之间计算的错误，以客观地评估WebRTC视频的质量。不幸的是，做者没有清楚地报告主观评估与计算的客观测量之间是否存在相关性。
III. NARVAL:基于神经网络的视频质量评价无参考指标的聚合
III.1 方法论
这项工做主要有两个部分：第一，从表明视频会议用例的视频中提取特征（与例如Netflix使用的预先录制的内容），而后训练模型以预测给定的分数视频。咱们使用了六个公开可用的视频质量数据集，其中包含视频通讯期间可能出现的各类失真，以训练和评估咱们模型的性能。数据库

对于特征提取部分，咱们选择了在不一样图像质量数据集上发布和评估的度量和特征。在咱们的数据库的视频上计算它们以后，咱们存储了数据以便可以在训练部分中重复使用它们。而后能够处理数据以用于咱们的训练模型，例如取得视频上的特征的均值。第二部分，咱们使用了不一样的回归模型，主要是输入和层变化的神经网络，也支持向量回归。
咱们为每一个模型测试了多个参数组合，而且仅针对每一个模型类别保持最佳。除了最基本的神经网络以外，还使用了卷积，循环和时间延迟神经网络。数组

NARVAL TRAINING：密集深度神经网络图
咱们使用5倍拟合在数据库上训练咱们的模型，而后屡次重复训练。因为每一个数据库包含多个失真，咱们不能随意拆分折叠，所以咱们尝试选择5个折叠，这样全部失真都存在于一个折叠中，而且咱们对全部测试保持相同的分布。而后，只考虑折叠的平均值。
另外一种建立折叠的方法是制做一个视频，它的变形是一个折叠。使用这种方法，折叠会更小，验证折叠对模型来讲是全新的。
III.2 结果
首先针对训练集（即具备已知分数的集合）进行验证，以查看咱们计算的视频质量是否与已知值匹配，以下所示。浏览器

NARVAL TRAINING：3D卷积网络图
为了进行健全性检查，咱们再次计算了NARVAL在相同参考视频上的SSIM和WMAF分数所提供的分数。咱们能够看到，虽然不彻底相同，但得分表现出相同的行为。有趣的是，它还说明了图像处理社区中已知的结果，但在WebRTC社区中显然是违反直觉的：感知视频质量不会随比特率/带宽线性下降。您能够在下图中看到，要将质量下降10％，您须要将带宽减小6到10倍！安全

结论
实际上，这意味着您如今可使用NARVAL在没有参考帧或视频的状况下计算视频质量！它为现有用例中更简单的实现打开了大门，并为许多新的用例打开了大门，在这些用例中，能够在流式传输管道的任何给定点进行质量评估。
完整的研究报告可从CoSMo得到。CoSMo还为两个实现提供许可证：一个用于研究和原型设计的Python实现，以及一个用于速度和SDK嵌入的C / C ++实现。最终，视频质量评估将被提议做为一种服务，与 Citrix的AQA服务创建在POLQA之上。
参考文献
[1] – Visual Networking Index, Cisco, 2017.
[2] – Toward A Practical Perceptual Video Quality Metric, Netflix, 2016.
[3] – Objective video quality measurement using a peak-signal-to-noise-ratio (PSNR) full reference technique, American National Standards Institute, Ad Hoc Group on Video Quality Metrics, 2001.
[4] – Image Quality Assessment: From Error Visibility to Structural Similarity, Wang et al., 2004.
[5] – Image information and visual quality, Sheik et al., 2006.
[6] – VSNR: A Wavelet-Based Visual Signal-to-Noise Ratio for Natural Images,
chandler et al., 2007.
[7] – A new standardized method for objectively measuring video quality, Margaret H. Pinson and Stephen Wolf, 2004.
[8] – Mean Squared Error: Love It or Leave It? A new look at Signal Fidelity Measures, Zhou Wang and Alan Conrad Bovik, 2009.
[9] – Objective Video Quality Assessment Methods: A Classification, Review, and Performance Comparison, Shyamprasad Chikkerur et al., 2011.
[10] – No-reference image and video quality assessment: a classification and review of recent approaches, Muhammad Shahid et al., 2014.
[11] – Audio-Visual Multimedia Quality Assessment: A Comprehensive Survey,Zahid Akhtar and Tiago H. Falk, 2017.
[12] – WebRTC Testing: Challenges and Practical Solutions, B. Garcia et al., 2017.
[13] – Predictive no-reference assessment of video quality, Maria Torres Vega et al., 2017.
[14] – A new standardized method for objectively measuring video quality, Margaret H. Pinson and Stephen Wolf, 2004.
[15] – A No-Reference bitstream-based perceptual model for video quality estimation of videos affected by coding artifacts and packet losses, Katerina Pandremmenou et al., 2015.
[16] – Combining audio and video metrics to assess audio-visual quality, Helard A. Becerra Martinez and Mylene C. Q. Farias, 2018.
[17] – PEAQ — The ITU Standard for Objective Measurement of Perceived Audio Quality, Thilo Thiede et al., 2000.
[18] – ViSQOL: The Virtual Speech Quality Objective Listener, Andrew Hines et al., 2012.
[19] – The ITU-T Standard for Single-Ended Speech Quality Assessment, Ludovic Malfait et al., 2006.
[20] – No-reference perceptual quality assessment of {JPEG} compressed images, Zhou Wang et al, 2002.
[21] – Blind/Referenceless Image Spatial Quality Evaluator, Anish Mittal et al., 2011.
[22] – A Two-Step Framework for Constructing Blind Image Quality Indices, Anush Krishna Moorthy and Alan Conrad Bovik, 2010.
[23] – Making a “Completely Blind” Image Quality Analyzer, Anish Mittal et al., 2013.
[24] – Quality of Experience Estimation for WebRTC-based Video Streaming, Yevgeniya Sulema et al., 2018.
[25] – Real-time communication testing evolution with WebRTC 1.0, Alexandre Gouaillard and Ludovic Roux, 2017.
[26] – Comparative study of WebRTC Open Source SFUs for Video Conferencing, Emmanuel Andre et al., 2018
本文来自CosMos Software创始人Alex. Gouaillard的博客，他同时为WebRTC、QUIC等标准组织工做。LiveVideoStack对原文进行了摘译。网络

网易云信，你身边的即时通信和音视频技术专家，了解咱们，请戳网易云信官网
想要阅读更多行业洞察和技术干货，请关注网易云信博客
更多精彩内容，关注网易云信知乎机构号哦~app