视音频编解码基本术语及解释&MediaInfo

时间 2019-11-26

标签音频解码基本术语解释 mediainfo 繁體版

原文原文链接

MEDIA INFO 下载：php

https://mediaarea.net/en/MediaInfo/Download/Windowscss

摘要：整理了一些基本视音频术语，用于入门和查询使用。 H264： H264是视频的标准,是MPEG4-10,基于内容的高效编码方式. H.264/MPEG-4第10部分，或称AVC（AdvancedVideo Coding，高级视频编码），是一种视频压缩标准，一种被普遍使用的高精度视频的录制、压缩和发布格式。初版标准的最终草案于html

整理了一些基本视音频术语，用于入门和查询使用。java

H264：

H264是视频的标准,是MPEG4-10,基于内容的高效编码方式.ios

H.264/MPEG-4第10部分，或称AVC（AdvancedVideo Coding，高级视频编码），是一种视频压缩标准，一种被普遍使用的高精度视频的录制、压缩和发布格式。初版标准的最终草案于2003年5月完成。git

H.264/MPEG-4 AVC是一种面向块的基于运动补偿的编解码器标准。由ITU-T视频编码专家组与ISO/IEC联合工做组——即动态图像专家组（MPEG）——联合组成的联合视频组（JVT，Joint Video Team）开发。因ITU-T H.264标准和 ISO/IEC MPEG-4 AVC标准（正式名称是ISO/IEC 14496-10 — MPEG-4第十部分，高级视频编码）有相同的技术内容，故被共同管理。算法

H.264因其是蓝光盘的一种编解码标准而著名，全部蓝光盘播放器都必须能解码H.264。它也被普遍用于网络流媒体数据如Vimeo、YouTube、以及iTunes Store，网络软件如Adobe Flash Player和Microsoft Silverlight，以及各类高清晰度电视陆地广播（ATSC，ISDB-T，DVB-T或DVB-T2），线缆（DVB-C）以及卫星（DVB-S和DVB-S2）。浏览器

============================================================================================缓存

Gop:

Group of picture.服务器

这是视频的一个概念,简称图片组.视频序列由多个图片组组成.

============================================================================================

I/P/B-frame:

I帧,一个编码后的图像,I帧的图像编码不依赖于前向和后向编码.

P帧,是这一帧跟以前的一个关键帧（或P帧）的差异，解码时须要用以前缓存的画面叠加上本帧定义的差异，生成最终画面。

B帧,是双向差异帧，也就是B帧记录的是本帧与先后帧的差异（具体比较复杂，有4种状况），换言之，要解码B帧，不只要取得以前的缓存画面，还要解码以后的画面，经过先后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，可是解码时CPU会比较累。

============================================================================================

Fps:

Frame Per Second,每秒钟帧率

============================================================================================

ES/PS/TS/PES:

ES: elementary stream, 用于某些硬盘播或编辑系统，如m2v.

ES--Elementary Streams (原始流)是直接从编码器出来的数据流，能够是编码过的视频数据流（H.264,MJPEG等），音频数据流（AAC），或其余编码数据流的统称。ES流通过PES打包器以后，被转换成PES包。

ES是只包含一种内容的数据流，如只含视频或只含音频等，打包以后的PES也是只含一种性质的ES,如只含视频ES的PES,只含音频ES的PES等。每一个ES都由若干个存取单元（AU）组成，每一个视频AU或音频AU都是由头部和编码数据两部分组成，1个AU至关于编码的1幅视频图像或1个音频帧，也能够说，每一个AU其实是编码数据流的显示单元，即至关于解码的1幅视频图像或1个音频帧的取样。

m2v:

是Mpg2文件的一种后缀, DVD的视频格式，不包含音频文件. MPEG-2 Video扩展名为.m2v的文件是一个视频文件。Video only (without audio) encoded using MPEG-2 compression

PS: program stream, 用于播放或编辑系统，如m2p (MPEG-2 Program Stream File).

PS--Program Stream(节目流)PS流由PS包组成，而一个PS包又由若干个PES包组成（到这里，ES通过了两层的封装）。PS包的包头中包含了同步信息与时钟恢复信息。一个PS包最多可包含具备同一时钟基准的16个视频PES包和32个音频PES包。

m2p:

为支持MPEG-2音频和视频压缩的视频容器格式，相似于MPEG-1文件，并且还支持隔行扫描视频和更多的音频通道，一般用于数字视频流。

Video containerformat that supports MPEG-2 audio and video compression; similar to an MPEG-1file, but also supports interlaced video and more audio channels; commonly usedfor streaming digital video.

M2P files aregenerally used for streaming media; standard MPEG-2 video files typically havean .MPG extension, while standard MPEG-2 audio files usually have an .MP2extension.

TS: transition stream, 主要用于数据传输，如HDV(High-definition video)机器内部记录的m2t.

TS--Transport Stream（传输流）由定长的TS包组成（188字节），而TS包是对PES包的一个从新封装（到这里，ES也通过了两层的封装）。PES包的包头信息依然存在于TS包中。

m2t：

HDV Video File扩展名为.m2t的文件是一个视频文件。

被许多高清摄像机采用的高清视频录制格式，一般被称为HDV，采用MPEG-2压缩存储在DV或MiniDV的录像带高清视频数据，支持720p的分辨率和1080i.

High-definitionvideo recording format used by many HD camcorders; commonly referred to as HDV;uses MPEG-2 compression to store HD video data on DV or MiniDV tapes; supportsresolutions of 720p and 1080i.

PES：

PES--Packetized Elementary Streams (分组的ES)，ES造成的分组称为PES分组，是用来传递ES的一种数据结构。PES流是ES流通过PES打包器处理后造成的数据流，在这个过程当中完成了将ES流分组、打包、加入包头信息等操做（对ES流的第一次打包）。PES流的基本单位是PES包。PES包由包头和payload组成。

TS流与PS流的区别：

在于TS流的包结构是固定长度的,而PS流的包结构是可变长度的。PS包因为长度是变化的,一旦丢失某一PS包的同步信息,接收机就会进入失步状态,从而致使严重的信息丢失事件。而TS码流因为采用了固定长度的包结构,当传输误码破坏了某一TS包的同步信息时,接收机可在固定的位置检测它后面包中的同步信息,从而恢复同步,避免了信息丢失。所以在信道环境较为恶劣、传输误码较高时通常采用TS码流,而在信环境较好、传输误码较低时通常采用PS码流。

在数字电视系统中，模拟视音频信号按照MPEG-2的标准，通过抽样、量化及压缩编码造成基本码流ES，基本码流ES是不分段的连续码流。

把基本码流分割成段，并加上相应的头文件打包造成的打包基本码流PES，PES包和包之间能够是不连续的。

在传输时将PES包再分段打成有固定长度188B 的传送码流TS或可变长度的节目流包（PS包）。

PES只是PS转换为TS或TS转换为PS的中间步骤或桥梁时，MPEG-2数据流互换的逻辑结构。

TS 和PS这两种码流分别适应于不一样的场合应用，节目流PS适合在相对出错较少的环境下使用，其长度是变化的，而传送流TS可以把多个节目在基于一个或多个时间标识的基础上构成一个流，传送流适合于出错较多的场合下使用。

用数据包传输的优势是：网络中信息可占用不一样的链接线路和简单暂存。经过数据包交织把多个数据流复用成一个新的数据流，便于解码器按照相应顺序对数据包进行灵活的整理，从而，为数据流同步和复用奠基了基础。MPEG-2的结构可分为压缩层和系统层，其中ES属于压缩层，PES和TS/PS属于系统层。在PES层，主要是在PES包头信息中加入PTS(显示时间标签)和DTS（解码时间标签）用于视频、音频同步。

而在TS流中，TS包头加入了PCR(节目时钟参考)，用于解码器的系统时钟恢复。

在节目流PS包头中加入SCR,它的做用与PCR域类似。

例子：

MPEG-2对视频的压缩产生I帧、P帧、B帧。

把帧顺序I1帧-P4帧-B2帧-B3帧-P7帧-B5帧-B6帧的编码ES，经过打包并在每一个帧中插入PTS/DTS标志，变成PES。在插入PTS/DTS标志时，因为在B帧PTS和DTS是相等的，因此无须在B帧多插入DTS。

而对于I帧和P帧，因为通过复用后数据包的顺序会发生变化，显示前必定要存储于视频解码器的重新排序缓存器中，通过重新排序后再显示，因此必定要同时插入 PTS和DTS做为重新排序的依据。

例如，解码器输入的图像帧顺序为I1-P4-B2-B3-P7-B5-B6，但显示时P4必定要在B二、B3以后，在 PST和DTS的指引下，通过缓存器重新排序，以从建视频帧顺序为：I1-B2-B3-P4-P7-B5-B6。

在没有B帧的状况下，I帧和P帧在编码和解码端的顺序是一致的。

将PES包再打成更小的具固定长度的TS包时在其包头位置加入了PCR和PID(包标识)。PID的值是由用户肯定的，解码器根据PID把TS（多节目传输流)上不一样节目的TS包区分出来，以重建原来的ES。另外，TS的包头包含一个4bit的连续计数器，连续计数器可对PID包传送顺序计数，据计数器读数，接收端可判断是否有包丢失及包传送顺序错误。因此TS的包头具备同步、识别、检错等功能。

TS单一码流、混合码流：

单一性：TS流的基本组成单位是长度为188字节的TS包。

混合性：TS流由多种数据组合而成，一个TS包中的数据能够是视频数据，音频数据，填充数据，PSI/SI表格数据等（惟一的PID对应）。

TS流由TS包组成，TS包为固定大小。

MPEG2编码端流程：

PS/TS组成：

PS/TS及标准关系：

为何奇艺要把 iPad 客户端上的 MP4 流改成 TS 流呢？TS 相对于 MP4 有什么优点呢？

众说风云

MPEG2 Program Stream结构简单介绍:

MPEG2 Program Stream，即MPEG2-PS，与MPEG2-TS对应。MPEG2-PS是一种多路复用数字音频、视频等的封装容器。其分为MPEG-1和MPEG-2两部分。Program Stream将一个或多个分组但有共同的时间基准的基本数据流（PES）合并成一个总体流。它是为可靠稳定的储存媒介如光盘而设计的。据传输媒体的质量不一样，MPEG-2中定义了两种复合信息流：传送流（TS：TransportStream）和节目流（PS：ProgramStream）。TS流与PS流的区别在于TS流的包结构是固定长度的，而PS流的包结构是可变长度的。

PS流格式介绍：

概念：

将具备共同时间基准的一个或多个PES组合（复合）而成的单一的数据流称为节目流（Program Stream）。

ES是直接从编码器出来的数据流，能够是编码过的视频数据流，音频数据流，或其余编码数据流的统称。ES流通过PES打包器以后，被转换成PES包。

……

============================================================================================

dts/cts/pts/scr/stc

pts: present time stamp

dts:decoding time stamp

cts: Composition Time Stamp

pts/dts是ES流转化成为PES流时，加入PES流头部的信息。主要是为了解决编码和呈现时的数据顺序不一样所致使的问题，这个能够见ES/PS/TS章节中的例子部分。

cts：

I think I have understood the CTS. it isonly for B-frames. Because B-frames may depends fowarding frames to decode, sothe CTS means when this B-frame can be decoded, usually that means all thedepended frames are received.

从上面这段注释看，cts只用于B帧，用于告诉解码端全部B帧倚赖的I，P帧都已收到。

scr：system clockreference

stc：system time clock

Mpeg-2的同步及时间恢复--STC，PCR，DTS，PTS:

|---------------------------------------------------------------|

| TS/PS: Transport stream

| Packetized Stream

| |-------------------------------------------------------

| | PES: Packetized Elementary Stream

| | |-----------------------------------------------

| | | ES:Elementary stream

| | | |------------------------------------

| | | | | | | |

| | | | GOP:Group of pictures

| | | |------------------------------------

| | | | | |

| | |------------------------------------------------

| | | |

| |--------------------------------------------------------

| |

|----------------------------------------------------------------|

============================================================================================

Resolution：

解析度，指空间采样率。

============================================================================================

AAC：

Advanced Audio Coding

出现于1997年，基于MPEG-2的音频编码技术。由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发，目的是取代MP3格式。2000年，MPEG-4标准出现后，AAC从新集成了其特性，加入了SBR技术和PS技术，为了区别于传统的MPEG-2 AAC又称为MPEG-4 AAC。

AAC编码的主要扩展名有三种：

.AAC- 使用MPEG-2 Audio Transport Stream（ADTS，参见MPEG-2）容器，区别于使用MPEG-4容器的MP4/M4A格式，属于传统的AAC编码（FAAC默认的封装，但FAAC亦可输出MPEG-4封装的AAC）

.MP4 - 使用了MPEG-4 Part 14（第14部分）的简化版即3GPP Media Release 6 Basic（3gp6，参见3GP）进行封装的AAC编码（Nero AAC编码器仅能输出MPEG-4封装的AAC）；

.M4A - 为了区别纯音频MP4文件和包含视频的MP4文件而由苹果（Apple）公司使用的扩展名，Apple iTunes对纯音频MP4文件采用了".M4A"命名。M4A的本质和音频MP4相同，故音频MP4文件亦可直接更改扩展名为M4A。

做为一种高压缩比的音频压缩算法，AAC压缩比一般为18：1，也有数听说为20：1，远胜mp3；在音质方面，因为采用多声道，和使用低复杂性的描述方式，使其比几乎全部的传统编码方式在同规格的状况下更胜一筹。不过直到2006年，使用这一格式存储音乐的并很少，能够播放该格式的mp3播放器更是少之又少，目前所知仅有苹果iPod、Sony Walkman（NWZ-A、NWZ-S、NWZ-E、NWZ-X系列）、任天堂NDSi和魅族M8（微软最新推出的Windows 7附带的Windows media player12也支持aac）。此外计算机上不少音乐播放软件都支持AAC（前提是安装过AAC解码器），如苹果iTunes。但在移动电话领域，AAC的支持度已很广泛，Nokia、Sony Ericsson、Motorola等品牌均在其中高端产品中支持AAC（一开始主要是LC-AAC，随着移动电话性能的发展，HE-AAC的支持也已普遍）。

AAC能够支持多达48个音轨，15个低频（LFE）音轨，5.1多声道支持，更高的采样率（最高可达96kHz，音频CD为44.1kHz）和更高的采样精度（支持8bit、16bit、24bit、32bit，音频CD为16bit）以及有多种语言的兼容能力，更高的解码效率，通常来讲，AAC能够在对比MP3文件缩小30%的前提下提供更好的音质。

============================================================================================

Audiosample rate：

音频采样率

============================================================================================

Audio channels：

看起来对音频的采集在几个点同时进行，而后分别造成音轨。

按摆设理解为;

7.1声道：

1)前左主音箱。

2)前左环绕音箱。

3)前右主音箱。

4)前右环绕音箱。

5)后左环绕音箱。

6)后右环绕音箱。

7)中置音箱。

加上一个重低音音箱。

5.1声道：

1)前左主音箱。

2)前右主音箱。

3)后左环绕音箱。

4)后右环绕音箱。

5)中置音箱。

加上一个重低音音箱。

主要区别是还原三维空间声音的效果7.1好于5.1

============================================================================================

Audio bit per sample:

采样位深度

============================================================================================

5.1channels:

见Audio sample rate

============================================================================================

ABR/CBR/VBR

ABR: Average Bit Rate

CBR: Constant Bit Rate

VBR: Variable bit rate

============================================================================================

Bitrate：

比特率

在通讯和计算机领域，比特率（Bit rate，变量Rbit）是单位时间内传输或处理的比特的数量。比特率常常在通讯领域用做链接速度、传输速度、信道容量、最大吞吐量和数字带宽容量的同义词。

============================================================================================

音频帧

============================================================================================

Ffmpeg/X264/GPAC:

Ffmpeg为开源库，集合了各类音频，视频编解码协议。在FFmpeg中没有实现264解码，调用了X264解码。

X264是对H264编码标准的一种具体实现，是一个优秀的h264视频文件格式的编码器。

GPAC: 多媒体框架GPAC（graphics, animation and interactivity）,是一个为科研和学术领域开发的多媒体的框架，支持 MPEG-4, VRML, X3D, SVG, LASeR 等 GPAC 包括一个多媒体播放器 Osmo4 以及多媒体打包工具 MP4Box。

============================================================================================

MP4:

MP4，全称MPEG-4 Part 14，是一种使用MPEG-4的多媒体电脑文件格式，扩展名为.mp4，以存储数字音频及数字视频为主。 MP4至2013年还是各大影音分享网站所使用主流，即便他们是在网站上多加一层Flash的影音拨放接口。由于MP4能够在每分钟约4MB的压缩缩率下提供接近DVD质量的影音效果。

============================================================================================

Deinterlace:

去交错亦称“反交错”（deinterlacing）是将交错式（即隔行扫描）（interlace）影像讯号转换为渐进式（逐行扫描）（progressive）影像讯号的一种方法。

============================================================================================

RTMP:

RTMP协议是被Flash用于对象,视频,音频的传输.该协议创建在TCP协议或者轮询HTTP协议之上.

RTMP协议就像一个用来装数据包的容器,这些数据能够是AMF格式的数据,也能够是FLV中的视/音频数据.

一个单一的链接能够经过不一样的通道传输多路网络流.这些通道中的包都是按照固定大小的包传输的.

FMS3（Flash Media Server）中RTMP有5种类型
    RTMP，标准类型，非加密实时消息协议。默认端口1935，若是端口没有设定，FMS将尝试用如下端口链接：443，80(RTMP)，80(RTMPT)
  RTMPT，借用HTTP通道的RTMP。RTMP数据经过HTTP封装，默认端口80
  RTMPS，在SSL之上的RTMP。FMS支持基于SSL的RTMP数据输入和输出，默认端口443
  RTMPE，加密版本RTMP。RTMPE比RTMPS更快，可是不须要认证管理，只须要在Adaptor.xml中打开。打开后，RTMPE经过如下端口尝试通信：935，443，80(RTMPE)，80(RTMPTE)
  RTMPTE，基于HTTP通道传输加密的RTMPE

============================================================================================

RTSP:

即时串流协定（Real Time Streaming Protocol，RTSP）是用来控制声音或影像的多媒体串流协议，并容许同时多个串流需求控制，传输时所用的网络通信协定并不在其定义的范围内，服务器端能够自行选择使用TCP或UDP来传送串流内容，它的语法和运做跟HTTP 1.1相似，但并不特别强调时间同步，因此比较能容忍网络延迟。而前面提到的容许同时多个串流需求控制（Multicast），除了能够下降服务器端的网络用量，更进而支持多方视讯会议（Video Conference）。

由于与HTTP1.1的运做方式类似，因此代理服务器《Proxy》的缓冲功能《Cache》也一样适用于RTSP，并因RTSP具备从新导向功能，可视实际负载状况来转换提供服务的服务器，以免过大的负载集中于同一服务器而形成延迟。

============================================================================================

MMS：

MMS是(Multimedia Messaging Service)的缩写，中文意为多媒体短信服务，它最大的特点就是支持多媒体功能。多媒体信息使具备功能全面的内容和信息得以传递，这些信息包括图像、音频信息、视频信息、数据以及文本等多媒体信息，能够支持语音、因特网浏览、电子邮件、会议电视等多种高速数据业务，在GPRS网络的支持下，以WAP无线应用协议为载体传送视频片断、图片、声音和文字。多媒体信息业务可实现即时的手机端到端、手机终端到互联网或互联网到手机终端的多媒体信息传送。

===========================================================================================

XML:

可扩展标记语言（英语：eXtensible Markup Language，简称: XML），是一种标记语言。标记指计算机所能理解的信息符号，经过此种标记，计算机之间能够处理包含各类信息的文章等。如何定义这些标记，既能够选择国际通用的标记语言，好比HTML，也可使用像XML这样由相关人士自由决定的标记语言，这就是语言的可扩展性。XML是从标准通用标记语言（SGML）中简化修改出来的。它主要用到的有可扩展标记语言、可扩展样式语言（XSL）、XBRL和XPath等。

TinyXml

基于 DOM 的一个Xml库.

<TinyXml快速入门（一）>

<TinyXml快速入门（二）>

<TinyXml快速入门（三）>

<将TinyXml快速入门的接口面向对象化>

============================================================================================

HTTP:

超文本传输协议（英文：HyperText Transfer Protocol，缩写：HTTP）是互联网上应用最为普遍的一种网络协议。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。经过HTTP或者HTTPS协议请求的资源由统一资源标识符（Uniform Resource Identifiers，URI）来标识。

HTTP的发展是万维网协会（World WideWeb Consortium）和Internet工做小组（Internet Engineering Task Force）合做的结果，（他们）最终发布了一系列的RFC，其中最著名的RFC2616，定义了HTTP协议中现今普遍使用的一个版本—HTTP 1.1。

============================================================================================

HLS:

HTTPLive Streaming（缩写是 HLS）是一个由苹果公司提出的基于HTTP的流媒体网络传输协议。是苹果公司QuickTime X和iPhone软件系统的一部分。它的工做原理是把整个流分红一个个小的基于HTTP的文件来下载，每次只下载一些。当媒体流正在播放时，客户端能够选择从许多不一样的备用源中以不一样的速率下载一样的资源，容许流媒体会话适应不一样的数据速率。在开始一个流媒体会话时，客户端会下载一个包含元数据的extended M3U (m3u8) playlist文件，用于寻找可用的媒体流。

HLS只请求基本的HTTP报文，与实时传输协议（RTP)不一样，HLS能够穿过任何容许HTTP数据经过的防火墙或者代理服务器。它也很容易使用内容分发网络来传输媒体流。

苹果公司把HLS协议做为一个互联网草案（逐步提交），在第一阶段中已做为一个非正式的标准提交到IETF。可是，即便苹果偶尔地提交一些小的更新，IETF却没有关于制定此标准的有关进一步的动做。

============================================================================================

MSS:

Microsoft Smooth Stream.

基于IIS Live Smooth Streaming技术流媒体直播系统

Live Smooth Streaming的那些事儿

============================================================================================

JPG/PNG:

JPG：JPEG（发音为jay-peg,IPA：[ˈdʒeɪpɛg]）是一种针对相片图像而普遍使用的一种有损压缩标准方法。这个名称表明Joint Photographic Experts Group（联合图像专家小组）。此团队创立于西元1986年，1992年发布了JPEG的标准而在1994年得到了ISO10918-1的认定。JPEG与视频音频压缩标准的MPEG（Moving Picture Experts Group）很容易混淆，但二者是不一样的组织及标准。

PNG：便携式网络图形（PortableNetwork Graphics，PNG）是一种无损压缩的位图图形格式，支持索引、灰度、RGB[A]三种颜色方案以及Alpha通道等特性。PNG的开发目标是改善并取代GIF做为适合网络传输的格式而不需专利许可，因此被普遍应用于互联网及其余方面上。

PNG另外一个非正式的名称来源为递归缩写：“PNGis Not GIF”

============================================================================================

H263/Mpeg4/Vp8:

H263：

H.263是由ITU-T制定的视频会议用的低码率视频编码标准，属于视频编解码器。H.263最初设计为基于H.324的系统进行传输（即基于公共交换电话网和其它基于电路交换的网络进行视频会议和视频电话）。后来发现H.263也能够成功的应用与H.323（基于RTP／IP网络的视频会议系统），H.320（基于综合业务数字网的视频会议系统），RTSP（流式媒体传输系统）和SIP（基于因特网的视频会议）。

基于以前的视频编码国际标准（H.261，MPEG-1和H.262／MPEG-2），H.263的性能有了革命性的提升。它的初版于1995年完成，在全部码率下都优于以前的H.261。以后还有在1998年增长了新的功能的第二版H.263+，或者叫H.263v2，以及在2000年完成的第三版H.263++，即H.263v3。早期的H.263 新增如下的附加（annexes）:

Annex A - Inverse transform accuracyspecification

Annex B - Hypothetical Reference Decoder

Annex C - Considerations for Multipoint

Annex D - Unrestricted Motion Vector mode

Annex E - Syntax-based Arithmetic Codingmode

Annex F - Advanced Prediction mode

Annex G - PB-frames mode

Annex H - Forward Error Correction forcoded video signal

在H.263以后，ITU-T（在与MPEG的合做下）的下一代视频编解码器是H.264，或者叫AVC以及MPEG-4第10部分。因为H.264在性能上超越了H.263不少，如今一般认为H.263是一个过期的标准（虽然它的开发完成并非好久之前的事情）。大多数新的视频会议产品都已经支持了H.264视频编解码器，就像之前支持H.263和H.261同样。

MPEG-4：

MPEG-4是一套用于音频、视频信息的压缩编码标准，由国际标准化组织（ISO）和国际电工委员会（IEC）下属的“动态图像专家组”（Moving Picture Experts Group，即MPEG）制定，初版在1998年10月经过，第二版在1999年12月经过。MPEG-4格式的主要用途在于网上流、光盘、语音传送（视频电话），以及电视广播。

MPEG-4包含了MPEG-1及MPEG-2的绝大部份功能及其余格式的长处，并加入及扩充对虚拟现实模型语言（VRML，Virtual Reality Modeling Language）的支持，面向对象的合成文件（包括音效，视频及VRML对象），以及数字版权管理（DRM）及其余交互功能。而MPEG-4比MPEG-2更先进的其中一个特色，就是再也不使用宏区块作图像分析，而是以图像上个体为变化记录，所以尽管图像变化速度很快、码率不足时，也不会出现方块画面。

因为MPEG-4是一个公开的平台，各公司、机构都可以根据MPEG-4标准开发不一样的制式，所以市场上出现了不少基于MPEG-4技术的视频格式，例如WMV 九、Quick Time、DivX、Xvid等。MPEG-4大部份功能都留待开发者决定采用是否。这意味着整个格式的功能不必定被某个程序所彻底函括。所以，这个格式有所谓配置（profile）及级别（level），定义了MPEG-4应用于不一样平台时的功能集合。

VP8：

VP8是一个开放的图像压缩格式，最先由On2Technologies开发，随后由Google发布。同时Google也发布了VP8编码的实作库：libvpx，以BSD受权条款的方式发布，随后也附加了专利使用权。而在通过一些争论以后，最终VP8的受权确认为一个开放源代码受权。

目前支持VP8的网页浏览器有Opera、Firefox和Chrome。

和H.264的比较

H.264是目前使用最多的网络图像编码格式，所以最常拿来和VP8作比较。

H.264的编码技术包含专利（由MPEG-LA提供受权），并且在硬件上使用须要取得受权，VP8则不须要。即便有Google的背书，但VP8仍然很难避过全部的专利，其下场可能跟VC-1一模一样。管理H.264专利池的MPEG LA声称有12家公司持有Google VP8的相关专利。[38]美国MPEG LA表示：“建立VP8专利池的相关准备正在进行”。[39][40] 2013年三月，Google与MPEG LA及11个专利持有者达成协议，让Google取得VP8以及其以前的VPx等编码所可能侵犯的专利受权，同时Google也能够无偿再次受权相关专利给VP8的用户，此协议同时适用于下一代VPx编码。至此MPEG LA放弃成立VP8专利集中受权联盟，VP8的用户将可肯定免费使用此编码而无须担忧可能的专利侵权受权金的问题。[41]

根据MSU Graphics & Media Lab在2011年5月的测试，VP8须要约213%的数据量，才能达到和H.264相同的图像质量 [42]。

x264的开发者之一：JasonGarrett-Glaser，给了一些针对VP8的评论，他认为VP8目前并无实现真正的比特流规范，并且在一些编码的技术上有所欠缺[43][44]。

============================================================================================

PSNR/SNR:

PSNR ：Peak Signal to Noise Ratio，峰值信噪比

SNR：Signal to Noise Ratio，信噪比

客观视频评估技术是一些与主观质量评估结果相近的数学模型,可是它们一般由计算机按照必定的标准与指标自动完成。评价的方法大体是将原视频(高品质、通常不被压缩)与处理后的视频进行分类对比。分类对比分为三种:全参考(FR)、部分参考(RR)、无参考(NR)。全参考比较处理先后的两段视频每一个像素的差异,部分参考提取两段视频的一些特性,并依此给予它们评分。以上两种方法一般在原视频可用时使用,如在有限的带宽下。无参考则试图在没有任何原视频的参考下进行评估,一般在视频编码方法已知时使用。

固然,最传统的方法是计算两段视频信噪比(SNR)与峰值信噪比(PSNR)的差别。 PSNR是使用最普遍的客观视频质量的度量方法,但因为人类视觉系统的非线性，所以PSNR值与人眼感觉到的视频质量仍有较大出入。近来一些更复杂、更精确的一些指标被指定, 好比UQI、VQM、PEVQ、结构类似性(SSIM)、VQuad-HD与CZD。

============================================================================================

MP3/MP2:

MP3：

动态图像专家组-1或动态图像专家组-2 音频层III（MPEG-1 orMPEG-2 Audio Layer III），常常称为MP3，是当今至关流行的一种数字音频编码和有损压缩格式，它被设计来大幅下降音频数据量，而对于大多数用户的听觉感觉来讲，重放的音质与最初的不压缩音频相比没有明显的降低。它是在1991年，由位于德国埃尔朗根的研究组织Fraunhofer-Gesellschaft的一组工程师发明和标准化的。 MP3的普及，曾对音乐产业形成极大的冲击与影响。

MP3是一个数据压缩格式。它舍弃脉冲编码调制（PCM）音频数据中，对人类听觉不重要的数据（相似于JPEG是一个有损图像压缩），从而达到了压缩成小得多的文件大小。

在MP3中使用了许多技术，其中包括心理声学，以肯定音频的哪一部分能够丢弃。MP3音频能够按照不一样的比特率进行压缩，提供了权衡数据大小和音质之间的依据。

MP3格式使用了混合的转换机制将时域信号转换成频域信号：

32波段多相积分滤波器（PQF）

36或者12 tap 改良离散余弦滤波器（MDCT）；每一个子波段大小能够在0...1和2...31之间独立选择

混叠衰减后处理

根据MPEG规范的说法，尽管有许多创造和推广其余格式的重要努力，MPEG-4标准中的AAC（Advanced Audio Coding）将是MP3格式的接棒者。然而，因为MP3的空前的流通，在目前来讲，其余格式并未能威胁其地位。MP3不只有普遍的用户端软体支持，也有不少的硬件支持，好比便携式数位音频播放器（泛指MP3播放器）、DVD和CD播放器。

MP2：

MPEG-1 Audio Layer II（有时简称MP2）是ISO/IEC11172-3（MPEG-1音频部份）中订立之有损性音频压缩格式。此标准还制订了MPEG-1 Audio Layer I（MP1）和MPEG-1 Audio Layer III（MP3）。我的电脑和互联网音乐流行MP3，MP2则多用于广播。

============================================================================================

M3U/M3U8

m3u：

M3U本质上说不是音频文件，它是音频文件的列表文件。你下载下来打开它，播放软件并非播放它，而是根据它的记录找到网络地址进行在线播放。M3U文件的大小很小，也就是由于它里面没有任何音频数据。把M3U文件直接转换为音频文件是不可能的，除非你把它指向的音频文件下载下来再做处理……
m3u格式的文件只是一个目录文件，提供了一个指向其余位置的音频视频文件的索引，你播放的仍是那些被指向的文件，用记事本打开m3u文件能够查看所指向文件的地址及文件的属性，以选用合适播放器播放。

分析优酷/土豆/pptv/乐视 HTML五、m3u8地址

M3U8格式讲解及实际应用分析

============================================================================================

FAAC/FAAD:

FAAC（FreewareAdvanced Audio Coder）：FAAC is an MPEG-4 and MPEG-2 AAC encoder。

FAAD（Freeware Advanced Audio Decoder）：an AAC audio decoder, superseded by new version: FAAD2

============================================================================================

GAPC:

============================================================================================

YUV420/422:

============================================================================================

RGB565/888:

============================================================================================

RGBA:

RGBA是表明Red（红色）Green（绿色）Blue（蓝色）和Alpha的色彩空间。虽然它有的时候被描述为一个颜色空间，可是它其实仅仅是RGB模型的附加了额外的信息。采用的颜色是RGB，能够属于任何一种RGB颜色空间，可是Catmull和Smith在1971至1972年间提出了这个不可或缺的alpha数值，使得alpha渲染和alpha合成变得可能。提出者以alpha来命名是源于经典的线性插值方程αA + (1-α)B所用的就是这个希腊字母。

alpha通道通常用做不透明度参数。若是一个像素的alpha通道数值为0%，那它就是彻底透明的（也就是看不见的），而数值为100%则意味着一个彻底不透明的像素（传统的数字图像）。在0%和100%之间的值则使得像素能够透过背景显示出来，就像透过玻璃（半透明性），这种效果是简单的二元透明性（透明或不透明）作不到的。它使数码合成变得容易。alpha通道值能够用百分比、整数或者像RGB参数那样用0到1的实数表示。

有时它也被写成ARGB（像RGBA同样，可是第一个数据是alpha），是Macromedia的产品使用的术语。好比，0x80FFFF00是50%透明的黄色，由于全部的参数都在0到255的范围内表示。0x80是128，大约是255的一半。

PNG是一种使用RGBA的图像格式。

============================================================================================

PCM:

脉冲编码调制（英文：Pulse-code modulation，缩写：PCM）是一种模拟信号的数码化方法。PCM将信号的强度依照一样的间距分红数段，而后用独特的数码记号（一般是二进制）来量化。PCM常被用于数码电信系统上，也是电脑和红皮书中的标准形式。在数码视频中它也是标准，例如使用 ITU-R BT.601。可是PCM并不流行于诸如DVD或DVR的消费性商品上，由于它须要至关大的比特率（DVD格式虽然支持PCM，不过不多使用）；与之相较，压缩过的音频较符合效率。不过，许多蓝光光盘使用PCM做音频编码。很是频繁地，PCM编码以一种串行通讯的形式，使数码传讯由一点至下一点变得更容易——不论在已给定的系统内，或物理位置。

============================================================================================

Logo:

图标

============================================================================================

Subtitle:

字幕

============================================================================================

Closed caption:

CC字幕者，隐藏式字幕。其实多数CC字幕和剧本是同样的，里面除了对白以外，还有现时场景的声音和配乐等信息，之因此作CC字幕，在国外主要是为了方便有听力障碍的残障人士。在普通的电视机上是没法看见CC字幕的，而在电脑上是能够看见的。

Closed Captions (CC)是把文字加入NTSC电视信号的一种标准化编码方法.电视机的内置解码器或独立解码器能显示文字.1993年之后美国出售的大于13英寸的电视机都有 Closed Caption 解码器. Closed Captions能够用在 DVD, 录象带, 广播电视, 电缆电视,等等.

单词 caption 和 subtitle 意思很接近, captions一般是指特别设计的屏幕文字,而 subtitles 一般是指对话翻译. 一般Captions出如今说话人物的下方,包含声音和音乐描述.除非使用者激活Closed captions,不然它们不会显示出来. Open captions老是可见的,好比外国录象带上的字幕.

DVD上的Closed Captions由 MPEG-2 视频流携带,而且自动传送到电视机上.你没法使用DVD播放机来打开或关闭ClosedCaptions. Subtitles是 DVD上的子图象, 也就是全屏幕叠盖图形 (参阅 3.4 的技术细节). 能够打开32个子图象轨道中的一个,以便在视频顶部显示文字或图形. 子图象也可用来建立captions. 为了区分NTSC Closed Captions和subtitles,由子图象创建的 captions一般被称为 'captions for the hearing impaired.'

若是你依然以为混淆, 只要记住这个建议: 要看 ClosedCaptions, 使用电视遥控器上的 CC按钮. 要看 subtitles或 captionsfor the hearing impaired, 使用DVD遥控器上的 subtitle按钮,或使用盘片提供的屏幕菜单.不要同时打开它们.记住并不是全部DVD盘片有 Closed Captions 或字幕.

============================================================================================

High/Main/Baseline profiles:

H264的概念

============================================================================================

WMV/WMA/FLV:

WMV：

WMV（WindowsMedia Video）是微软公司开发的一组数字视频编解码格式的通称，它是Windows Media架构下的一部分。

它最初是为低速率流媒体应用做为专有编解码开发出来的，可是2003年微软公司基于Windows Media Video第9版编解码起草了视频编解码规范而且提交给SMPTE申请做为标准。这个标准在2006年3月做为SMPTE 421M被正式批准，这样Windows Media Video 9编解码就再也不是一个专有的技术。早期的编解码版本（7和8）仍然被认为是专有技术，由于它们不在SMPTE 421M标准的涵盖范围内。

WMV不是仅仅基于微软公司的自有技术开发的。从第七版（WMV1）开始，微软公司开始使用它本身非标准MPEG-4 Part 2。可是，因为WMV第九版已是SMPTE的一个独立标准（421M，也称为VC-1），有理由相信WMV的发展已经不像MPEG-4那样是一个它本身专有的编解码技术。如今VC-1专利共享的企业有16家（2006年4月），微软公司也是MPEG-4 AVC/H.264专利共享企业中的一家。

WMV可使用如MPlayer或者WindowsMedia Player这样的播放器播放，Windows Media Player只能在微软视窗和Macintosh系统上使用。有许多用于如Linux这样不一样平台上的使用FFmpeg实现WMV编解码的第三方播放器。

视频流一般与Windows Media Audio音频流组合在一块儿而且使用扩展名为.wmv或者.asf的Advanced Streaming Format的文件进行封装。WMV一般使用AdvancedStreaming Format（ASF）封装，它也可使用AVI或者Matroska格式封装。若是是AVI封装的文件结果文件能够是.avi，若是是ASF封装的话则是.wmv或者.asf，若是是MKV封装的话则是.mkv。

当使用VirtualDub编码器编码和WMV9 VCM编解码实现的时候WMV能够存储在AVI文件中。用于Mac的微软公司媒体播放器不支持全部的WMV编码的文件，由于它只支持ASF文件封装，Flip4Mac和QuickTime或者用于MacOSX的MPlayer能够播放更多的文件。

当使用ASF文件格式封装的时候，WMV可以支持用于保护知识产权的数字版权管理（DRM）工具。

WMA：

WMA（WindowsMedia Audio）是微软公司开发的一种数字音频压缩格式。一些使用Windows Media Audio编码格式编码其全部内容的纯音频ASF文件也使用WMA做为扩展名。

WMA格式最初为微软公司私有，可是随着苹果公司的iTunes对它的支持，这个格式正在成为MP3格式的竞争对手之一。它兼容MP3的ID3元数据标签，同时支持额外的标签。

另外，通常状况下相同音质的WMA和MP3音频，前者文件体积较小；“Windows Media Audio Professional”能够存储5.1甚至7.1声道的音乐，并且音质可媲美DolbyDigital（杜比数字）。

WMA能够用于多种格式的编码文件中。应用程序可使用Windows Media Format SDK进行WMA格式的编码和解码。一些常见的支持WMA的应用程序包括Windows Media Player、Windows Media Encoder、RealPlayer、Winamp等等。其它一些平台，例如Linux和移动设备中的软硬件也支持此格式。

FLV：

Flash Video（简称FLV），是一种流行的网络视频格式。随着视频网站的丰富，这个格式已经很是普及。

FLV流媒体格式是一种新的视频格式，它的出现有效地解决了视频文件导入Flash后，使导出的SWF文件体积庞大，不能在网络上有效使用等缺点。

通常FLV文件包在SWF PLAYER 的壳里，而且FLV能够很好的保护原始地址，不容易被下载到，从而起到保护版权的做用。但仍是有些视频格式转换软件将FLV转成通常的视频格式，如中国的软件格式工厂。

目前YouTube、NICONICO动画、Google Video、Yahoo! Video、MySpace，以及中国的优酷、酷6等大部分视频分享网站均采用这个格式。

============================================================================================

AVI/ASF：

AVI：

AVI是英语AudioVideo Interleave（“音频视频交织”或译为“音频视频交错”）的首字母缩写，由微软在1992年11月推出的一种多媒体文件格式，用于对抗苹果Quicktime的技术。如今所说的AVI可能是指一种封装格式。

尽管AVI已经属于老旧的技术，可是因为Windows的通用性，和简单易懂的开发API，还在被普遍使用。

AVI的文件结构、分为“头部”,“主体”和“索引”三部分。主体中图像数据和声音数据是交互存放的。从尾部的索引能够索引跳到本身想放的位置。

AVI将视频和音频封装在一个文件里，其顺序是：若干视频帧（Video Frame）以后接着若干音频帧（Audio Frame），再而后是视频帧、音频帧，故名为“音频视频交织”，意即音频和视频按帧交错排列，以此达到音频同步于视频播放的效果。和DVD视频格式同样，AVI文件支持多视频流和音频流，虽然这些功能不多使用。大多数AVI文件还支持由Matrox OpenDML集团于1996年2月开发的格式后缀。这些文件非正式的称为“AVI 2.0”，并获得微软的支持。

AVI自己只是提供了这么一个框架，内部的图像数据和声音顺据格式能够是任意的编码形式。可是因为索引放在了文件尾部，因此在播放internet流媒体时已属力不从心。

ASF：

ASF是（AdvancedStreamingFormat高级串流格式）的缩写，是微软公司针对real公司开发的新一代网上流式数字音频压缩技术，是Microsoft为Windows98所开发的串流多媒体文件格式。ASF是微软公司WindowsMedia的核心。这是一种包含音频、视频、图像以及控制命令脚本的数据格式。可和WMA及WMV互换使用。ASF是一个可扩展的文件格式用来存储多媒体数据同步。它支持的数据传输了各类各样的网络和协议同时还证实适合当地播放。在明确目标的ASF是提供一个基础，全行业的多媒体互操做性。每一个格式的文件是由一个或多个媒体流。该文件头指定的内容整个文件，连同流的具体内容。多媒体数据，储存后的文件头，特别提到媒体流编号，以代表其类型和目的。提供和介绍的全部媒体流数据同步到一个共同的时间线。

ASF是一个开放标准，它能依靠多种协议在多种网络环境下支持数据的传送。同JPG、MPG文件同样，ASF文件也是一种文件类型，但它是专为在IP网上传送有同步关系的多媒体数据而设计的，因此ASF格式的信息特别适合在IP网上传输。ASF文件的内容既能够是熟悉的普通文件，也能够是一个由编码设备实时生成的连续的数据流，因此ASF既能够传送人们事先录制好的节目，也能够传送实时产生的节目。

ASF用于排列、组织、同步多媒体数据以利于经过网络传输。ASF是一种数据格式，它也可用于指定实况演示。ASF最适于经过网络发送多媒体流，也一样适于在本地播放。任何压缩/解压缩运算法则（编解码器）均可用来编码ASF流。

WindowsMediaService的核心是ASF。ASF是一种数据格式，音频、视频、图像以及控制命令脚本等多媒体信息经过这种格式，以网络数据包的形式传输，实现流式多媒体内容发布。其中，在网络上传输的内容就称为ASFStream。ASF支持任意的压缩/解压缩编码方式，并可使用任何一种底层网络传输协议，具备很大的灵活性。

MicrosoftMediaplayer是能播放几乎全部多媒体文件的播放器，支持ASF在Internet网上的流文件格式，能够一边下载一边实时播放，无需下载完再听。ASF文件本地或网络回放；可扩充的媒体类型；部件下载、可伸缩的媒体类型；流的优先级化；多语言支持、环境独立性；丰富的流间关系以及扩展性等。

======================================================================================

CDS网络

CDN的全称是Content Delivery Network，即内容分发网络。其目的是经过在现有的Internet中增长一层新的网络架构，将网站的内容发布到最接近用户的网络"边缘"，使用户能够就近取得所需的内容，解决Internet网络拥塞情况，提升用户访问网站的响应速度。从技术上全面解决因为网络带宽小、用户访问量大、网点分布不均等缘由，解决用户访问网站的响应速度慢的根本缘由。
　　狭义地讲，内容分发布网络(CDN)是一种新型的网络构建方式，它是为能在传统的IP网发布宽带丰富媒体而特别优化的网络覆盖层；而从广义的角度，CDN表明了一种基于质量与秩序的网络服务模式。简单地说，内容发布网络(CDN)是一个经策略性部署的总体系统，包括分布式存储、负载均衡、网络请求的重定向和内容管理４个要件，而内容管理和全局的网络流量管理(Traffic Management)是CDN的核心所在。经过用户就近性和服务器负载的判断，CDN确保内容以一种极为高效的方式为用户的请求提供服务。总的来讲，内容服务基于缓存服务器，也称做代理缓存(Surrogate)，它位于网络的边缘，距用户仅有"一跳"(Single Hop)之遥。同时，代理缓存是内容提供商源服务器（一般位于CDN服务提供商的数据中心）的一个透明镜像。这样的架构使得CDN服务提供商可以表明他们客户，即内容供应商，向最终用户提供尽量好的体验，而这些用户是不能容忍请求响应时间有任何延迟的。据统计，采用CDN技术，能处理整个网站页面的70%～95％的内容访问量，减轻服务器的压力，提高了网站的性能和可扩展性。
　　与目前现有的内容发布模式相比较，CDN强调了网络在内容发布中的重要性。经过引入主动的内容管理层的和全局负载均衡，CDN从根本上区别于传统的内容发布模式。在传统的内容发布模式中，内容的发布由ICP的应用服务器完成，而网络只表现为一个透明的数据传输通道，这种透明性表如今网络的质量保证仅仅停留在数据包的层面，而不能根据内容对象的不一样区分服务质量。此外，因为IP网的"尽力而为"的特性使得其质量保证是依靠在用户和应用服务器之间端到端地提供充分的、远大于实际所需的带宽通量来实现的。在这样的内容发布模式下，不只大量宝贵的骨干带宽被占用，同时ICP的应用服务器的负载也变得很是重，并且不可预计。当发生一些热点事件和出现浪涌流量时，会产生局部热点效应，从而使应用服务器过载退出服务。这种基于中心的应用服务器的内容发布模式的另一个缺陷在于个性化服务的缺失和对宽带服务价值链的扭曲，内容提供商承担了他们不应干也干很差的内容发布服务。

======================================================================================

DTV

Digital Television：数字电视

======================================================================================

FFMEG:

东哥的博文《FFMPEG SDK 开发介绍》

FFMepg转项