计算机多媒体

一   基础篇
1.1   图形、图像和视频
图形(graphic):和图像与视频不一样,有一种说法是图形就是天然界 的客观世界不存在的图案。对于计算机中的图形研究,有专门的计算机图形学,主要的研究对象是点、线、面等抽象事物。目前所谓的计算机显卡3d技术支持,主 要就是图形技术相关的范畴。关于图形方面的开发,好象opengl是其中比较有名的3d图形库。

图像(image):和图形相反,图像 能够定位为天然界中客观存在的图案。图像处理和咱们有关系的大体是图像滤波处理和图像压缩。目前用得最多的静止图像压缩算法就是jpeg了,你们应该都很 熟悉。而对图像的其余处理,通常称之为对图像进行滤波,图像处理方面,photoshop软件不少人应该都很熟悉,它图像处理的功能十分强大。在视频行 业,主要是关注消隔行滤波器、去除摄像头白噪声滤波器、去除块效应(deblock)滤波器等。

视频(video):视频个人理解就是连续的图像,被称为视频。对视频图像的处理,核心是压缩,其余的就是采集、传输、显示和录像了。视频图像若是不压缩的话,传输和录像的成本都过高了。

1.2   视频的采集、压缩、传输、解码显示和存储
视频采集最重要的设备就是摄像头了,它将天然界中的客观场景转化为模拟的电信号输出。若是是数字视频应用系统,还须要专门的设备或者器件完成图像信号的模 拟 到数字转换,这也是摄像头很难直接接入pc机的缘由。早期的接入方式是经过pc上用户本身配的采集卡来完成,这种方式如今也有,如今有专门经过usb接口 接入pc机的usb摄像头,它是在摄像头内完成了模拟到数字的转换,输出数字信号到usb接口。
视频的压缩是视频处理的核心,按照是否实时性可 以分为非实时压缩和实时压缩。实时性与否,区别其实很大,通常来讲,制做dvd等影片能够算做非实时性压缩,此时,算法的选择应该是要提升压缩算法效率, 而不是性能,由于,即便一天完成一部影片的压缩的话,大多数时候,问题可能也不大。而对于相似网上直播这样的应用,则属于实时性压缩应用了,此时在算法选 择上,算法的性能多是第一位的。目前看,实时性压缩的应用更普遍些。关于视频压缩部分,详细的介绍咱们放在后面的章节进行介绍。
视频的传输分 为两种,一种是模拟视频的传输,也就是摄像头电信号进行远距离传输,这种主要是在传统的视频监控系统中应用,它的成本比较高,传输距离也有限制,并且随着 距离的增大,会出现信号衰减和信道噪声等问题;另外一种传输是和互联网技术结合起来,先把数字视频信号压缩后获得码流数据,而后经过网络传输到远端。随着互 联网的高速发展,后一种应用方式愈来愈广泛,最先期应该算是视频会议系统,如今的应用就更多了,最新的好比手机上网观看视频等。其实,抽象看,互联网它其 实就是一个信息平台,而在这个信息平台上,传输的信息至关大比例就是多媒体数据。能够想象,从此随着互联网带宽的不断提升,视频的应用将愈来愈广。
对 于互联网传输过来的视频信息,首先是要进行解码,而后才是显示。解码的芯片有必定的性能要求,比编码器低些,可是毕竟是视频数据处理,通用的芯片(不支持 mmx等多媒体指令)可能会比较吃力。显示设备主要有电视、监视器和显示器,他们的信号接口是不同的,电视监视器是模拟的电信号,显示器的输入应该是数 字信号。另外多说一句,如今的显卡彷佛广泛支持电视输出。

1.3   视频相关行业介绍
以视频技术为基础,结合其余领域的技术突破,知足了人们各类各样的需求,造成了不少视频相关的行业。这些行业之中,咱们来了解一下以下四个方向。
1.3.1   多媒体消费类应用
多 媒体消费类应用在技术上主要是视频压缩技术和媒体存储技术的结合,主要的产品形式是vcd(早期)和dvd,偏向消费类的家庭应用。这几年随着dvd光驱 的普及,在pc上观看dvd也逐步流行起来。该行业的视频压缩属于非实时压缩,追求的是高清晰度,通常的分辨率都是d1(720*576),并且,它的音 频品质也要求很高,采样频率和采样精度都很是高。dvd的视频压缩算法是mpeg-2,而它的音频是lpcm、dolbyac三、mp3或者aac。
dvd的存储技术表现形态就是dvd光盘,目前市面上经常使用的dvd光盘最大容量可达4.7gb。目前dvd技术最发达的是日本,他们的专利最多,技术也最领先,基本上处于垄断地位了。
中国也有本身的dvd标准,叫作evd,这个公司好久前就在努力的推广他们的标准了,不过客观的评价,进展不能算很乐观,还须要努力。
多媒体技术在家庭中的应用,这几年也出现了一些很好的亮点,好比家用电视支持网络和媒体功能、电视支持录像功能等,不过整体评价,这些都还远远没有普及,还须要进一步发展。我的更看好以机顶盒这样的方式来知足多媒体需求。

1.3.2   视频会议
视频会议能够说是视频技术应用最古老的行业了,之因此这么说,是由于第一个视频压缩标准h.261就是为了视频会议而制定的。
视频会议行业是实时音视频压缩技术和网络通讯技术结合的产物。目前视频会议系统的发展,除了知足人们基本的语音和图像信息交流外,还包括了强大的数据信息共享、开展协同工做等功能。
视 频会议系统主要包括的产品有:语音输入输出设备(mic、音箱等)、摄像头、电视、视频会议终端、mcu等。视频会议专用的摄像头日本索尼公司市场占有率 无可争议的是第一。而视频会议终端和mcu市场目前排第一的是美国的polycom公司,polycom的音频技术很是强大,它在中低端市场优点很明显, 而挪威的泰德(tandberg)在高端市场则作得更好一些。视频会议系统对音视频技术和网络技术要求都比较高。从实际应用来讲,相对视频,视频会议系统 对音频要求更高一些。随着如今视频技术的发展和网络带宽的不断改善,人们对视频的要求也愈来愈高,不过,音频方面的处理始终是关键,好比回声消除技术等。

1.3.3   视频监控
根据目前比较流行的划分方法,视频监控行业已历经三代。第一代被称为cctv监控,也就是一个摄像 头加一个监视器组成一个最简单的视频监控系统,不少时候还只是黑白的监控画面,目前采用第一代监控系统的客户已经不多了,不过在一些很小的便利店、超市, 咱们仍是能够看到这样的监控系统。第二代视频监控系统典型的产品形态是板卡和dvr,即便到如今,这种监控系统也还很流行,在第二代监控系统中表现最好的 企业是杭州海康,他们几乎垄断了板卡市场,dvr市场占有率也连续几年排名第一了,第二代监控系统核心是实时视频压缩技术,把摄像头拍摄下来的画面进行压 缩和存储到本地硬盘。目前,视频监控行业已经发展到了第三代,也就是远程视频监控,它把网络技术和视频压缩技术结合起来,不过和视频会议系统不一样的是,监 控行业对音频的要求不高,可是,对图像的要求却高不少,从传统的要求来讲,视频监控不只要求图像可以更清晰,对帧率的要求也很高,这也是从监控的安全考虑 的需求。
远程监控系统的主要产品是视频服务器(ipvs, 也有产商叫dvs)和网络摄像机(ip   camera),这两种产品都具有实时压缩和网络传输的功能,功能上的区别是ip   camera自带摄像头,而ipvs须要用户本身配摄像头,固然,ipvs在知足监控市场的需求上,比ip   camera更强大一些,通常来讲,图像的压缩效果也更好些,并且,它通常还支持所谓的报警输入输出接口,固然,在价格上,网络摄像机有比较大的优点。

1.3.4   流媒体行业
流媒体也是网络技术和视频压缩技术结合的产物,它的具体应用形式不少,好比网上直播、手机流媒体、iptv(网络电视)等等,都是比较新的东西,再好比如今网络上流行的所谓播客,我也把它归类为流媒体行业。
流媒体应用,对编码器的要求多是最高的了,这是由于每台流媒体服务器都会有不少用户来链接访问媒体数据,压缩率若是提升的话,同等图像质量下,同等图像带宽能够支持更多的用户,这点很重要,流媒体行业应用的最大瓶颈就是服务器支持的用户数了。
为 了解决服务器的这一瓶颈,最近几年出现了一种叫作p2p的网络传输技术,它号称是用户越多,用户欣赏视频会越流畅,而须要的服务器仍然只是一台。这个技术 最成功的产品案例就是skype软件了,好像是2005年它被ebay以26亿美圆成功收购,这即便到如今,也被称为一个互联网历史上不可复制的奇迹。除 了skype,其余应用p2p技术的直播软件还有pplive等,如今也都比较流行。
iptv算是流媒体在家庭的一个应用形式,前两年在国内也 很火过一阵子。个人感受,单纯从技术上评价,iptv也还有点早了,如今可能还不太成熟,个人理由有以下几点:目前家庭用户上网主要的带宽仍是2兆或者以 下,在这个带宽下,目前主流的压缩技术,压缩出来的效果可能和有线电视比还相差很明显,要想进一步提升,可能还须要h.264的普及应用。若是要升级到 h.264的话,也就是说目前的iptv机顶盒在技术上还不够成熟,并不能一步到位解决问题。因此,感受iptv在技术上要可行,可能还须要再等3-5年 吧。

1.3.5   视讯行业
所谓的视讯行业,就是视频和通信技术结合的行业,上面所说的视频会议、远程视频监控和流媒体行业都属于视讯行业的范畴。
还有一个颇有影响的产品,就是ip电话,这个产品你们应该都很熟悉了,几年前也有过一段时间的炒做,如今看好像也还没普及,和iptv相似,我的也是感受仍是有点早了,可能再过几年会有机会起来。它应该算是视频会议的家庭应用产品形态吧。html

二   知识篇
2.1   音视频协议、通信协议介绍
2.1.1   两大标准制定组织
这里的标准,主要指的是音视频压缩标准。两大组织分别是国际标准化组织(iso)和国际电信联盟(itu),相信it行业的从业者没据说过这两个行业的人不多。
在音视频压缩标准方面,mpeg系列的协议是iso制定的标准,而h系列的协议则是itu制定的标准。

2.1.2   视频协议
目前主要的视频压缩协议有:h.26一、h.26三、h.264和mpeg-一、mpeg-2和mpeg-4。第一个视频压缩标准是h.261,它的算法 现 在来看,很是简单,可是,它的不少视频压缩的思想,一直影响到如今最新的压缩标准h.264。h.264单看名字,感受是itu组织制定的,其实它还有一 个名字叫mpeg-4   part   10,翻译过来叫mpeg-4   第十部分,这是由于h.264是iso和itu组织共同制定的,版权共享。其实,一直以来,h系列的标准制定者和mpeg系列的标准制定者基本上就是同一 群人,并且,这两个系列的算法思想基本上都差很少,惟一有一点不一样的协议是mpeg-4,它在它的高级profile中提出了小波变换等算法来实现视频压 缩,从实际发展看,我的感受不是很成功,采用小波变换的商用codec不多,这可能和这些算法的达不到实时性有关系。
从应用的角度看,mpeg 系列在消费类应用更广些,你们也更熟悉些,咱们熟悉的vcd格式视频主要是mpeg-1,dvd的视频则是mpeg-2,早期你们看的电影在电脑上存盘文 件格式都是*.mpg,基本上也都是mpeg作的压缩了。在行业上,国内的监控行业,也是从mpeg-1到mpeg-2,到前两三年的mpeg-4,再到 最近的h.264。而h系列的标准,用得最多的是视频会议,从h.261到h.263,再到h.263+、h.263++等,再到如今的h.264。
从技术角度说,h系列的协议对网络的支持更好些,这点mpeg系列要差一些,可是,mpeg它每一代都比h系列同一代的协议要出得晚些,算法也相对更先进 些,所以,它用来作存储协议是很合适的,这也就是为何普通消费类产品用户不多了解到h系列协议的缘由。
h.264是两大组织最新的算法成果,它在算法层面应该说是很是先进了,有人评价,h.264是视频压缩技术的一个里程碑,在可预见的5到10年内,出现新的视频压缩协议可能性很小,除非压缩理论有重大突破。
中国也有本身的视频压缩协议,叫作avs,搞了好多年了,不过搞得不是很好。从市场分析,消费类电子、视频会议和流媒体行业,如今要再想进去可能很困难 了。不过最近据说avs又有点火起来了,有消息称,iptv指定要支持avs,这多是它的最后机会了吧。
除了上面说的协议,还有不少公司也有本身的压缩算法,不过基本上都是不公开的了,他们这些算法也都很是好,不过和开发人员关系倒不是很大了,典型的是微软 的wmv、realplay公司的rm和rmvb等,他们的使用者也不少,并且他们都偏向流媒体应用。

2.1.3   音频协议
音 频协议也分两大类,itu组织的主要是用于视频会议的g系列协议,包括g.7十一、g.72二、g.72三、g.72六、g.72八、g.729等。这些 协议主要有两大特色,第一是比较关注语音压缩,毕竟开会主要是要听人讲话;对音乐的压缩效果可能就不是太好了;第二是压缩率都比较大,码率都比较低,典型 的g.723支持5.9k/s这样的码率,并且语音音质还很不错。iso的音频可能更为人熟知一些,最流行的就是mp3,它的全称是mpeg-1   audio   layer   3,意思是mpeg-1的音频第三层;另外,最新的音频算法被称为aac(也称为mp4),它定义在mpeg-2或mpeg-4的音频部分。他们的特色是 音质好,支持多声道,高采样精度和采样频率,尤为对音乐的压缩效果比g系列要好太多。固然,这也是由于它们的应用领域侧重点不一样形成的。
一样的,不少大公司也有本身的语音压缩标准,效果也很是好。不过都是他们本身的知识产权和算法,通用市场用的仍是少。

2.1.4   上层通信协议
在视频会议系统中,目前最流行的有h.323和sip协议,在流媒体应用中,isma   rtsp应用得比较多,它属于开源项目,而不少流媒体产商有本身的流媒体传输协议,好比微软的mms等。
h.323 主要用于视频会议,被称为协议簇,咱们前面提到的h系列视频压缩协议和g系列音频压缩协议都属于它的子协议。除了音视频编解码器外;它还定义了各类数据应 用,包括t.120、t.8四、t.434等;另外还包括h.245控制信道、h.225.0呼叫信令信道以及ras信道。详细的h.323的知识,这里 就不深刻介绍了。
sip是由ietf提出来的一个应用控制(信令)协议。正如名字所隐含的--用于发起会话。它可用来建立、修改以及终结多个参与者参加的多媒体会话进程。参与会话的成员能够经过组播方式、单播连网或者二者结合的形式进行通讯。
h.323 和sip分别是通讯领域与因特网两大阵营推出的建议。   h.323企图把ip电话看成是众所周知的传统电话,只是传输方式发生了改变,由电路交换变成了分组交换。而sip协议侧重于将ip电话做为因特网上的一 个应用,较其实应用(如ftp,e-mail等)增长了信令和qos的要求,它们支持的业务基本相同,也都利用rtp做为媒体传输的协议。但h.323是 一个相对复杂的协议。
rtsp主要用于流媒体传输,它的英文全称是real   time   streaming   protocol。典型的应用就是网络电视的应用,由客户向服务器进行点播,若是在监控行业应用的话,建议当用户进行远程回放录像时,可采用rtsp协 议。
 
 
2.2   音视频基本概念介绍
2.2.1   视频的基本概念
rgb和yuv
rgb指的是红绿蓝,应用仍是很普遍的,好比显示器显示,bmp文件格式中的像素值等;而yuv主要指亮度和两个色差信号,被称为luminance和 chrominance他们的转化关系能够本身去查一下,咱们视频里面基本上都是用yuv格式。

yuv格式
yuv 文件格式又分不少种,若是算上存储格式,就更多了,好比yuv44四、yuv42二、yuv4十一、yuv420等等,视频压缩用到的是420格式,这是 由于人眼对亮度更敏感些,对色度相对要差些。另外要注意几个英文单词的意思,好比:packet、planar、interlace、 progressive等。

帧率
每秒钟图像的刷新速度。pal制式的电视,帧率是25帧每秒,ntsc制式的电视帧率是29.97帧每秒。咱们经常使用的电脑也有刷新率,通常来讲,电脑的刷新率要在75赫兹以上,人眼才不会以为闪。

隔行扫描(interlace)和逐行扫描(progressive)
通常的电视上都是隔行扫描,而显示器都是逐行扫描。这里有一个场的概念,隔行扫描是一帧等于两场,而逐行扫描则是一帧就是一场。

码率
它的单位是   bit   per   second,通常全部描述带宽的概念,单位都是bit,描述存储容量的单位通常都是大b,也就是byte(字节)。

分辨率
图 像的分辨率指的是它的像素数,通常用得最多的是cif,也就是352*288,4cif天然就是指704*576,而d1的分辨率严格意义上是 720*576,大小来讲和4cif差很少了。固然如今还有不少高清的分辨率,这些我不是太了解,你们感兴趣能够查一下。另外,国外不少时候,对cif的 高度取240,这是由于他们的帧率比咱们高(29.97hz),天然,高度要小一些了。

实时与非实时
主要用来形容编码器,它含有两个意思,一个是要保证帧率,也就是每秒25帧,另外一个是“live”的意思,意味着直播,所谓的“实况转播”的“实”。

延时
也是形容编码器的一个重要指标,通常来讲,200ms到300ms人的感受不会很明显,到了500毫秒的话,仍是能够很明显感受到的。

音视频同步
做为视频会议的应用,通常要求作到所谓的“唇同步”。基本的保证音视频同步的手段就是时间戳(time   stamp)。

复合视频和s-video
ntsc 和pal彩色视频信号是这样构成的--首先有一个基本的黑白视频信号,而后在每一个水平同步脉冲以后,加入一个颜色脉冲和一个亮度信号。由于彩色信号是由多 种数据“叠加”起来的,故称之为“复合视频”。s-video则是一种信号质量更高的视频接口,它取消了信号叠加的方法,可有效避免一些无谓的质量损失。 它的   功能是将rgb三原色和亮度进行分离处理。

ntsc、pal和secam
基带视频是一种简单的模拟信号,由视频模 拟数据和视频同步数据构成,用于接收端正确地显示图像。信号的细节取决于应用的视频标准或者“制式”--ntsc(美国全国电视标准委员 会,national   television   standards   committee)、pal(逐行倒相,phase   alternate   line)以及secam(顺序传送与存储彩色电视系统,法国采用的一种电视制式,sequential   couleur   avec   memoire)。
中国的电视信号通常都是pal,而美日则是ntsc。这2个制式的帧率,图像尺寸都有所不一样。

线数
咱们在买摄像头的时候,常常会提到一个叫线数的概念,它其实就是分辨率中的高(height)。举个例子:pal制式的d1图像,线数就是576。

亮度、饱和度和对比度
英文名分别是:brightness、saturation和   contrast。这是三个表示图像的重要指标。

2.2.2   音频的基本概念
采样率
音 频的采样率其实相似视频的帧率,意思是每秒钟采样的次数。g.711的采样率是8k(人的语音大概就在这个频率范围之内),而mp3支持的典型采样率是   44.1khz(超过人耳响应频率的2倍多一点——奈奎斯特定理)。很明显,mp3压缩的原始声音要比g.711好多了。

采样精度
就是每一个采样进行模数转换时的量化系数。g.711是8bit采样精度,而mp3典型的是16bit。

回声消除
视 频会议应用中的音频最大问题。回声产生的缘由很复杂,通常认为,在互联网中的语音传输,延时来源有三个:压缩延迟、分组传输延迟和处理延迟。语音压缩延迟 是产生回声的主要延迟,例如在g.723.1标准中,压缩一帧(30ms)的最大延迟是37.5ms。分组传输延迟也是一个很重要的来源,测试代表,端到 端的最大传输延迟可达250ms以上。处理延迟是指语音包的封装时延及其缓冲时延等。

2.3   视讯产品简介
这一节,咱们对采起一些视讯行业中的产品进行简单介绍,但愿对你们有用。

2.3.1   mp4
这是最近两年开始流行的新产品,它的定义其实业有些混乱。目前流行的说法是:只要和视频沾边的便携式播放器,都叫mp4。不过下面的图更能说明问题。
 

2.3.2   光端机
一种完成电——光信号转换的设备。主要用于模拟远程视频监控系统,它可将远端的摄像头模拟信号转换成光信号传送到监控中心,配合监控中心的dvr使用。

2.3.3   视频会议mcu
它是视频会议的核心设备之一。当参与视频会议的终端超过2个时,就必须经过mcu来召开会议。
mcu的基本功能是媒体流转发和混音,并进行会议管理,随着视频会议的发展,mcu支持的功能也愈来愈多,好比:混屏、远程摄像头控制等功能。算法

相关文章
相关标签/搜索