基于H.264的视频图像编解码技术研究.doc

资源描述

基于H.264的视频图像编解码技术研究.doc

《基于H.264的视频图像编解码技术研究.doc》由会员分享，可在线阅读，更多相关《基于H.264的视频图像编解码技术研究.doc（30页珍藏版）》请在冰点文库上搜索。

基于H.264的视频图像编解码技术研究.doc

摘要 1

关键词 1

1前言 2

1.1课题研究背景 2

1.2视频编解码的意义、目的及可行性 3

1.2.1视频编解码的意义、目的 3

1.2.2视频编解码的可行性 4

1.3视频压缩技术的国内外研究现状 5

1.3.1国内研究现状 6

1.3.2国外研究现状 6

1.4本论文研究的主要内容 9

2视频编解码基础 9

2.1视频信号的颜色模型 9

2.2视频图像的基本格式 11

2.3视频压缩的基本编码技术 11

2.3.1信息熵编码 11

2.3.2预测编码 12

2.3.3变换编码 12

3H.264视频编解码标准 12

3.1H.264标准概述 12

3.1.1标准框架 13

3.2H.264标准的新技术 13

3.2.1帧内预测 13

3.2.2高精度的运动估计 14

3.2.3多模式宏块划分 14

3.2.4整数DCT变换 15

3.2.5熵编码 15

3.2.6去块效应滤波 15

3.2.7VCL/NAL 16

3.3H.264编解码器 16

3.3.1H.264的视频编码器 16

3.3.2H.264的视频解码器 17

3.4H.264的关键算法 18

3.4.1运动估计算法 18

3.4.2帧间预测算法 19

4基于H.264的视频监控系统实验演示平台的设计 19

4.1引言 19

4.2编码器的选择 20

4.2.1两大开源编码器 20

4.2.2性能测试 20

4.3解码器的选择 23

4.4演示平台设计 23

4.5实验演示 26

5结论 27

参考文献 28

致谢 29

基于H.264的视频图像编解码技术研究

摘要:

目前对静止图像和视频序列图像的编解码技术的应用越来越广泛，图像编解码技术己经成为电视广播、视频监控和多媒体娱乐等中最重要的一部分。

由ITU-TVCEG和ISO/IECMPEG联合组成的JVT开发的H.264/MPEG14496-10AVC（文中后面将统一称其为H.264）是最新一代的视频编解码标准，也是目前图像通信领域研究的热点。

作为视频编解码领域的最新标准，H.264具有压缩率高、差错恢复能力强、适用范围广等优点。

为达到理想的数据压缩率，H.264编码器采用了很多新的编码算法，这些算法极大地增加了编码器的计算复杂性，使其目前在PC环境下的应用受到很多限制。

本文主要分析了H.264标准的原理，最后开发了基于H.264的视频监控系统的演示平台。

关键词:

H.264；视频编解码；差错恢复；视频监控

ResearchonVideoCodingAndDecodingTechnologiesBasedonH.264

Abstract:

Atpresentvideocodinganddecodingtechnologiesforstillimageandvideosequenceiswidelyusedinbroadcasttelevision,videosurveillanceandhomeentertainment.H.264|ISOMPEG4Part10ofMPEG4standardisanewgenerationvideocodinganddecodingtechnologiesforlowbit-ratevisualcommunications,whichwasdevelopedbyJointVideoTeam（JVT）.JVTismadeupofITU-TVideoCodingExpertsGroup（VCEG）andISO/IECMotionPictureExpertsGroup（MPEG）.H.264standardanditskeytechnologieswereanalyzed.Asthelateststandardinvideocodecfield,H.264hassuchadvantageashighcompressionrate,strongerrorresiliencecapacity,highlyadaptabilityandsoon.Inordertogaingoodcodingresult,H.264adoptssomanynewalgorithmsthattheamountofcalculationincreasedrastically.Asaresult,itsapplicationsinPCenvironmentarerestricted.thedissertationstudiedtheH.264'scodecmodel.Atlast,videosurveillancesystemdemonstrationprogrambased-onH.264wasimplemented.

Keywords:

H.264；videocodinganddecoding；errorresilience；videosurveillance

1前言

1.1课题研究背景

近年来，随着网络技术、传输技术和视频编解码等相关技术的不断发展，视频监控系统在智能交通、智能楼宇、银行、商场超市、医院校园、企业生产和生活小区等范围内得到了广泛应用，已经渗透到了生产生活中的各个领域，具有直观、方便和信息量丰富等特点。

视频监控系统随着相关技术的不断进步和发展，经历了三个发展阶段:

（1）模拟监控，视频以模拟方式采用同轴电缆进行传输，并由控制主机进行模拟处理；

（2）半数字监控，视频仍以模拟方式采用同轴电缆进行传输，但数据通过硬盘录像机（DVR）进行处理、存储；（3）网络多媒体的数字视频监控，被采集的视频信号被数字化，经过压缩编码在数字通讯线路上进行传输，采用流媒体技术实现视频在网络上的多路复用传输。

视频监控系统将现场的图像和声音全天候地记录下来，并实时地传送到控制中心，可以使相关管理人员对各个现场情况了如指掌，对出现的各种情况进行处理，而且还可以在需要的情况下回放相关的历史资料。

因此，视频监控系统对安防、管理等提供了极大的方便。

对其展开研究具有重要的理论意义和实际价值。

视频监控需要将采集到的数据进行压缩编码，然后在网络中安全可靠的传输，在接收端进行解码回放，整个系统最关键的就是要保证监控的视频质量，如果画面模糊，无法分辨，就失去了监控的目的。

而且由于视频监控系统的数据量庞大，需要在保证图像质量的情况下有大的压缩比，这样可以占用更小的带宽和存储空间，节约成本。

所以视频图像压缩技术是视频监控系统中最关键的技术。

自1980年以来，国际标准化组织（ISO）、国际电工委员会（IEC）和国际电信联盟（ITU）下属的国际电报电话咨询委员会（CCITT）陆续完成了各种数据压缩与通信的标准和建议，如MPEG系列和H.26X系列。

而且，目前针对上述不同的部分标准在实际中都得到了一定的应用。

本文主要针对由ITU-T和ISO/IEC联合开发的最新一代的编解码标准H.264进行研究。

并开发了基于H.264的视频监控系统的演示平台。

1.2视频编解码的意义、目的及可行性

1.2.1视频编解码的意义、目的

长期以来，人们在自然界感受到的最主要的信息是视觉信息，但早期的计算机和通信领域能够处理和传输的主要是文字和声音。

因此，早期的计算机和通信设备的处理能力跟人类的需求有很大的差距。

随着通信信道及计算机容量和速度的提高，图像信息已经成为通信和计算机系统的一种重要的处理对象。

这种基于声音和图像于一体的多媒体信息出现了，多媒体（Multimedia）又称为交互多媒体（InteractiveMultimedia），是计算机技术和视频、音频及通信等技术集成的产物，其数据来源包括文字、语音、音乐、静止图像、电视图像、电影、动画、图形等。

多媒体的数据量通常都比较庞大，尤其是电视图像、电影、动画等的数据，例如一幅640x480分辨率的24位真彩色图象数据量为:

640x480x24=7,372,800bits，约900K。

表1.1列出了几种常见的视频图像源未经编码（压缩）的原始数据率。

与文字信息不同，图像信息需要大的存储容量和宽的传输道，尤其是在需要实现大规模图像数据库和传输高分辨率实时图像序列的场合，即使以现在的技术，仍然难以满足原始数字图像存储和传输的需要。

表1.1常见视频源未经压缩的原始数据率

Table1.1Videocommonsourceoftherawuncompresseddatarate

视频源每秒帧率分辨率（帧内像素数）压缩数据率/Mbps

NTSC30720x480125

PAL25720x576125

VCR25352x28831

HDTV301920x10801000

对于大数据量的媒体对象必须首先考虑如何有效地进行传输和保存这些数据。

如对于视频会议、可视电话等多媒体数据的数据量是很大的，而且这种场合的应用通常要求实时性的。

因此，如何在一定带宽的情况下将尽量少的数据进行传输是实现实时性的基础。

再如，对于应用广泛的VCD,DVD等，通常需要在固定容量的碟片上尽可能的存储更多的数据信息，以便减少资源占用，节约成本。

从上述中可以看出，未经压缩的原始数据的数据量很大，则存储时要求的空间会很大，传输时要求的码率将会很高。

因此，为了减少存储空间，满足实时性要求，迫切需求对视频图像进行压缩。

压缩时需保证:

（1）压缩比高；

（2）压缩与解压的速度快；（3）解压图像的质量失真小。

由于人的视觉系统HVS（HumanVisualSystemHVS）和图像信息中存在着各种各样的冗余，使压缩成为了可能。

视频图像的压缩可以大大减少原始数据量，尤其是在高的压缩比的情况下。

这样就可以在一定的空间下存储更多的原始未经压缩的数据，一定的带宽下传输更多的原始未经压缩的数据。

视频压缩的主要目的就是在保证一定的图像质量的情况下，用尽可能少的位数来表达原始数据。

与图像信息相比，语音信息的数据量较小，且基本压缩方法己经成熟，目前的数据压缩研究主要集中于图像和视频信号的压缩方面。

表1.2列出了各种视频应用中的码率大小

表1.2各种视频应用的码率

Table1.2VariousvideoapplicationsRate

应用种类比特/象素象素数/行行数/帧帧数/秒比特/秒（压缩前）比特/秒（压缩后）

HDTV819201080301.18Gbps20-25Mbps

普通电视872048030167Mbps4-8Mbps

会议电视83522883036.5Mbps1.5-2Mbps

桌上会议电视8176144309.1Mbps128kbps

电视电话8128112305.2Mbps56kbps

随着信息技术的不断进步和发展，对静止图像和视频序列图像的压缩编码技术的应用越来越广泛，从家庭娱乐到专业的通信设备、从廉价的消费电子产品到昂贵的专业级专用设备，无处不在。

如VCD,DVD、可视电话、视频会议、IP上的视频服务、数字监控、数字电视、数码相机等等。

1.2.2视频编解码的可行性

图像压缩编码算法主要有两大类:

有损压缩和无损压缩。

无损压缩算法保留图像数据，原始图像和压缩后重建图像完全一样，没有损失。

有损压缩使原始图像和压缩后重建图像存在着一定的差异，但是由于人眼的视觉系统，使其在视觉上是无损的。

有损压缩和无损压缩当前都有着广泛的应用，有损压缩比无损压缩具有更高的压缩比。

通常情况下视频信号上存在大量的冗余度并且这种冗余度在编解码后可以无失真地恢复，并且人眼对于这种冗余的消除并不能感觉到，因此不会影响图像的质量。

多媒体的数据量和信息量关系为I=D-du,I,D,du分别为信息量、数据量和冗余量（D中的数据冗余）。

而信息量是要传输的主要数据，数据冗余是无用的数据，没有必要传输。

表1.3列出了图像信息压缩中可利用的各种冗余。

表1.3图像信息压缩中可利用的各种冗余

Table1.3Imageinformationcompressionbeusedeachkindofredundancy

冗余种类内容压缩方法举例

空间冗余度取决于图像中图案粗细程度的冗余度预测编码、变换编码

时间冗余度取决于图像随时间变化程度的冗余度帧间预测、运动补偿

结构冗余度把图像看作是区域集时的结构性兀余度轮廓编码、区域分割编码

知识冗余度与收发端所共有的知识相关联的冗余度智能编码

熵冗余度代码出现概率的不均匀所产生的冗余度熵编码

视觉冗余度起因于人的视觉有限性的冗余度非线性量化、比特分配

其它冗余度起因于图像的非平稳性的冗余度等各种自活应编码等

1）人的视觉系统HVS

由于人眼对图像的细节分辨率、运动分辨率和对比度分辨率的感觉都有一定的界限。

当图像处理所引起的失真不易察觉时，仍会认为图像是完好的或足够好的。

因此可在满足图像质量一定要求下，减少表示信号的精度，实现数据压缩。

2）空间冗余度

空间冗余度和时间冗余度都起因于图像的统计性质，所以称为统计冗余度。

空间冗余度是指一幅图像内所包含的冗余度。

通常情况下，相邻的像素之间有较强的相关性（尤其是那些规则条文图像和平坦图像），像素之间通常是相近的。

因此，这些像素之间存在着很大的冗余，通过预测编码就可以达到大幅度的压缩。

3）时间冗余度

时间冗余度是指相邻的图像间所具有的冗余度。

通常情况下，相邻的两幅图像之间很相似，如可视电话、视频会议等，只有人物的头、肩等小部分的活动，大部分的背景通常是不变的。

因此，在视频序列中相邻的两幅图像间有较高的相关性，在帧率较高的情况下相关性更高。

时间冗余度可以通过帧间预测编码来消除，达到压缩的目的。

大多数的视频压缩方法都主要是利用时间和空间上的冗余来实现压缩的。

4）结构冗余度和知识冗余度

结构冗余是依据“被摄物体本来是具有三维结构的实际物体，而图像是被摄物体在二维平面上的投影”这一事实的。

从这一观点出发，就可以着眼于图像结构进行编码以此来提高压缩冗余度的效果。

知识冗余度的编码的研究刚刚开始，总称为智能编码。

5）熵冗余度

熵冗余度是指由于代码出现概率的不均匀所产生的冗余度。

通常采用可变长编码来消除熵冗余度。

由于在实际的图像信息中存在着各种各样的冗余，使压缩成为了可能。

通过消除这些冗余便可以实现压缩。

目前大多数的视频压缩方法主要都是利用时间和空间上的冗余来实现压缩的。

1.3视频压缩技术的国内外研究现状

随着多媒体技术的广泛应用，图像压缩编码技术得到了学术界和工业界的重视，获得了长足的发展。

自1980年以来，国际标准化组织（ISO）、国际电工委员会（IEC）和国际电信联盟（（ITU）下属的国际电报电话咨询委员会（CCITT）陆续完成了各种数据压缩与通信的标准和建议，如以JPEG和JPEG-2000为代表的静止图像压缩标准；以MPEG-1,MPEG-2和MPEG-4为代表的中高码率数据编码标准；以H.261,H.263,H.263+,H.263++为代表的低码率、甚低码率运动图像压缩标准；以及适用范围更广的、最新的H.264标准。

国内对视频压缩技术的研究较早，但真正制定完成属于自己的标准是在2003年底，即音视频编码标准AVS。

1.3.1国内研究现状

AVS（由数字音视频编解码技术标准工作组开发）是中国自主制定的音视频编码技术标准,AVS工作组成立于2002年6月，当年8月开始了第一次的工作会议。

经过7次AVS正式工作会议和3次视频组附加会议，经历一年半的时间，审议了182个提案，先后采纳了41项提案，2003年12月19日AVS视频部分终于定稿。

AVS视频当中具有特征性的核心技术包括:

8x8整数变换、量化、帧内预测、1/4精度像素插值、特殊的帧间预测运动补偿、二维熵编码、去块效应滤波等。

AVS视频的主要特点是应用目标明确，技术有针对性。

因此在高分辨率应用中，其压缩效率明显比现在在数字电视、光存储媒体中常用的MPEG-2视频提高一个层次。

在压缩效率相当的前提下，又较MPEG-4AVC/H.264的mainprofile的实现复杂度大为降低。

目前的AVS视频技术可实现标准清晰度（CCIR601或相当清晰度）、低清晰度（CIF,SIF）等不同格式视频的压缩。

1.3.2国外研究现状

国外对图像的压缩研究较成熟，主要有两大机构从事这方面的工作:

ITU-T下属的视频编码专家组VCEG（VideoCodingExpertsGroup）和ISO/IEC下属的活动图像专家组MPEG（MotionPictureExpertsGroup）。

从1980年以来己经制定了许多针对不同应用的标准。

ITU-T主要制定了H.26X系列标准，如H.261、H.263、H.263+、H.263++等，ISO/IEC主要制定了MPEG-X标准，如MPEG-1/2/4等。

下面简要介绍几种图像压缩标准。

（1）MPEG-1

MPEG-1制定于1992年，是MPEG第一阶段的成果，它的编号为ISO/IEC11172。

它规定视频信息与伴音信息经压缩之后的数据速率上限为1.5Mbit/s，从而可以在CD-ROM、可写光盘等介质上进行存储，也可以在局域网、ISDN上进行视频与伴音信息的传输。

它不支持隔行扫描所得的视频源数据流。

采用了帧内编码和帧间编码相互结合的编码方法。

支持I,P,B,DC四种帧类型。

该标准在典型的运动补偿预测编码（MCPC）框架的基础上，应用了半像素的双向预测技术，可提供更好的编码质量和更高的压缩比。

MPEG的编码速率最高可达4-5Mbits/s，但随着速率的提高，其解码后的图像质量有所降低。

应用MPEG-1技术最成功的产品非VCD莫属了，VCD作为价格低廉的影像播放设备，得到广泛的应用和普及。

MPEG-1也被用于数字电话网络上的视频传输，如非对称数字用户线路（ADSL），视频点播（VOD），以及教育网络等。

（2）MPEG-2

MPEG-2制定于1994年，是在MPEG-1的基础上进一步发展成的音视频编码标准，主要目标是针对广播级的高质量音视频以及更高的传输率。

与MPEG-1相比，MPEG-2能够很好的处理隔行扫描的数字视频源；支持多输入视频序列的采样格式；支持几种可选择的运动预测模式，如按帧或场的运动预测；按帧或场的DCT和两种不同的扫描方式等。

MPEG-2所能提供的传输率在3MB-1OMB/s间，在NTSC制式下的分辨率可达720X480.MPEG-2的音频编码可提供左右中及两个环绕声道，以及一个加重低音声道和多达七个伴音声道。

MPEG-2的另一特点是，可提供一个较广范围的可变压缩比，以适应不同的画面质量、存储容量以及带宽的要求。

MPEG-2技术就是实现DVD的标准技术，现在DVD播放器也开始在家庭中普及起来了。

除了作为DVD的指定标准外，MPEG-2还可用于为广播、有线电视网、电缆网络以及卫星直播提供广播级的数字视频。

（3）MPEG-4

为了适应多媒体通信的快速发展，ISO于1994年开始制定MPEG-4标准。

MPEG-4标准最初是为了满足视频会议等的需要而制定的可以对音频、视频对象进行高效压缩的算法和工具，仅限于极低比特率的应用，后来经过不断的发展成为一个可以适应于各种多媒体应用、提供各种编码比特率的标准。

整个MPEG-4标准主要分为MPEG-4系统、MPEG-4音频和MPEG-4视频等基本部分和扩充的部分组成。

MPEG-4视频编码的主要目标在于提供一种通用的编码标准，以适应不同的传输带宽、不同的图像尺寸和分辨率、不同的图像质量等，进而为用户提供不同的服务。

与传统的基于像素的视频压缩标准（如MPEG-1,MPEG-2,H.261,H.263等）不同，MPEG-4采用基于对象的视频编码方法，它不仅可以实现对视频图像数据的高效压缩，还可以提供基于内容的交互功能。

除此以外，为了使压缩后的码流具有对于信道传输的鲁棒性，MPEG-4还提供了用于误码检测和误码恢复的一系列工具，这样采用MPEG-4标准压缩后的视频数据可以用于带宽受限、易发生误码的网络环境中。

经过这几年的发展，现在最热门的应用是利用MPEG-4的高压缩率和高的图像还原质量来把DVD里面的MPEG-2视频文件转换为体积更小的视频文件。

经过这样处理，图像的视频质量下降不大但体积却可缩小几倍，可以很方便地用CD-ROM来保存DVD上面的节目。

另外，MPEG-4在家庭摄影录像、网络实时影像播放将大有用武之地。

（4）H.261

H.261是ITU-T提出的作为H.320终端使用的视频编解码建议，制定于1992年，常称为Px64K标准，其中P是取值为1到30的可变参数；P=1或2时支持四分之一中间格式（QCIF:

QuarterCommonIntermediaFormat）的帧率较低的视频电话传输;P>=6时支持通用中间格式（CIF:

CommonIntermediateFormat）的帧率较高的电视会议数据传输。

Px64K视频压缩算法也是一种混合编码方案，即基于DCT的变换编码和带有运动预测差分脉冲编码调制（DPCM）的预测编码方法的混合。

在低传输速率时（（P=l或2，即64bit/s或128Kbit/s），除QCIF外还可使用亚帧（Sub-frame）技术，即每间隔一帧（或数帧）处理一帧，压缩比可高达50:

1左右。

H.261主要应用于ISDN网上的视频会议系统，借助于电信行业提供的Px64K带宽的通信线路（其中P=1-30），实现异地多方参加的电视会议。

目前国际、国

展开阅读全文