图像压缩JPEG编码算法及压缩过程的实现.docx

资源描述

图像压缩JPEG编码算法及压缩过程的实现.docx

《图像压缩JPEG编码算法及压缩过程的实现.docx》由会员分享，可在线阅读，更多相关《图像压缩JPEG编码算法及压缩过程的实现.docx（18页珍藏版）》请在冰点文库上搜索。

图像压缩JPEG编码算法及压缩过程的实现.docx

图像压缩JPEG编码算法及压缩过程的实现

图像压缩（JPEG）编码算法及压缩过程的实现

————————————————————————————————作者：

————————————————————————————————日期：

窗体顶端

秋风，秋雨，秋天的景色

∙博客园

∙首页

∙博问

∙闪存

∙新随笔

∙联系

∙订阅

∙管理

随笔-234 文章-0 评论-22

图象压缩（JPEG）编码算法及压缩过程的实现转

图象压缩（JPEG）编码算法及压缩过程的实现

摘要

本文首先介绍了静态图像压缩（JPEG）编码算法的基本原理、压缩的实现过程及其重要过程的离散余弦变换（DCT）算法的实现原理及软件实现的例程，其次着重介绍了压缩过程中的DCT、量化和编码三个重要步骤的实现原理。

关键词：

图像压缩有损压缩 JPEG 离散余弦变换 DCT 量化

第一章图像压缩编码的综述

1.1 图象压缩的目的和方法

图象的数字化表示使得图象信号可以高质量地传输，并便于图像的检索、分析、处理和存储。

但是数字图像的表示需要大量的数据，必须进行数据的压缩。

即使采用多种方法对数据进行了压缩，其数据量仍然巨大，对传输介质、传输方法和存储介质的要求较高。

因此图象压缩编码技术的研究显得特别有意义，也正是由于图象压缩编码技术及传输技术的不断发展、更新，推动了现代多媒体技术应用的迅速发展。

1.1.1 图象压缩的目的

图象采样后，如果对之进行简单的8bit量化和PCM编码，其数据量是巨大的。

以CIF（CommonIntermediateFormat）格式的彩色视频信号为例，若采样速率为25帧/秒，采样样点的Y、U、V分量均为8bit量化，则一秒钟的数据量为：

352×288×3×8×25＝60.83Mbit

要传输或存储这样大的数据量是非常困难的，必需对其进行压缩编码，在满足实际需要的前提下，尽量减少要传输或存储的数据量。

虽然数字图象的数据量巨大，但图象数据是高度相关的。

一幅图象的内部相邻象素之间，相邻行之间的视频序列中相邻图象之间有大量冗余信息—空间相关性和时间相关性，可以使用各种方法尽量去除这些冗余信息，减少图象的数据量。

除了时间冗余和空间冗余外，在一般的图象数据中还存在信息熵冗余、结构冗余、知识冗余和视觉冗余。

各种冗余就是压缩图象数据的出发点。

图象编码的目的就在于采用各种方法去除冗余，以尽量少的数据量来表示个重建图象。

1.1.2图象压缩的几种方法

1.统计和字典的压缩方法

常规程序和计算机熵的数据对于那些基于利用统计变种的压缩，效果很好，这些统计变种表现在单个符号的频率以及符号或短语字符串的频率等方面，而基于字典的系统实际山就是假扮统计程序。

可是遗憾的是，这类压缩对于连续色调图象的作用并不很好。

这些程序的主要问题产生于这样的一个事实：

照片图象的象素广泛地分布在整个范围。

如果将图象中的彩色用频率分布画出，那么频率分布图中，没有我们在统计压缩的成功的情况下所看到的“尖峰”状，实际上，如果延长这个分布图，那么从类似于电视那样的生活图象源中得出的分布图会趋于平展。

这意味着，每个象素代码彼此是大约相同的出现机会，决定不存在挖掘熵差的任何机会。

基于字典的压缩程序的运行也有类似的问题，基于扫描照片的图象决定没有任何类型的数据特征以产生相同的短语的多次出现。

例如，一个栅格化的图象，类似房子墙边的垂直部分，在图片的许多连续的行中可能可以给出相似的字符串。

但不幸的是，由于真实世界是变化多端的，每行中的相同的性能将彼此地略有不同，对于20个象素的一个字符串，其中的一两个象素会因扫描而彼此出现一步长的变化，虽然这些不同点小到人眼不能探测或对人眼不起作用，但他们毕竟妨碍了基于字典压缩的工作，对于这类压缩方法来说，字符串必须严格匹配，由于小的变化，而使匹配的字符串长度趋于很小，这就限制了压缩的效率。

2.有损压缩

类似于音频数据，图形图象也同样有一个比常规计算机数据文件优越的地方：

在压缩/扩展的循环中，他们可以被略微改动，而不会影响用户的立即质量。

如果仔细修改，那么各处象素的精确灰度可以完全不被注意地进行小的改变。

由于计算机栅的图形图象通常来自对真实世界源的扫描，所有他们通常表达一个已经不完美的照片的表达或是不完美的其他打印接着的表达。

没有改变图象基本性能的有损压缩程序应该是可行的。

假设图形图象的有损压缩是可能的，那么它是如何实现的呢？

研究人员最初试验了用于语音信号的同样的技术，如差分编码和自适应编码，虽然这些技术对图象有帮助，但并没有达到所希望的那么好，原因之一是音频数据和视频数据根本不同。

用常规格式采样的音频数据是趋于反复的，声音，包括讲话，是由每次几秒的重复的正弦波组成的。

虽然计算机上DAC的输入流可能由许多不同的频率叠加在一起而成，但是正弦波通常产生反复的波形。

音频反复的本性自然使他利于压缩，线性预言编码和自适应差分脉冲编码调制等技术就利于了这一点，因此将音频数据流压缩了50％到95％。

但开始研究图形压缩时，人们也试图用相似的技术压缩数字化的图象，取得了一些成功。

最初，研究人员进行栅格化数据流的压缩，如显示在电视机栅的数据。

图形数据栅格化时，图形显示成一个象素流，每次一行地显示在屏幕上，从左到右，从上到下。

这样，当完成一行时，图片的一个细片就画出了，直到整个屏幕填满。

数字化时，象素可以使用从1位到24位，如今的琢磨图形常常使用8位来定义一个象素。

3.差分调制

差分调制依赖余模拟数据趋于“平缓”

的变化，信号幅度撒谎那个的大的跳变是例外，而不是常规。

在音频数据中，只要信号的采样率一定程度地高于信息本身的最大的频率分量，那么大的跳变就不会产生。

音频信号的差分调制通过编码一个样点与前一个样点的不同来利用这一个特点。

例如，如果单频样点位8位，差分编码系统可能用4位来编码样点之差，这就将输入数据压缩了50％。

这种压缩方法中所产生的损失是来自于：

使用标准的差分方法不可能总是精确地编码。

信号的增长可能快于比编码的允许，或者，编码可能太粗而不能容纳下的差别，差分编码的有损性可以很好的处理，以产生出好的信号。

当压缩图形数据时，差分调制有很多问题。

首先，图形中的象素依赖于平缓的增加或减少时不可靠的，一幅图中不同的分量间的明显界限时常有的事情。

这意味着，使用差分编码的系统需要接受样点间的大的不同和小的不同。

这就限制了压缩的效率。

带有数据长结构的许多图象可以压缩的很好。

长结构中的象素，彼此之间没有什么差别或差别很少；但时，带有突变部分的那些图象不可能压缩的很好。

通常，图形图象的差分的编码似乎不产生非常强于最好的无损算法的压缩结果，他当然也不会产生所需要的、对压缩的数量级上的改进。

4.自适应编码

自适应编码（常常于差分编码一同使用）根据前面看到的一些象素而对将要到来的一些象素的信息做预言。

例如，如果一幅灰度级照片中的最新的十个象素的值都在45到50之间，那么自适应压缩系统可能预言，下一个象素很大可能也在这个范围中，之后，类似于霍夫曼或算术编码那样的基于熵的编码方案可能给将来到来的各种代码赋以概率值。

可以代替地使用压缩－扩展方法，将最细的粒度赋给最接近预言猜测的范围。

第二章JPEG编码算法

2.1JPEG压缩编码基础

七十年代末八十年代初，研究工作开始着眼于新的图像压缩类型，希望能够大大地优于前面所讨论过的那些非常一般的压缩技术。

到八十年代末，开始可为桌面系统的图像处理而寻找应用的工作，大多是是为UNIX和Macintosh工作站加入的协处理器卡的形式，这些卡的图象质量没有任何可见退化的情况下，可以以95％的比率执行图像的有损压缩。

同时，另一部分人开始发展一个国际标准，它能够包括这些新的压缩的种类。

如果标准允许方便的图形格式的互换，那么，显然，对于各方面都是有利的，关于标准化工作，早期的担心是：

它会限制进一步革新的可能性。

两个标准化组织，CCITT和ISO，分别从涉及图像压缩的工业和学术两个入手，并且，似乎已经潜在的阻止了工作的负结果。

2.2.1JPEG算法于JPEG小组简介

JPEG（JointPhotographicExpertsGroup）是由 ISO/IEC JTC1/SC2/WG8和CCITTVIII/NIC于1986年底联合组成的专家小组。

JPEG小组的工组事研究具有连续色调的图像（包括灰度及彩色图像）的压缩算法，并将其制定为适用于大多数图像存储及通信局设备的标准算法，JPEG小组于1990年提出JPEG算法的建议，并决定对建议中的算法不再修改，除非发现了危害压缩算法标准的问题。

作为静态图像压缩的标准算法，JPEG算法必须满足以下要求：

算法独立于图像的分辨率；具有低于1bit/象素的编码率，并且能够在五秒钟内建立图像，以满足实时要求；在压缩比大约是2的情况下能够无失真地恢复原图像；支持顺序编解码和渐进编解码；以及对各种图像成分及数据精度的自适应能力；最后，要求编解码设备简单易实现。

JPEG小组指定了一系列实现静态图像压缩编码的方法，这些方法的选择决定于具体应用的要求及性能价格比的考虑。

这些方法基本上可以分为两类：

基于离散余弦变换的编码和基于空间域预测编码的方法。

前者，即离散余弦变化的方法压缩倍率较高但算法复杂，较难实现；后者，即预测编码的方法虽然压缩倍率较低，但是可以实现无损压缩。

JPEG中允许四种编解码模式：

（1）基于DCT的顺序模式（sequentialDCT-based）

（2）基于DCT的渐进模式（progressiveDCT-based）

（3）无失真模式（Lossless）

（4）层次模式（hierarchical）.

其中，

（1）和

（2）是基于DCT的有损压缩；（3）是基于线性预测的无损压缩；（4）可以是DCT与线性预测的分层混合。

JPEG算法可分为基本JPEG和扩展,即BaselineSystem 与ExtendedSystem。

在BaselineSystem中生成的编码文件，在ExtendedSystem中一定可以正确解码。

2.1.2JPEG压缩

JPEG有损压缩算法在三个成功的阶段中操作，见图2－1

DCT Coefficient Lossless

Transformation → Quantization → Compression

这三个步骤形成了一个强有力的压缩器。

，可以将连续色调图像压缩到少于原大小的10％，同时丢失很少的原始逼真度。

2.2JPEG中的二维DCT

本文所讨论的压缩过程的关键是被称为离散余弦变换（DiscreteCosineTransform，DCT）的数学变换。

BaselineSystem中的DCT要求输入数据是一个8×8的矩阵，且每个矩阵元素具有8bit精度，分为从－128到127，故DCT变换前，象素值先要减去128。

所谓8×8的二维DCT是指将8×8的象素值矩阵变换成8×8系数矩阵。

8×8象素值矩阵是由输入图像分块得到的，若图像的高或宽不是8的整数倍，必须扩展其下边或右边到8的整数倍。

下面（式2－1）给出了二维DCT的实用公式。

式2－2是反离散余弦变化（IDCT）公式。

式中表示的是8×8个象素值的矩阵进行计算的，产生出8×8频率系数的矩阵。

8×8的DCT及IDCT 公式如下：

这个公式初看起来让人害怕，但它可以用相当直接的代码段来表示。

for（i=0;i<8;i++）

for（j=0;j<8:

j++）{

temp ＝ 0.0;

for（x=0;x<8;x++）

for（y=0;y<8;y++）{

temp+=Cosines[x][i]*Cosines[y][j]*pixel[x][y];

}

temp*=sqrt（2*8）*Coefficient[i][j];

DCT[i][j]=INT_ROUND（temp）;

}

2.3DCT的实现

测验DCT算法时所表现出的首要的问题之一是计算DCT中每个元素所需要的世界紧紧地依赖于矩阵的大小。

由于使用双层嵌套循环，所以计算量为：

随着N的增长，处理DCT输出数组中每个元素所要的时间也将增长。

DCT的实现将图像分成更小更能处理的块，JPEG小组选用8×8的块大小进行DCT计算。

虽然DCT大小的增加可能得到更好的压缩，但是，达到减弱返回点的时间也不会很长。

研究表明，象素之间的联系很快趋于减弱，因此，原点15或20个象素位以外的象素对于预言器来说用处不大，这意味着64×64的DCT块比起将它分成四个16×16块，不会有更好的压缩，并且，越是不重要，花费的计算时间越多。

虽然，使用16×16的块做为DCT计算的基础的确是一个好的选择，但是JPEG委员会选择的就是8×8的块，这主要是，为了允许那些使用今天技术所建立起的使用实现。

这类压缩称作“块压缩”。

2.3.1矩阵相乘

上面显示的DCT定义是相当直接的双层嵌套循环。

循环的内层元素为每个要计算的元素执行N×N次，循环的内层有两个相乘操作和一个相加操作。

更为有效的DCT形式可能是使用矩阵操作进行计算。

为实现这个操作。

首先要建立称为余弦变化矩阵（CosineTransformMatrix）的一个矩阵C，该矩阵由式2－3给出。

＝

if i＝0

if i>0

一旦建立了余弦变换矩阵，我们绕着它的主对角线旋转，将其转置，这个转置矩阵在代码中表示

，称作转置余弦变换矩阵。

矩阵的建立只需在程序初始化时进行一次，两个矩阵可以用相对短小的循环在同一时刻建立。

见下面的代码：

for（j=0;j

C[0][j]=1.0/sqrt（N）;

Ct[j][0]=C[0][j];

}

for（i=1;i

for（j=0;j

C[i][j]=sqrt（2.0/N）*cos（（2*j+1）*i*pi/（2.0*N））;

Ct[j][i]=C[i][j];

}

一旦这两个矩阵建立，我们就可以使用DCT函数的替代定义：

DCT=C* 象素 *Ct

在这个等式中，“*”运算符表示的事矩阵相乘，而不是一般的算术相乘。

等式中的每个因子是一个N*N的矩阵，在JPEG算法以及本章所只用的程序中，矩阵为8×8。

进行两个矩阵相乘时，输出矩阵中每个元素的运算代价时N个乘法操作和N个加法操作，由于我们用两个矩阵相乘来建立DCT矩阵，在变换后的DCT矩阵中的每个元素都是用2N个乘法和加大建立起来的，这一点，大大地改进了前面使用嵌套循环的DCT定义。

/*MatrixMultiply（temp,input,Ct）*/

for（i=0;i< N;i++）{

for（j=0;j

temp[i][j]=0.0

for（k=0;k

temp[i][j]+=（pixel[i][k]*Ct[k][j];

}

/*MatrixMultiply（output,C,temp）;*/

for（i=0;i

for（j=0;j

temp1=0.0;

for（k=0;k

temp1+=C[i][j]*temp[k][j];

DCT[i][j] =temp1;

}

上面显示的是通过矩阵运算实现DCT的简单代码片段。

值得注意的是，代码中主要是两个三层的嵌套循环，第一个三层嵌套循环是用输入的象素序列于转置余弦变换矩阵相乘，产生临时矩阵；之后，在第二个三层嵌套循环中，临时矩阵于余弦变换矩阵相乘，产生输出的DCT矩阵。

第三章压缩过程

3.1DCT的输出

由输入的象素值矩阵及输出的DCT矩阵可已经看出DCT所建立的频谱压缩特性。

“直流系数”位于矩阵左上角的位置，这个表示的是输入矩阵的所有幅度的一个平均，它代表了X和Y坐标轴上的DC分量，而且直流系数要比DCT矩阵中任意值都打至少一个数量级。

另外，在DCT矩阵中有一个通常的趋势，随着元素离直流系数越来越远，这些元素的幅度上也变的越来越小。

这意味着，通过在输入数据中执行DCT，我们已经将图像的表达集中在输出矩阵的左上角的系数上，而DCT矩阵的右下角部分所包含的是没有用的信息。

也很有利于数据的压缩。

3.2 量化

由图2－1可知JPEG压缩过程分为三个步骤。

第一步是DCT变换，这是一个无损压缩变换，它实际上并不实现压缩，是“有损”的准备，即为“量化”处理阶段做准备。

DCT输出矩阵比原始象素矩阵占有更多的存贮空间，DCT函数的输入包括8位象素值，但输出值的范围从－1024到1023，占用11位，因此，为使DCT矩阵占用较少空间，就需要做些事情。

减少DCT矩阵存贮位数的行为称为“量化”（Quantization）。

量化只不过是通过减少整数单精度来减少存贮整数值所需要的位数第一个过程。

一旦DCT图像压缩，我们可以随着原理原点处的直流系数越来越多的减少系数的精度：

离（0，0）点越远，这个元素对于图形图像的贡献就越小，所有我们就越不用注意去维持这个值的精确精度。

3.2.1量化的算法描述

JPEG算法使用量化矩阵（QuantizationMatrix）来实现量化。

对于DCT矩阵中的每个元素位置，两个矩阵中的相应位置给出了一个量子值（QuantumValue），量子值指示出图像压缩时元素的步长大小是多少，其范围是1到255。

与图像关系最密切的元素用小步长编码，大小为1表示最高精度。

随着我们从原点移开，值将变得较高，量化的实际公式相当简单：

量化后的值（i,j）＝

圆整成最近的整数

从公式中可以清楚地看到，大于25或50的量化值可能可以保证素有高频分量实际上将近似到0，只有高频系数达到不寻常大值，才会编码成非0。

译码时，逆量化公式为：

DCT（i,j）＝量化后的值（i，j）*量子（i,j）

3.2.2量化矩阵的选择

显然有许多方法可以用来定义两个矩阵中的值，至少有两个试验途径可以测试不同的量化方案。

一个是在图像还原以后，测量输入输出图像之间的数学误差;第二个途径试图用人眼来判断还原的结果，它与误差方面的数学差别不可能总是绝对一致。

由于量化矩阵可以定义在压缩进行的运行时间，所以JPEG允许使用任何量化矩阵。

在运行时间选择量化矩阵的好处之一是在被压缩的图形使用JPEG算法时可以相当简单地“打入”图像的质量值。

可以基于突袭拿过需要和存贮容量来选择图像质量。

下面的程序所提供的用于测试代码的量化表是使用非常简单的算法卷里起来的。

要确定量子步长大小的值，用户输入一个单个的“质量因子”（qualityfactor），它的范围为1到25。

大于25的值是可以工作的，但是值为25时，图像质量已经退化得很厉害，所以任何进一步的实验都是无意义的。

for（i=0;i

for（j=0;j

Quantum[i][j]=1+（（1+i+j）*quality）;

质量等级设置了彼此相邻的相同量化水平带的不同，这些量化水平带是面向横贯矩阵的对角线。

所以，一个值的量化水平都与原点有大约相同的距离。

由配置的结果看，位置（7，7）处的DCT系数值为16，编码成非零值，在元素值为图像提供任何有意义的信息之前，，它为该元素值设定了界限，任何此界限一下的贡献都被扔掉。

这就是算法中发生“有损”效果的地方。

DCT的第一个步骤中除了数学精度损失外没有任何损失，并且量化之后的步骤也是无所的编码过程，所以我们有机会丢掉数据的唯一地方就在这儿。

由将DCT矩阵量化后的量化结果来看，量化/逆量化周期有明显的压缩效果，矩阵的高频部分已大部分截成0，消除了在被还原图像中的影响，矩阵中接近直流系数的系数可能被修改，但与原系数相比修改不大。

下图即为量化前和逆量化后的DCT矩阵的结果。

DCTMatrixbefore 92 3 -9 -7 3 -1 0 2

Quantization -39 -58 12 17 -2 2 4 2

-84 62 1 -18 3 4 -5 5

-52 -36 -10 14 -10 4 -2 0

-86 -40 49 -7 17 -6 -2 5

-62 65 -12 -2 3 -8 -2 0

-17 14 -36 17 -11 3 3 -1

-54 32 -9 -9 22 0 1 3

DCTMatrixafter 90 0 -7 0 0 0 0 0

Dequantization -35 -56 9 11 0 0 0 0

-84 54 0 -13 0 0 0 0

-45 -33 0 0 0 0 0 0

-77 -39

展开阅读全文