视觉技术

JPEG

文章来源:石鑫华视觉网时间:2022-08-24 10:59:12 点击:288

JPEG

石鑫华机器视觉网：在电脑中，JPEG（发音为jay-peg, IPA：[ˈdʒeɪpɛg]）是一种针对相片图像而广泛使用的一种有损压缩标准方法。这个名称代表Joint Photographic Experts Group（联合图像专家小组）。此团队创立于西元1986年，1992年发布了JPEG的标准而在1994年获得了ISO 10918-1的认定。JPEG与视频音频压缩标准的MPEG（Moving Picture Experts Group）很容易混淆，但两者是不同的组织及标准。

JPEG本身只有描述如何将一个图像转换为字节的数据流（streaming），但并没有说明这些字节如何在任何特定的存储媒体上被封存起来。JPEG的压缩方式通常是破坏性数据压缩（lossy compression），意即在压缩过程中图像的质量会遭受到可见的破坏，有一种以JPEG为基础的标准Lossless JPEG是采用无损的压缩方式，但Lossless JPEG并没有受到广泛的支持。

一个由 C-Cube Microsystems 等公司所创建的额外标准，称为JFIF（JPEG File Interchange Format，JPEG文件交换格式）详细说明如何从一个JPEG流，产出一个适合于电脑存储和传输（像是在互联网上）的文件。在普遍的用法，当有人称呼一个"JPEG文件"，一般而言他是意指一个JFIF文件，或有时候是一个Exif JPEG文件。然而，也有其他以JPEG为基础的文件格式，像是JNG。

使用JPEG格式压缩的图片文件一般也被称为JPEG Files，最普遍被使用的扩展名格式为.jpg，其他常用的扩展名还包括.jpeg、.jpe、.jfif以及.jif。JPEG格式的数据也能被嵌进其他类型的文件格式中，像是TIFF类型的文件格式。

JPEG/JFIF是万维网（World Wide Web）上最普遍的被用来存储和传输照片的格式。它并不适合于线条绘图（drawing）和其他文字或图标（iconic）的图形，因为它的压缩方法用在这些类型的图形上，得到的结果并不好（PNG和GIF格式通常是用来存储这类的图形；GIF每个像素只有8比特，并不很适合于存储彩色照片，PNG可以无损地存储照片，但是文件太大的缺点让它不太适合在网络上传输）。

对于JFIF的MIME媒体类型是image/jpeg（定义于RFC 1341）。

JPEG
由左至右，相继以更高压缩率压缩的相片。
扩展名	.jpeg, .jpg, .jpe .jfif, .jfi, .jif（容器）
互联网媒体类型	image/jpeg
类型代码	JPEG
统一类型标识	public.jpeg
开发者	Joint Photographic Experts Group

编码

在JPEG标准中这个选项大多都是很少使用。当应用到一个拥有每个像素24位（24 bits per pixel，红、蓝、绿各有八比特）的输入时，这边只有针对更多普遍编码方法之一的简洁描述。这个特定的选择是一种有损数据压缩方法。

色彩空间转换

首先，图像由RGB（红绿蓝）转换为一种称为YUV的不同色彩空间。这与模拟PAL彩色电视传输所使用的色彩空间相似，但是更类似于MAC电视传输系统运作的方式。但不是模拟NTSC，模拟NTSC使用的是YIQ色彩空间。

Y成份表示一个像素的亮度
U和V成份一起表示色调与饱和度。

YUV分量可以由PAL制系统中归一化（经过伽马校正）的R',G',B'经过下面的计算得到：

Y=0.299R'+0.587G'+0.114B'
U=-0.147R'-0.289G'+0.436B'
V=0.615R'-0.515G'-0.100B'

这种编码系统非常有用，因为人类的眼睛对于亮度差异的敏感度高于色彩变化。使用这种知识，编码器（encoder）可以被设计得更有效率地压缩图像。

缩减取样（Downsampling）

上面所作的转换使下一步骤变为可能，也就是减少U和V的成份（称为"缩减取样"或"色度抽样"（chroma subsampling）。在JPEG上这种缩减取样的比例可以是4:4:4（无缩减取样），4:2:2（在水平方向2的倍数中取一个），以及最普遍的4:2:0（在水平和垂直方向2的倍数中取一个）。对于压缩过程的剩余部份，Y、U、和V都是以非常类似的方式来个别地处理。

离散余弦变换（Discrete cosine transform）

以8-比特灰阶所显示的8x8子图像

下一步，将图像中的每个成份（Y, U, V）生成三个区域，每一个区域再划分成如瓷砖般排列的一个个的8×8子区域，每一子区域使用二维的离散余弦变换（DCT）转换到频率空间。

如果有一个如这样的8×8的8-比特（0~255）子区域：

接着推移128，使其范围变为 -128~127，得到结果为

且接着使用离散余弦变换，和舍位取最接近的整数，得到结果为

左上角之相当大的数值称为DC系数（直流系数）；其他63个值称为AC系数（交流系数）。下面将对所有8×8表格中的DC系数使用差分编码，对AC系数使用进程编码。

量化（Quantization）

人类眼睛在一个相对大范围区域，辨别亮度上细微差异是相当的好，但是在一个高频率亮度变动之确切强度的分辨上，却不是如此地好。这个事实让我们能在高频率成份上极佳地降低信息的数量。简单地把频率领域上每个成份，除以一个对于该成份的常数就可完成，且接着舍位取最接近的整数。这是整个过程中的主要有损运算。以这个结果而言，经常会把很多更高频率的成份舍位成为接近0，且剩下很多会变成小的正或负数。

一个普遍的量化矩阵是：

使用这个量化矩阵与前面所得到的DCT系数矩阵，得到结果为：

举个例子，使用−415（DC系数）且舍位得到最接近的整数

熵编码技术（entropy coding）

Z字体扫描矩阵的顺序

熵编码是无损数据压缩的一个特别形式。它牵涉到将图像成份以Z字体（zigzag）排列，把相似频率组群在一起（矩阵中往左上方向是越低频率之系数，往右下较方向是较高频率之系数），插入长度编码的零，且接着对剩下的使用霍夫曼编码。 JPEG标准也允许（但是并不要求）在数学上优于霍夫曼编码的算术编码之使用。然而，这个特色几乎很少被使用，因为它被专利所涵盖，且它相较于霍夫曼编码在编码和解码上会更慢。使用算术编码一般会让文件更小约5%。

对于前者量化的系数所作的Z字体串行会是：

−26, −3, 0, −3, −3, −6, 2, −4, 1 −4, 1, 1, 5, 1, 2, −1, 1, −1, 2, 0, 0, 0, 0, 0, −1, −1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

当剩下的所有系数都是零，对于过早退出的串行，JPEG有一个特别的霍夫曼编码用词。使用这个特殊的编码用词，EOB，该串行变为

−26, −3, 0, −3, −3, −6, 2, −4, 1 −4, 1, 1, 5, 1, 2, −1, 1, −1, 2, 0, 0, 0, 0, 0, −1, −1, EOB

压缩比率与不自然痕迹（artifact）

有损压缩导致的人为现象（上）与原图（下），200%放大

按：artifact在这个领域又被解释为膺像、非自然信号、人为现象。

在量化阶段时，依照除数的不同，会使结果的压缩比率可能有很多变化。10:1通常可得到无法使用肉眼分辨与原图差异的图像。100:1压缩通常是可行的，但与原图相较，会看出明显的不自然痕迹。压缩的适当等级是依据要压缩那一种图像而定。

使用万维网的人，可能熟悉这种出现在JPEG数字图像，已知压缩人为现象的不规则现象。这是由于JPEG算法的量化步骤所造成的结果。这种现象在脸部照片中的眼睛四周特别明显。他们可以借由选择压缩的较低水平（使用较低的压缩率）来减少这种现象；他们可能借由使用无损文件格式来存储一个图像来消除这种现象，然而针对照片图像，这样通常会使文件大小增加。

解码

解码来显示图像，包含反向作以上所有的过程

取DCT系数矩阵（在把DC系数差异加回去之后）

且以前面的量化矩阵乘以它，得到

左上角的部份与原本DCT系数矩阵非常接近地相似。使用反向DCT得到一个有数值的图像（仍然被移位128）

且对每一个项目加上128

这是解压缩的子图像，且可以被用来与原本子图像相比（也可以看右方的图像），借由取两者之间的差异（原本—解压缩）得到误差值。

每个像素大约是5的平均绝对误差，也就是说，。误差在左下角显而易见，左下方的像素变得比它邻近右方的像素还更暗。

注意原来（左）与解压缩图像（右）的些微差异，在左下角可以轻易地看出来

用法

JPEG在色调及颜色平滑变化的相片或是写实绘画（painting）上可以达到它最佳的效果。在这种情况下，它通常比完全无损方法作得更好，仍然可以产生非常好看的图像（事实上它会比其他一般的方法像是GIF产生更高质量的图像，因为GIF对于线条绘画（drawing）和图标的图形是无损，但针对全彩图像则需要极困难的量化）。

照片

JPEG压缩的不自然现象可以很好地调和到细微非均匀材质的相片中，因此允许得到更高的压缩率。

低质量 (10%)，文件大小为1.7 KB.

中等质量 (50%)，文件大小为5.7 KB.

最高质量 (100%)，文件大小为36 KB.

附注：以上的图像并不是IEEE/CCIR/EBU测试图像，且压缩编码器的设置并没有指明或是可以得到。

中等质量的相片只有六分之一的存储空间，但是几乎没有明显的细节损失或是看得到的人为效果。然而，一旦超过一个某整的压缩限度，压缩的图像逐渐地显现出可以看得到的瑕疵。参考比率有损理论（rate distortion theory）的文章有针对这种限度效果的数学上之解释。

医学图像：少见的JPEG 12位支持模式

有很多医学的图像系统可以创建和处理12位JPEG图像。12位JPEG格式已经是JPEG规格的一部份，但是非常少商业软件程序（或网页浏览器）支持这种不常使用的JPEG格式。

其他有损压缩的编码格式

更新的有损方法，尤其是小波压缩（wavelet compression），在这些情况下甚至能作得更好。然而，JPEG是一种创建得相当好的标准，拥有很多可使用的软件，包含自由软件，因此到2005年它持续被大量使用。很多小波算法受到专利保护，要在很多软件项目中自由地使用他们是困难或是不可能的。

JPEG委员会现在也已经创建其自有的小波基础标准－JPEG 2000，希望最终能取代原来的JPEG标准。

潜在的专利争议

在2002年 Forgent Networks主张他拥有且将会履行在JPEG技术上的专利权，起因于一个在1986年已经被归档的专利。（美国专利 4,698,672）。这个公告已经引起一阵大骚动，令人想起Unisys试图主张对于GIF图像压缩标准的权利。

JPEG委员会审慎调查这个在2002年所主张的专利，且发现他们因为前案而无效作废。其他的也已推断Forgent并无拥有涵盖JPEG的专利。尽管如此，在2002年和2004年之间，Forgent借由把他们的专利授权给某些30家公司，而获得大约9千万美金。在2004年4月，Forgent控告31家其他公司来强求更多的授权支付。同年的七月，21家较大的电脑公司组成的协会提出反控告，包含使该专利无效的目标。然而，到2005年7月的时候，这场官司仍然持续中。

JPEG委员会在他的明确目标中有一项，是他们的标准在不支付授权金之下是可以被实现的，且他们已从超过20个大型组织中，得到适当的授权权利给他们即将到来的JPEG 2000标准。

2006年11月，专利案结束

经过数年的纠缠，JPEG专利持有者Forgent Networks终于与30家PC厂商结束了侵权官司，代价是PC厂商向Forgent赔款800万美元，而不是Forgent期望的1亿美元。在与PC厂商大打官司之前，Forgent已经与60多家公司和解，获得的专利费用总额高达1.1亿美元。包括雅虎在内的45家PC厂商拒绝就4698672号专利问题和解，而是选择了对簿公堂，不过其中15家在此之前已经与Forgent和解。

虽然还是赔了款，但PC厂商们并没有输掉官司；虽然没能得到自己想要的大笔美金，Forgent也没有彻底失败。在非盈利性组织美国公共专利基金会(PPF)的协助下，他们设法获得了美国专利和商标局(USPTO)的认可，对Forgent专利的有效性在2月和6月两次重新进行了鉴定，最终法庭限制了Forgent专利的应用范围。而从另一方面看，Forgent的专利也得到了一定的维护，这要比被彻底推翻好得多，Forgent也表示对结果感到很满意。

Forgent CEO Richard Snyder称：“在'672专利的有效期内，我们已经获得了1.1亿多美元。很快，Forgent还会再次有所行动。我们的精力现在已经转移到'746专利上，并等待2007年5月的陪审团裁决，同时我们还会继续促进(分公司)NetSimplicity的软件业务。”

无损耗旋转 (lossless JPEG rotation)

虽然任何对JPEG图像的处理都有可能导致因为解压后再压缩而引起的损耗，然而，对于简单的旋转动作，数学上是可以有办法使图像得以旋转而无损图像本身的数据。也就是说，有一种方法可以在无需把图像解压后才可以旋转。这是因为JPEG的文件格式本身是以一个个模块为单位来压缩，所以，只需要把模块重排，再对每个模块旋转，就可以达至无损耗的旋转。

目前只有少数绘图软件支持无损耗旋转，但需要用户在操作上加以注意。例如：在Adobe Photoshop里，用户若要作无损耗旋转前，必须在加载图像之后立刻用“Save As...”功能存储一个备份。然后当图像旋转过后，由于Photoshop已掌握了图像的基本数据，所以在存储时得以使用原来的设置。若没有做事先存储，Photoshop就会把旋转后的图像重新计算各项参数，并重新对图像进行压缩处理。这样就会造成数据的损耗。

压缩标准

JPEG是由国际标准组织（ISO）和国际电话电报咨询委员会（CCITT）为静态图像所创建的第一个国际数字图像压缩标准，也是至今一直在使用的、应用最广的图像压缩标准。JPEG由于可以提供有损压缩，因此压缩比可以达到其他传统压缩算法无法比拟的程度。

JPEG的压缩模式有以下几种：

　顺序式编码（Sequential Encoding）

　一次将图像由左到右、由上到下顺序处理。

　递增式编码（Progressive Encoding）

　当图像传输的时间较长时，可将图像分数次处理，以从模糊到清晰的方式来传送图像（效果类似GIF在网络上的传输）。

　无有损编码（Lossless Encoding）
　阶梯式编码（Hierarchical Encoding）

　图像以数种分辨率来压缩，其目的是为了让具有高分辨率的图像也可以在较低分辨率的设备上显示。

在Independent JPEG Group所提供的源码上，有jpegtran程序，就提供了优化Huffman，转成渐进式，镜射，旋转这些无损耗转换。

视觉技术

JPEG

JPEG

编码

色彩空间转换

缩减取样（Downsampling）

离散余弦变换（Discrete cosine transform）

量化（Quantization）

熵编码技术（entropy coding）

压缩比率与不自然痕迹（artifact）

解码

用法

照片

医学图像：少见的JPEG 12位支持模式

其他有损压缩的编码格式

潜在的专利争议

2006年11月，专利案结束

无损耗旋转 (lossless JPEG rotation)

压缩标准