多媒體影音壓縮系統

多媒體影音壓縮系統多媒體包含音響、語音、影像及視訊等四種訊號,早期都以類比(analog)方式儲存與傳輸。隨著生活水準提升與科技進步,人們期望高音質及高畫質多媒體訊號的服務也愈益殷切,由於數位(digital)多媒體易儲存、處理、傳輸,也較能避免雜訊的干擾,因而數位影像與聲音的娛樂產品在近幾年迅速發展。然而多媒體需求量的提升,卻造成網路及記憶體的頻寬及容量嚴重不足,因此數位多媒體的壓縮技術及其系統標準,就成為多媒體應用的關鍵技術。

國際標準組織(簡稱 ISO)的動態影像專家協會(Motion Picture Expert Group,簡稱 MPEG)及國際電信組織(International Telecommunication Unit,簡稱 ITU),在 1992 年制定了全世界多媒體壓縮的標準 MPEG?1。它是影音光碟機 VCD 使用的規格,內容包括系統、影像壓縮標準與聲音壓縮標準三個部分。從 MPEG?1 的規格上來看,壓縮視訊的位元率從原來的 168 Mbps 壓縮至 1.5 Mbps,雙聲道音響壓縮的位元率從原來的 1,542 kbps 壓縮至 128 kbps。

1995 年後 ISO 又制定了 MPEG?2 標準,MPEG?2 影像資料解析度的品質比 MPEG?1 好很多,聲音資料從 MPEG?1 的兩聲道立體聲,提升至 5.1 聲道以上,目前影音光碟機 DVD 及數位電視就是採用 MPEG?2 的影像壓縮標準。以下介紹 MPEG 及 ITU 對音響、語音、影像及視訊四種訊號的壓縮技術。

音響壓縮技術

以音響來說,從早期的黑膠唱片、磁帶、光碟到 DVD,儲存裝置日新月異,不過怎樣才能在有限的空間中放入更多的資料,而又能完整地還原資料,變成一個迫切需要解決的問題,因此促使了音訊資料的壓縮標準不斷地制定與實現。例如 MPEG?1 第三層音響標準(MPEG?1 Layer?3,簡稱 MP3),就是目前應用相當廣泛的音樂壓縮格式。

一般的感知式音響編碼器的架構,包含了心理音響模型的分析、訊號的時頻轉換分析、量化及位元配置和無失真編碼等基本架構。音響編碼首先把時域的聲音訊號轉換成頻域的訊號,再藉由心理音響分析計算出人類耳朵允許的頻域量化誤差。在量化時,根據量化誤差曲線做適當的位元分配,最後再以無失真編碼壓縮量化後的頻譜係數。因此在一般的感知式音訊編碼中,心理音響分析決定了整個音訊壓縮的品質。

目前 MPEG?4 進階音樂編碼(Advanced Audio Coding,簡稱 AAC),是MPEG組織發展出的最新標準,可提供多聲道和高品質的環場音效。AAC 編碼器捨棄與 MP3 的相容性以改善編碼的效率,它的壓縮架構主要是根據 MP3 的架構,另外增加新的壓縮機制,因而在高壓縮率時能維持聲音的音質。根據 MPEG 官方測試,96 kbps AAC 與 128 kbps MP3 擁有等效的聲音品質。

媒體業者及學術單位早已注意到 AAC 的興起,目前許多電腦上的音樂播放軟體,都標榜著支援 AAC 格式的音樂,並隨機提供 CD 音樂轉成 AAC 或 MP3 格式的軟體,可見 AAC 可能會持續 MP3 所造成的風潮,成為主流的音樂壓縮標準。MP3 雖然造福了無數的音樂愛好者,但在著作權的規範上,卻對唱片業界與音樂界帶來相當大的衝擊。目前唱片業者與學術界已計劃進行技術合作,希望能以 AAC 音訊壓縮格式為基礎,發展出有認證功能,可以保障智慧財產權的新音樂格式。

語音壓縮技術

語音壓縮以目前手機及錄音筆的應用較為常見,隨著網際網路的普及,透過 SKYPE 與 MSN 網路電話聯絡親友的方式也漸風行。這些手機、錄音筆和網路電話系統,都架構在語音壓縮技術上。一般未壓縮的數位語音信號以 8 kHz 與 16 位元為主,它的資料量是 128 kbps,為達到高效率傳送與儲存,語音信號壓縮也相當重要。

高效率的語音壓縮技術,以結合線性預測編碼及向量量化技術的碼激式線性預測編碼為主要架構。6.7 kbit/s 的 VSELP 標準編碼器及 13 kbit/s 的歐洲 GSM 編碼器,就是為了手機的應用而發展的。

ITU 另制定了適合數位語音通訊的新標準 5.3/6.3 kbps 的 G.723.1 和 8 kbps G.729 語音編碼器,微軟作業系統所內建的網路會議應用軟體 NetMeeting就採用 G.723.1,而許多網路電話採用 G.729,因為它的壓縮聲音品質略勝 G.723.1,已接近一般電話的音質。

語音的壓縮依人類的發音模式設計,人類發音的過程由肺部收縮排出空氣產生激發訊號,氣流進入口腔形成共振進而產生不同的音色,最後再經由嘴唇發射出去產生聲音。

以 G.729 語音壓縮標準為例,語音壓縮器先把語音信號按 80 點分割為一音框,又把音框分割成兩個子音框,各為 4 0點。G.729 以音框及子音框為單位做壓縮運算,而每音框都要求須取發音模式參數,分別是口腔共振參數、長程激發參數、以及隨機激發信號。對照發音模式,口腔共振參數是人類口腔模式,激發長程參數代表肺部氣流周期的特性,隨機激發信號就如同肺部收縮排出空氣是發聲的激發源。

CELP 編碼器首先利用線性預測方式求出人類口腔模式,再搜尋語音周期的特性。藉由搜尋碼簿,經感覺加權濾波器後,比較合成語音與原始語音,以求得最佳合成語音的參數,並把所得參數做量化及排列,就可完成語音壓縮。

解壓縮架構則是從壓縮數據中取得各項參數,並把參數選定的固定碼簿和適應性碼簿的向量分別乘上各自的增益,再送入口腔模式濾波器,就可完成語音的解壓縮。

影像壓縮技術

呈現於電腦上或數位相機上的圖片,統稱為數位影像。一張原始的 640 × 480 畫素的全彩數位影像,它的檔案會占 640 × 480 × 3 × 8 = 7,372,800 位元的空間,其中乘數 3 表示光的三原色:紅、綠及藍,乘數 8 表示一個原色可以用 8 個位元來表示原色的彩度。數位影像未經壓縮,它的資料量是相當可觀的。

目前影像壓縮有兩種標準格式可供選擇,由 ITU 以 ISO 的聯合影像專家群(Joint Picture Expert Group,簡稱 JPEG)在 1992 年所頒布的 JPEG 影像壓縮標準,以及在 2000 年所訂定的 JPEG2000 標準。現今,儲存於電腦以 JPG 為副檔名的數位影像資料,就是以 JPEG 標準壓縮而成的,若是以 J2K 為副檔名的數位影像資料,則是以 JPEG2000 標準壓縮而成的。

JPEG 壓縮

JPEG 壓縮方法一開始時,必須先把影像資料分割成一塊塊 8 × 8 畫素大小的方塊,接著根據上面提過的基本壓縮流程,依序進行各個方塊的離散餘弦轉換、量化。比較不同的是,在量化過後,影像資料必須分成兩類,低頻的係數做差分編碼,高頻的係數則進行可變長度編碼,最後送出的就是壓縮完成後只以 0 與 1 表示的數位資料串。

壓縮過後的資料並不能像一般影像可以直接欣賞,必須經過解壓縮過程,才可把原本只是 0 和 1 組成的資料串還原成一張完整的影像。目前普遍裝設在電腦上的看圖軟體 ACDSee,就是一種可以用來解 JPEG 壓縮檔案的軟體。

JPEG 壓縮系統的主要流程:(1)針對尚未做任何處理的原始數位影像,把原本以三原色:紅(R)、綠(G)、藍(B)表示的每一個畫素值,利用公式轉換成以明亮度(Y)與色度(U、V)表示的方式,再利用人眼對明亮程度較色彩程度敏感的特性做色度的減量。(2)把影像切割成一塊塊 8 × 8 畫素大小的方塊,方便下一步驟的處理。(3)一次對一個方塊進行離散餘弦轉換,這個步驟會使大多數的畫素值轉換成 0 或接近於 0,如此可以再次對一些多餘的資料做縮減。(4)量化的主要目的是減少上面已做過資料削減的影像資料傳輸量,而這個步驟是直接對資料進行削減的動作,因此會造成部分資料的損失而無法還原。(5)利用係數掃描把量化過後的係數分成兩類,低頻類的係數做差分編碼,高頻類的係數則做變動長度編碼,目的是針對不同類係數的特性再做資料縮減的動作。(6)最後一步是把量化後的影像資料,用出現機率來分配影像資料應該給予多少位元個數來表示,出現機率較高的分配較少位元個數,資料出現機率較低的分配較長的位元個數,藉由這個步驟削減最後輸出的影像資料傳輸量,我們稱這個方法為 Entropy 編碼。在這裡採用的是由科學家霍夫曼發明的演算法,因此也稱霍夫曼編碼。(7)影像壓縮完成後,送出的是只以 0 與 1 構成的資料串。

JPEG 解壓縮系統的主要流程:(1)解碼的第一步,是把壓縮過的資料串數據,透過霍夫曼解碼解出霍夫曼編碼前的資料值,解回的資料可以完全還原而沒有資料流失的問題。(2)反量化可把壓縮過程中做過量化的資料還原為未做量化前的數值,但是因為在量化過程中,可能會有一些數據被忽略掉,因此在尚未壓縮前的資料並無法完全從反量化中還原回來。(3)一次對一個方塊做反離散餘弦轉換,這個步驟會使在壓縮過程中使用離散餘弦轉換的資料,還原回尚未做轉換前的數值。把還原後一塊塊 8 × 8 大小畫素的方塊,重新排列成原圖大小,並把用明亮程度和色彩程度表示的畫素值還原為以紅、綠、藍三原色的表示方式。(4)影像還原。

JPEG2000 壓縮

JPEG2000 壓縮系統架構使用的是小波轉換方式,與離散餘弦轉換的觀念完全不同,它採用多重解析度編碼的方式,也就是把資料分成不同頻帶的做法。
小波轉換的主要目的是把圖像頻率的成分抽取出來,用以做為分層處理。分層處理過後,把不同頻率的資料用最佳化的排序再做量化,最後一樣要做前述的 Entropy 編碼,把資訊以出現頻率的多寡做為決定壓縮編碼位元數的準則,就可完成整個JPEG2000標準的壓縮程序。JPEG2000 的解壓縮系統,與 JPEG 一樣是壓縮的反向流程,並無特殊的地方,就不在這裡多做敘述。

JPEG2000 壓縮系統的主要流程:(1)針對尚未做任何處理的原始數位影像,把原本以三原色:紅(R)、綠(G)、藍(B)表示的每一個畫素值,利用公式轉換成以明亮度(Y)與色度(U、V)表示的方式,再利用人眼對明亮程度較色彩程度敏感的特性做色度的減量。(2)小波轉換是一種多重解析度編碼的方式,也就是把資料分成不同頻率帶的做法,大致會把頻率帶區分為低頻與高頻。而小波轉換的主要目的是把圖像頻率的成分抽取出來,用作分層處理使用。(3)分層處理過後,把不同頻率帶的係數資料掃描並排列好順序。(4)用量化進一步減少上面已做過資料削減的影像資料傳輸量,因為是直接對資料進行削減的動作,所以會造成部分資料的損失而無法還原。此外,JPEG2000 多了一個針對頻帶重要性可以調整壓縮程度的機制,以讓整個壓縮的效果保持一定的水準。(5)把量化後的影像資料,按出現機率高低的規則,來分配影像資料應該給予多少位元個數,出現機率較高者分配較少位元個數,資料出現機率較低者則分配較長的位元個數,這種做法平均會使位元使用的數目下降,我們稱這個方法為 Entropy 符號化編碼。(6)影像壓縮完成後,送出的是只以 0 與 1 構成的資料串。

JPEG2000 解壓縮系統的主要流程:(1)解碼的第一步,是把壓縮過的資料串數據,透過 Entropy 解碼解出 Entropy 符號化前的資料值,解回的資料可以完全還原而沒有資料流失的問題。(2)反量化可把壓檔過程中做過量化的資料還原為未做量化前的數值,但是因為在量化過程中,可能會有一些數據被忽略掉,因此在尚未壓縮前的資料並無法完全從反量化中還原回來。(3)這個步驟會使在壓縮過程中使用小波轉換的資料,還原回尚未做轉換前的數值。(4)把還原後一塊塊 8 × 8 大小畫素的方塊,重新排列成原圖大小,並把用明亮程度和色彩程度表示的畫素值還原為以紅、綠、藍三原色的表示方式。(5)影像還原。

比較 JPEG 與 JPEG2000 的優劣,可得下列結論:(1)在相同的畫質下,JPEG2000 的壓縮率比 JPEG 的提高了約 30%;(2)JPEG2000 提供所謂「特感興趣區」的特殊功能,使用者可以任意圈選影像上感興趣的區域而提高壓縮品質;(3)JPEG2000 同時提供無失真壓縮與失真壓縮,JPEG 卻只有失真壓縮,因此 JPEG2000 是非常適合處理高品質與重要影像的壓縮方法。

視訊壓縮技術

利用人眼視覺暫留的特性,快速播放連續的靜態影像,造成畫面本身在動的錯覺,正是視訊播放的基本原理。視訊資料是由一個個連續畫面所構成的,數位視訊資料若以 JPEG 影像的方式一張一張地儲存,會占太大的空間。由於連續兩個畫面的內容往往相差無幾,因此在儲存上,只需記錄其中的不同點。減少時間累贅特性,充分利用畫面在各時間重複特性的視訊壓縮,是設計更好視訊壓縮技術的有效方法。

MPEG 是目前較受歡迎的一種壓縮格式。它以影像資料常用的「離散餘弦轉換」壓縮技術為基礎,配合視訊畫面前後參照的方法達到了高壓縮比率,同時也保有良好的畫面品質。其中畫面前後參照的方法以區塊動態補償為主,為了有效描述動態訊息,畫面被切成區塊,以區塊為單位來比較,以去除時間重複。區塊動態補償後,如 JPEG 影像壓縮,也可利用離散餘弦轉換技術再去除空間累贅。

第一代的標準 MPEG?1 制定於西元 1992 年,原始目標解析度是每秒 30 張非交錯式掃描的 352 × 240 畫面,或每秒 25 張非交錯式掃描的 352 × 288 畫面,位元率約為 1.2 Mbit/s。目前使用的 VCD 影片的視訊壓縮,就是採用了 MPEG?1 技術。ISO MPEG 於 1994 年推出的MPEG?2,採用了較新的壓縮技術,支援交錯式掃描,並在系統可靠度及影音質量上都有突破。目前使用的 DVD 影片的視訊壓縮,就是採用 MPEG?2 技術。

MPEG?2 與 MPEG?1 主要的不同在於:(1)MPEG?2可接受不同長寬比;(2)MPEG?2 採用半像素的動態補償;(3)MPEG?2 支援交錯式掃描;(4)MPEG?2 的位元率最高達 30 Mbits/s;(5)有低頻預測。

1998 年推出第三代的 MPEG?4 標準的功能與進步在於:(1)MPEG?4 支援到四分之一像素的動態補償;(2)從原本 16 × 16 的區塊進一步支援 8 × 8 大小的區塊;(3)不只支援低頻預測,且支援高頻預測;(4)以視訊的內容資訊來編碼視訊物件;(5)可把影像編程漸進式傳送;(6)配合不同的頻寬與媒體(5 K ~ 270 Mbps)編碼多媒體資訊;(7)互動性。

目前最新的視訊壓縮標準是 H.264/AVC,屬於 MPEG?4 標準的第 10 部分,壓縮效能比 MPEG?4 要好將近一倍,主要的不同在於:(1)以空間預測來改良框內編碼;(2)1/4 與 1/8 精確度的動態搜尋;(3)用來做動態估計有七種不同大小,16 × 16、16 × 8、8 × 16、8 × 8、8 × 4、4 × 8 及 4 × 4 的區塊;(4)做動態估計時可以有多張參考影像;(5)對 4 × 4 的區塊做整數轉換;(6)只有一組 VLC 表來編碼及搭配內涵適應 VLC 無失真編碼;(7)內涵適應二位算術編碼的使用。

數位多媒體(音響、語音、影像及視訊)訊號壓縮標準,提供全世界共通音訊及影像的服務,隨著壓縮技術的進步,計算複雜度也相對提高。然而 IC 技術及記憶體容量的提升,也提高了高音質及高畫質數位多媒體訊號服務的可行性,未來使用新一代的多媒體音響、語音、影像及視訊訊號壓縮標準的產品,也會越來越精緻。

隨著整合影像與聲音的家電及娛樂產品的發展,以及價廉物美液晶 LCD 螢幕的普遍,高畫質電視 HDTV、高畫質 HD-DVD、及行動電視服務會是下一波家電產品的主流。因此,數位多媒體的壓縮技術及其系統標準的研究與實現,對於國內多媒體產業的發展將有關鍵性影響。