多媒體影音傳輸系統

多媒體影音傳輸系統日本 NTT DoCoMo 的 i?Mode 使用者,透過行動手持裝置(行動電話和 PDA)與網際網路連結,就能隨時隨地取得豐富的網路資訊,例如即時數位新聞報、即時股匯市、強調即時數位資訊查詢的個人化行動祕書,以及結合衛星定位的全球衛星導航系統而發展的旅遊導覽、行動購物、全球地理資訊系統等。這些服務都是受人注目且日漸成熟的即時個人化行動式多媒體資訊與影音的應用,也充分顯示了行動網路的魅力。

一套多媒體資訊傳輸系統包含了多種不同型態的媒體,如文字、影像、圖形、聲音和視訊。依照不同的特性,這些媒體可以分為幾類型態。以時間特性來看,可分為連續媒體和靜態媒體。連續媒體就是所謂影音資訊,其內容的時間特色具有連續性,例如每秒播出 15 到 30 個畫面或音訊 ,否則播放時會感覺不連續。

連續媒體的概念可用卡通動畫來表示,卡通影片的原理和電影類似,都是利用人類眼睛的「視覺暫留」現象,以每秒播放 24 畫格方式來呈現出連續動態的效果。以 1 秒鐘要畫 24 張圖片,一部 10 分鐘的卡通短片而言,就需要繪製超過 1 萬張的圖片。

靜態媒體播放內容的時間並不連續,它的時間屬性是人工設定的,如某一段文字、影像或圖形在某個多媒體展現時,播放時間是 10 秒。靜態媒體的概念可用幻燈片來表示,幻燈片通常會設定固定的播放時間,在固定的時間內,畫面並無變化,即媒體內容的時間特色是靜態的。

典型的多媒體傳輸系統的伺服器—用戶端架構(伺服器是指執行管理軟體的電腦,可以控制網路的存取及使用的資源,提供網路上使用者所需的檔案或印表機等服務),包括伺服器端編碼和傳送影音資料,以及用戶端解碼並撥放影音。在一般的網路環境中,連續媒體可以容忍部分內容的傳送遺失或錯誤,如視訊和聲音,仍不太影響它的播放品質。靜態媒體卻必須百分之百傳送正確,如文字和圖形,否則它的內容就會出現錯誤。

以連續媒體的卡通動畫來說,如果在網路傳輸時,因為網路傳輸品質不穩定,導致資料傳輸遺失或錯誤,原來每秒播放 24 畫格的卡通掉了 3 或 4 個畫格,在人類眼睛的「視覺暫留」特性下,大多數人無法看出明顯的品質下降,只是部分畫面會有不連續感。以靜態媒體的幻燈片來說,如果在網路傳輸時,因為網路傳輸品質不穩定,導致資料傳輸遺失或錯誤,原來每分鐘播放 6 張的幻燈片掉了 1 或 2 張,它的內容差異就很大,可能會導致觀眾無法理解媒體的內容或主題。

多媒體網路傳輸系統由於這些特性,加上每種媒體的資料大小差異很大,所需要的計算需求也大不相同。因此如何在多媒體播放的過程中,展現出高品質的相關資料,是多媒體傳輸系統和技術研發的重要課題。

多媒體系統的展現環境可以非常多樣化,如集中式的單機環境和主從架構的分散式環境(在主從式網路架構下,有一臺或多臺的伺服器集中管理所有資源,並處理用戶端所提出的要求)。在一般狀況下,這些媒體資料基本上是存放在同一部伺服器中,如實驗室的主機房等。但在未來,由於多媒體電子書和文件的逐漸盛行,這些媒體伺服器會放在不同的地點。也就是說,各類型的媒體是各自放在相關的媒體伺服器中,如文字伺服器、影像伺服器、圖形伺服器、聲音伺服器和視訊伺服器。

例如一套多媒體電子書,作者不可能原創所有的視訊、聲音、影像和圖形,因此書中的內容有些是作者自己製作攝錄的,但也有許多是向不同的視訊資料庫、聲音資料庫和影像資料庫租借的。而由於所有權的問題及資料量太大的考量,這些視訊、聲音、影像和圖形仍是存在相關媒體庫的伺服器中,分別存放在不同地點。

因此,一個多媒體的展現便會涉及到許多地理上分離的多重媒體伺服器。在這種情形下,如何在多媒體展現的時間軸上,依劇本平順地展現所有的資料,就必須整合相當多的關鍵技術。

多媒體同步控制

為了提供使用者較高的服務品質和較平順的播出效果,在多媒體展現時最基本要解決的問題便是所謂的同步問題。也就是在使用者端,必須克服並補償因網際網路傳輸所造成不可預期的傳輸延遲,而導致媒體資料間的撥放延遲時間差異現象。這種針對解決時序誤差問題以符服務品質要求的控制,一般稱為同步控制。多媒體同步控制通常可以分成兩方面:媒體內和媒體間。

媒體內的同步是控制單一媒體(視訊或聲音)的播放速率,使能與原來的錄製速率相符合,讓播出的效果能平順而沒有間斷。媒體間的同步則是控制多媒體間的展現時間,例如新聞撥放中的字幕、視訊和聲音三者間的配合,使其同步撥放。

多媒體播放環境

由於一份多媒體文件包含了各種類型的資訊,而這些不同類型的資訊是取自於各自的伺服器,如文字伺服器、影像伺服器、圖形伺服器、聲音伺服器和視訊伺服器。由於各類資訊各有其特性,例如不容許錯誤的文字和容許錯誤的視訊,為了滿足對傳輸網路服務品質的需求,提高網路的傳輸效率,可以利用多個網路傳輸通道來傳遞不同性質的資訊。

問題是各個傳輸通道會有不同的流量狀況,使得在上面傳送的資料單元會受到無法事先預知的不固定延遲時間差異影響,而造成傳輸視訊和音訊資料通道間不同步現象的發生。因此必須在使用者端採取適當的同步控制策略,使得經由不同傳輸通道傳送的必須對應的資訊單元可以同步地播放,才能得到平順的播出效果。

使用者互動功能的提供

在許多多媒體應用系統中,使用者只能被動地觀看資料的播出,如果不喜歡這段資料,只能離開或選擇其他資訊,就如同收看電視一般。但若能提供倒轉、暫停-繼續、調速和跳略等類似家用錄放影機的互動功能,則可以讓使用者有更大的使用彈性,主動地掌控多媒體資訊的播放流程和速率,而不只是一個被動的資訊接收者。

雖然如此,互動功能的提供卻使得多媒體同步控制更加複雜與困難,因為無法事先預知使用者在何時會發出互動功能,以及發出的互動功能的類型和相關的需求,因此增加了許多同步控制時無法事先預知的不確定影響因素。

回饋式的控制架構

由於網際網路上的流量瞬息萬變,而且往往是不可事先預知的,因此在伺服器端送出資料時,並無法得知用戶端的接收與播放狀況,伺服器端所能做的只是依照既定的速率送出資料。而在用戶端,由於受到當時網路狀況的影響,網路資料接收緩衝區可能會不足或溢出,而造成播出時產生斷斷續續不平順的現象。

要解決這種問題,可以在伺服器端和用戶端間建立一條特殊的訊息回送通道。如此,用戶端的播放程式可以送回回饋訊息給伺服器端,告知目前的播放狀況,而伺服器端的傳送程式可依此調整傳送的速率。也就是說,藉由回饋訊息的傳送,傳送與接收的雙方可以取得一個平衡點,使得資料的傳送較有效率,播出也更為平順。另外,除了伺服器端可以改變傳送速率外,用戶端的播放程式也可以依當時實際狀況調整資料的播放速率,而不一定受限於原先的播放時程。

視訊和音訊傳輸原理

在網際網路上傳遞多媒體資料,最主要的困難在於媒體資料時間性關係的維持,也就是要保持播出速率和錄製速率的一致,才不會在播出時產生斷斷續續不平順的現象。要解決這種問題,最簡單的辦法就是把要播出的所有多媒體資料先下載到使用者端的硬碟中。但這是很不切實際的,因為下載資料可能需要數小時甚至數天的時間,同時使用者端也必須提供大容量的硬碟。除此之外,下載的多媒體也有數位版權管理的問題,版權擁有者不願意提供檔案下載,導致多媒體檔案的下載受到限制。

較有效率的解決辦法是所謂的多媒體影音串流技術(streaming)。多媒體影音串流技術的意義,是把每個要播出的資料單元先分割成許多大小適當的傳送單位(封包),再傳送到使用者端,每個封包的大小可由當時網路狀況及頻寬來決定。而在使用者端,收到足夠的資料封包後便可開始播出,同時,使用者端的播出程式也從網路上接收後續的資料封包。

這種「一邊接收(影音資料),一邊撥放」的方式,不但可以減少使用者的等待時間,更可以依服務品質的高低與網路狀況等因素,來適當調整送與收的速率,因而可提高系統的效率。

相較於一般檔案、e-mail 的傳送,多媒體影音串流傳輸的一個重要特徵是對時間的敏感性,特別強調視訊和聲音即時(real-time)的撥放展現。多媒體影音串流傳輸的品質,主要取決於網路頻寬和視訊及音訊壓縮演算法。較大的頻寬網路通常會比較小的頻寬(小於 64 Kbps)網路,得到更好的多媒體展現品質。隨著網路通訊協定的改善,以及網路基礎設施和壓縮技術的發展,多媒體影音串流傳輸的實現已經變得越來越容易了。

除此之外,多媒體影音串流傳輸也必須滿足數位版權管理的需求,使用者無法任意地複製,以保障版權擁有者的智慧財產權。例如在蘋果的線上音樂商店 iTune 出售的歌曲,用其他廠牌的 MP3 播放器就不能播放。許多其他線上音樂商店購買的歌曲,也不能用 iPod 播放,這就是一種版權保護機制。

數位視訊和聲音傳輸屬於多媒體串流傳輸。類比視訊和聲音信號經過捕獲設備轉換成數位形式後,資料量是非常驚人的,如果沒有採用壓縮技術,要實現數位視訊和聲音的網路傳輸是不可能的。另一方面,數位視訊和聲音傳輸對時間的敏感性很強,即時性要求很高,如果不採用特別的網路傳輸協定,是很難滿足要求的。因此,實現數位視訊和聲音傳輸的一般做法是,在伺服器端先把數位視訊和聲音資訊進行壓縮,使檔案變小後,經由網際網路傳輸到用戶端,再經過解壓縮以顯示或播放視訊和聲音內容。

目前已發展和正在發展的數位視訊和音訊壓縮技術有很多種,不同的壓縮技術有不同的重點,以適應不同的應用。這些壓縮技術中有的已經標準化,但還有很多並沒有標準化。

壓縮技術標準主要是由 MPEG(Moving Picture Expert Group)和 ITU?T(國際電訊聯盟)這二個組織所制定的,常見已經標準化的壓縮技術有 MPEG?1、MPEG?2、MPEG?4、H.261/H.263 等。以 MPEG 為例,可以根據視訊資料產生的方式,把畫面分成 I/P/B 三種畫面類型,不同的畫面類型會影響到壓縮效率和畫面品質。

MPEG 定義了三種畫面壓縮模式:I畫面、P畫面及B畫面。I畫面僅使用本身的資料,經量化步驟先把人眼對於視訊資料不敏感的部分捨棄後,再進行編碼,沒有參考其他畫面的資料。因此在解碼時,I畫面可以做為解碼畫面群(通常以每秒30張畫面為單位)的第一張畫面,不需要參考其他畫面的資料就可以單獨進行解碼。

I畫面:由於I畫面是一視訊序列或一畫面群組的第一張,隨後在畫面群組裡的P畫面與B畫面都會參考到它的資料,才能夠進行解碼撥放,所以在網路傳輸時需要特別避免I畫面資料的遺失,以免造成隨後畫面影像品質的損害。相較於P或B畫面,I畫面的編碼是獨立的,沒有考量到多張視訊畫面間的相關性,無法捨棄視訊在時間軸上的多餘資料,因此壓縮率較差。

P畫面:P畫面在編碼時,會考慮視訊畫面間的相關性,也就是僅針對與前面畫面的差異部分和畫面間物體的移動向量進行壓縮,因此壓縮比率較I畫面的高。解碼時,P畫面須使用到參考畫面的資料,這些參考畫面是前面較早播放的I畫面或P畫面。一般而言,P畫面呈現的畫面品質會較I畫面差。

B畫面:B畫面在編碼時和P畫面一樣,會考慮視訊畫面間的相關性,更進一步針對與前面/後面(雙向)畫面的差異部分和畫面間物體的移動向量進行壓縮。相較於P畫面,能夠捨棄更多在時間軸上的多餘資料,擁有最高的編碼效率,本身不再做為其他預測編碼用。在解碼時,B畫面會使用到前面及後面兩個方向參考畫面的資料。

這三類的畫面在畫面群中並沒有一定的安排次序,但是排列方式會影響視訊壓縮效率與隨機處理的能力。例如一部影片的畫面群畫面型式是 IBBPBBP…… 跟另一部影片的畫面群畫面型式是 IPPPPP…… 的壓縮效率就有所不同,前者的壓縮效率較高,因為它主要是由B畫面所組成的,而B畫面比P畫面有較高的壓縮效率。

在多媒體影音串流傳輸技術方面,主要的考量是如何能隨著網路狀況增加或減少資料傳輸量,以降低因網路擁塞所造成封包遺失的機會。然而這種對應的關係,必須把網路中每一個端點間的總流量比例及媒體的特性納入考量。

根據目前的網路狀態,如傳輸速率、傳遞延遲等變異因子,在網路允許的傳輸頻寬與媒體的傳輸資料量間做一對應的動作,以確保在不增加網路負荷的情形下,輸出最大的資料量。利用網路狀態計算機制來分析網路狀況,之後再由速率控制機制決定傳送的速率,並利用這速率來調整傳送的資料量。

以 MPEG?1 壓縮過的視訊網路傳輸為例,可以採用降低每秒所需播放的畫面數目來降低播放時需要的頻寬需求。它的做法是媒體在伺服器端先依畫面的種類分別儲存,當遇到網路擁塞時,選擇丟棄較不重要的畫面,而在使用者端則以重複播放前一張畫面來解決。

例如一部影片的畫面群畫面型式是 IBBPBB,因此在伺服器端預先把該影片分成I、P及B三類,當網路頻寬不足時,伺服器端選擇先減少B畫面的傳送,如果頻寬又更不足時,則減少P畫面的傳送。如此可減少網路的擁塞情形,而使用者端則以重複播放I及P類畫面的方式來彌補。

多媒體與通訊技術結合的應用,像是多媒體串流技術、網路電視服務(包括電子郵件、互動式網路購物、網路銀行、網站瀏覽等)、以及網路數位傳媒,是相當受到重視的發展方向。IBM、Microsoft、Sony 等無一不投入大量的研發經費來發展下一代多媒體技術,並制定許多業界通用的標準,如 JPEG2000、MPEG4、MPEG7、MPEG21 等。另外網路業者如 Yahoo、Netscape、Lycos 等,也提供廣泛的多媒體內容服務大眾。

利用網路達到即時的多媒體播放傳送的功能,已成為未來的趨勢,結合3G行動通訊技術及手機服務,多媒體影音應用更為廣泛。在未來 3G 無線行動通訊網路時代,多媒體影音服務會無所不在,與人類的生活結合在一起。