我們平常聽到的聲音,是由物體的震動產生聲波,聲波再藉由空氣傳遞到達耳朵,並震動耳膜而形成的。不同的物體、力度所震動出來的聲波,波形是不同的,我們所聽到的聲音,也會因此而不同。一般來說,相同的物體震動得快,產生的音調高;震動得慢,產生的音調低。音調的高低取決於頻率的大小,單位是赫玆(Hz)。
樂器發聲的原理也是這樣,不同的樂器會震動出不一樣的聲波波形,相同的樂器也可利用震動的快慢來產生不同的音調。以弦樂器來說,長、厚且鬆弛的弦會產生低頻的音調。
網路音樂的傳輸
在電腦中記錄聲音,最簡單的方式就是記錄整個聲波的波形,換句話說,就是記錄在時間軸上聲波波形的振幅值(樣本值)。這種記錄方式可以將任何聲音完整地記錄在電腦儲存裝置中;播放時,也是隨著時間的遞增將聲波的振幅值播放出來,就可達到原音重現的效果。但是,電腦的儲存空間是有限的,並且是以數位的方式來儲存資料,而且在相當長的時間內聲波波形的振幅接近無限多個;因此,在記錄聲波的過程中,我們要做一個「類比轉數位」的動作,另一種說法就是取樣。
取樣,顧名思義就是在連續時間上聲波的無數個振幅值中,依一定的時間間隔來記錄它的振幅值。取樣頻率越大,所儲存的振幅值較密,儲存聲波的空間需求也越大,音質也就比較好;反之,雖然可以節省儲存空間,但是音質會較差。例如目前市面上最常見的記錄聲音儲存裝置CD(compact disc),其取樣頻率為44.1千赫(KHz),且為雙聲道,每個樣本值儲存空間大小為16個位元;也就是說它每秒記錄了44,100乘以2個16位元大小(1378.125 Kbps;Kbps為kilo-bits persecond的縮寫,代表每秒傳送幾千個位元的資料量)的振幅值。我們都知道CD的音質已經可以帶給我們如同真實世界的聲音感受,但是它需要的儲存空間太大,並不適合在現今有限的網路頻寬下當成網路音樂傳輸的媒體。
在網路人口急速增加的今日,對一般民眾來說,最普遍的網路環境仍是以撥接(56 Kbps)和非同步數位用戶專線(ADSL/512 Kbps)等寬頻為主流。然而多媒體資訊,不論是聲音或是影像,都有資料量過於龐大的困擾,並不適合在目前有限的頻寬且不穩定的網路環境下傳輸。因此,在許多電腦及消費性電子產品應用上,如今都已採取標準的資料壓縮方式來降低龐大的資料量,如動態影像壓縮標準(MPEG)、靜態影像壓縮標準(JPEG)及視訊會議壓縮標準(H.263)等。由此可知,在建立高品質及高效率的多媒體傳輸方式上,降低資料量和維持一定的品質將是相當重要的工作。
舊式的音訊處理技術
在網路上的音樂傳輸方面,之前提到CD的音質雖然已經達到如同真實世界聲音的品質,但是它的資料量太大,實在不適合當成網路音樂多媒體的媒介。因此,許多以訊號編碼為主的音訊壓縮方式如MP3、AAC(advanced audio coding;MPEG高級音頻編碼)等紛紛制定出來。以我們最常見的MP3來說,是利用移除人類聽覺系統中聽不到的聲音,來達到高壓縮比、高音質的壓縮。透過MP3的壓縮方式,CD音質的聲音可以壓縮到每秒傳輸量在128千位元上下,壓縮率可達12倍之多。
至於AAC,目前已經是MPEG-2的標準配備之一,它不但能提供更高品質的音樂,更能有效地利用頻寬以便多聲道(例如環場聲傳輸)的傳送。但是像MP3、AAC等這類以訊號編碼為主的壓縮方式,需要的頻寬仍隨音質的需求而提高,在目前網路頻寬有限的情況下,音質並不理想,在播放時常時斷時續。
因為大多數流行音樂是以電子合成器來製作,所以樂器數位界面(musical instrument digital interface,MIDI)格式的音樂檔案也是目前網路音樂傳輸上相當普遍的方式,而且其資料量遠較MP3、AAC等為低。MIDI建立於一九八三年,可以說是數位樂器之間共通的一種國際語言,它是一種能讓電子樂器之間相通的交換碼。這些MIDI碼是使用串列形式的非同步傳輸,傳送速率是每秒鐘內最多可以傳送3,125位元組(bytes;1個位元組等於8個位元)的MIDI碼,相當適合在網路的頻寬下做為音樂傳輸的多媒體。
雖然MIDI在基本的標準上已經有明確的相容性,但是每個廠商以及每種MIDI樂器機型都使用不同的技術,並且各有不同的功能,當不同廠商的MIDI樂器互相傳輸時,便會有規格不統一的窘境,例如樂器的選擇不一致等。因此,在後續的幾年內先後制定了數種MIDI的標準格式,以解決相容性的問題。
在多種MIDI檔案的格式中,目前最多人採用的是符合標準MIDI 1.0版的通用MIDI(GM),它是為了解決一些相容性問題,在一九九一年由日本MIDI標準委員會與美國MIDI同業公會共同制定的一種建議規格。GM制定了24個最大發聲數、128種音色及1個鼓組。它本身並不是工業標準,但是凡符合GM規格的樂器,它們的音色排列及鼓組的頻道等都是相同的,所以,在不同的樂器上播放相同的歌曲時,不會發生音色選擇不同的情形。接下來的GM2(general MIDI system level 2)、羅蘭公司所制定的GS規格、與山葉公司所制定的XG(extented GM)規格等,都是針對GM規格中所沒有訂定的細節部分做補充,並建立了更豐富的演奏表情與更高的音色數,把原來的GM規格加以擴充。
在MIDI樂器上發生的相容問題,也同樣發生在編曲機及相關軟體上,各應用軟體所產生的檔案資料格式也不同。不過依據標準MIDI 檔案規格所寫的檔案,可以被所有的編曲機及相關軟體所讀取,現在大部分的編曲設備及軟體都支援這種檔案規格。
MIDI是結構性控制音樂的代表,傳統的MIDI已經可以利用只記錄參數的方式來表示樂曲不同的音色、音量、音高、節奏…等等。但MIDI對於音色方面仍只有選擇的能力,因此,音色的好壞就完全取決於音效卡上發聲引擎的品質,或另外安裝的軟體音源合成器。由於每個人使用的音效卡等級不一,MIDI透過網路傳輸便會造成兩方所聽到的聲音雖然音調、節奏等一樣,但是音色會隨著不同的音效卡而造成雙邊的差異。因此,如何改進音源不一致的缺點,以及有效地降低資料量並保持高品質的音樂,將是在架構新的音樂傳輸系統時,需要努力的目標。
在無線傳輸的音樂服務上,最常見的就是手機的鈴聲。手機鈴聲由過去的單音,漸漸發展成四和弦、十六和弦、六十四和弦,甚至更高;手機鈴聲支援的和弦數越高,所可以表現的樂曲也就越豐富動聽,相對的資料量也越大。目前一個較常見的手機鈴聲格式是山葉公司所制定的綜合音樂動態運用程式(SMAF),SMAF採用類似 MIDI 的結構性音樂控制方法來儲存樂譜,不過限於無線網路的更小頻寬,SMAF簡化了MIDI中一些較複雜且不常使用的控制指令以降低資料量。
一般來說,SMAF的檔案大小約為MIDI檔案的一半,若碰到一些演奏技巧複雜的樂曲,便無法完整地表現出來。此外,為了一些手機上的特殊擴充應用,在SMAF檔案格式中,也可以多包含一些如脈碼調變音源軌與圖像軌的資料區以供儲存使用。脈碼調變音軌可以讓手機具有錄音的功能(直接取樣壓縮),圖軌則是儲存一些顯示在手機上的圖案或文字的資料區塊。
全新的音訊處理技術
在第四代動畫影像壓縮標準(MPEG-4)的多媒體資料壓縮標準程序中,聲音部分的第五節就規定了結構音訊的規格,這是新一代的技術。透過結構音訊工具組,可以把音樂和合成出來的聲音用多種不同且已經標準化的組成元件來傳輸和解碼。使用結構音訊的技術,高品質的音樂資訊可以在極低的頻寬下傳輸。當音樂是以合成樂器演奏時,我們便可以利用這種技術及巧妙的編碼方式,使資料量落在每秒傳送1到3千位元的範圍內,這樣就可以很容易地在網路上傳輸其建構的高品質音樂。
結構音訊並不是以記錄聲音樣本的資料來描述聲音,而是在執行的時候以電腦程式語言:合成演算法(如管絃樂語言,SAOL)及合成控制序列(如樂譜語言,SASL),來產生聲音。在傳輸上,結構音訊也是分為兩個主要部分:一是描述如何建立聲音的聲音合成法,另一個則是一連串的合成控制序列(又稱為樂譜語言),來指出那些聲音將被建立。將上述兩部分經過簡單的文字編碼後,再透過網路傳輸。由於在網路上,是以前述兩個部分編碼後的檔案傳輸,而不是直接傳送整個樂曲波形的樣本值,因此它的資料量極低,是現今網路音樂傳輸上相當適合的音訊媒體。
我們提到結構音訊是以聲音合成演算法來產生聲波的樣本資料,因此,其音質的高低取決於合成的技術。一般常用的合成方法有調頻法、波形表法、及實體模型合成法三種。使用最多的是波形表法,而最能表現高品質的是實體合成模型法。前者較廣為人知且容易製作,至於實體合成模型法,則能夠合成出近似指定樂器的高品質聲音。
一九七三年裘寧(J.M. Chowning)在史丹福大學提出調頻法,此方法運算簡單、聲音豐富,但是合成的音色與真實樂器聲音之間有一段差距,在音質需求越來越高的情況下便不敷使用。
緊接著調頻法後,被大量採用的便是波形表法。傳統波形表合成法是將要合成的聲音波形直接取樣後,經過一定程序的處理儲存並建表,合成時就從表中讀出,再加以音調轉換與振幅調整,就可得到音色接近真實樂器的合成音。然而,一個複雜波形事實上乃是由許多正弦波所構成,可以透過分析將這個複合波分解成若干不同頻率、不同強度的正弦波組合,這些分解後的正弦波通稱為泛音或稱為純音(即不含任何其他泛音成分的正弦波)。到了一九九二年布來恩喬治(E. Bryan George)和馬克史密斯(Mark J.T. Smith)提出了疊加式正弦波模型法,它在分析與合成某一段預錄樂音方面,幾乎已達極致,美中不足的是它所需要的參數與計算量相當龐大。
另一方面,在八○年代末期,朱莉亞斯史密斯(Julius Smith)博士以分析真實樂器的物理特性進而合成聲音的概念,提出了樂器實體模型法,將合成研究推進到另一個境界,強調的是盡可能逼近樂器演奏的真實過程。可想而知,以模擬樂器振動而得到的聲音,將有可能和真實樂器相提並論。既然要由物理現象出發,最正統的方法是建立物理模型來模擬樂器的振動,以合成音訊。
結構音訊的標準富有極大彈性,它只是制定一種來描述合成方法的語言,此語言並不限制合成技術的種類,加上其資料量小,並且不會有音色上的差異。而且,在合成法方面,相較於傳統波形表合成法,實體模型合成法具有逼真的樂器演奏效果,所獲致的合成模型就是一個虛擬樂器,以MPEG-4標準中的管弦樂語言加以描述是再適合不過的了。因此,我們可以說,以結構音訊的標準,配合高品質的實體模型合成法,將是新一代網路音樂的趨勢。
結構音訊在網路上的傳輸方式也具有相當的彈性,首先我們可以將兩個主要部分,聲音合成法管弦樂檔案(SAOL)和樂譜檔案(SASL),經過簡單的壓縮編碼,壓成一個資料流來傳輸,當然接收端也必須具備解碼的能力。接著再對SAOL的語法做解析的動作,最後依SASL的樂譜命令列的排程,將樂曲透過電腦音效卡播放出來。或者,也可以採取如同軟體音源的方式,先把管弦樂檔案建立成一個動態連結的函式庫,提供使用者下載;之後,只要再傳樂譜檔案,播放器就能依樂譜中指定的樂器連接樂器動態函式庫來產生聲音。這種方式可以將資料量壓得更低,因為只傳輸樂譜檔案,將更輕易地在低頻寬或擁塞的網路上傳輸。
因此,在設計一個結構音訊的播放器時,它必須有一組樂器的動態連結函式的資料庫,這些樂器的動態連結函式可以事先由使用者從網路音樂伺服器下載至資料庫中;或是當有更新、更高品質的樂器被建立時,再由使用者上網更新。在網路上收聽以結構音訊編碼的音樂服務時,可以先對樂曲中有使用到的樂器做判斷。如果樂曲中有使用到樂器資料庫中所沒有的樂器,就必須傳輸完整的SAOL和SASL。如果樂曲中所有使用到的樂器在樂器的資料庫中已儲存了,就不需要再傳SAOL了,換言之,在結構音訊的資料流中,只有樂譜檔案的資訊,這樣可以把資料量降得更低。
我們之前提到在結構音訊的標準中,對各個組成部分的內容都有詳細的制定,所以在對SAOL與SASL做解析時,也必須依照標準來執行。
對於以樂器演奏的樂曲,我們可以利用結構音訊的方式,在網路上輕易地傳輸高品質的音樂,那麼一般的歌手流行樂曲呢?因為時下的流行歌曲中,其伴奏大多以電子樂器為主,因此我們可以採取將人聲跟電子樂器伴奏部分,分開編碼的處理方式。關於電子樂器伴奏部分,利用結構音訊的技術,可以將資料量壓到極低的範圍內;至於人聲部分,則採用語音壓縮的技術。
對於語音而言,壓縮到每秒16千位元傳輸量下的聲音,已經具有接近CD音質的品質了。所以,我們可以先將人聲部分和電子樂器伴奏部分分開編碼處理,再合成一個資料流,透過網路傳輸;到達接收端時再做一個同步的處理,讓人聲和音樂能同步播放出來。這樣,我們就可以把具備CD音質的歌曲資料量壓縮到每秒20千位元以內,以方便在網路上進行傳輸。相對於MP3等以訊號編碼的壓縮方式而言,此法確實大幅降低了資料量的傳輸,而且保持了高品質的聲音。
在應用上,因為以MPEG-4結構音訊所架構的音樂伺服器,其音樂的資料量相當小,所以不僅使用在網路音樂傳輸上,對於其他的應用,如無線通訊上的手機鈴聲傳輸等也很合適。因此,新一代的音樂伺服器可以提供相當多樣化的服務。成功大學資訊工程系的音樂多媒體研究室將在二○○三年提供MPEG-4結構音訊平台給大眾使用。
未來的網路音樂
雖然網路頻寬已隨著科技的進步不斷地提升,然而人們對多媒體品質的要求也越來越高。利用樂器數位界面傳輸,會由於網路二端所使用的音效卡的差異,而有音色不同的困擾。至於其他以訊號編碼的音樂壓縮方式,至今還無法把資料量降至適合網路順暢傳輸的範圍內。針對某些音樂類型,如管弦樂曲或流行音樂,採取結構音訊的方式,配合一些如語音訊號壓縮處理,來有效降低資料量,讓高品質的音樂能順暢地在網路上傳輸,相信是新一代網路音樂技術與服務必須積極開發的方向。