溝通無國界,多國語音電腦輔助翻譯

溝通無國界,多國語音電腦輔助翻譯源起

語言及語音是人類溝通思想、傳遞訊息與表達意願最基本與最主要的工具,近年來,由於資訊快速膨脹及國際間的互動日趨頻繁,人與人之間溝通的障礙已由地理上的隔閡轉為語言間的隔閡。根據統計,全球大約有九千種語言,以歐洲共同體為例,它就涵蓋了約九種的官方語言,而在國際網路市場行銷公司二○○○年的研究中指出,目前全球約四億七千六百萬的網際網路人口,使用的語言超過 10 種以上。

由於學習語言是一條漫長的道路,除了母語之外,要通曉某種外語已是相當困難的事,更何況要應付各種的語言。而人類在進行溝通時,語音是一個最自然的溝通方式,它包含了語言資訊和講話情緒,並能夠透過網際網路進行傳輸,因此發展一個能將語言障礙打破的語音電腦輔助翻譯機器,對不同語系間人們的交流及資訊的互通,都將產生劃時代的影響。

由於現代人多少都必須和使用不同語言的人一起工作或交談,所以即時的口述語言翻譯器變得日趨重要。而這波研究語言溝通風氣的興起,要歸因於以下幾方面:國際化的商業活動頻繁,尤其是在歐洲及太平洋地區;通訊網路使用普遍化,未來將發展「高速資訊網路」,屆時不同語言間的資訊流通將更快速且豐富;與政府機構和商業團體進行業務往來的多國語言需求;在國外旅遊和從事娛樂活動的次數增加;世界各國在語言發展上的多樣性;包含聲音的相關多媒體應用程式及使用手冊普及化。

雖然用圖案描繪和肢體語言,有時可以取代口述語言翻譯來做溝通,但是仍有幾點是無法達到口述語言翻譯擁有的便利性:一、這些方法並非適用於所有的場合,例如利用電話溝通或是做多媒體的簡報時;二、並非隨時可以用來表達意圖,例如當眼睛和手需要做其他動作的時候;三、不見得能適當地描述當時的情境,譬如在國外買日常用藥時,只藉由肢體語言是很難描述出自己的需求。

通常在某些場合下,稱職的口譯員是非常需要的。然而,自動化口述語言翻譯也提供了一個重要的市場機會,這是由於幾項因素:一、僱用口譯員的開銷是相當昂貴的,尤其是將這筆費用和自動化翻譯服務所花費的成本相較下;二、合適的口譯員可能一時無法尋得,特別是在需要一些專業知識的時候;三、稱職的口譯員無法一天 24 小時待命,然而大部分的多媒體應用程式都有這方面的需求;四、在大部分的應用場合裡,口譯員並不一定是一個適當的解決途徑,例如一個編譯好的多媒體軟體系統,無法將一個活生生的口譯員硬嵌在此系統裡。

發展現況

自從一九九○年初期以來,就有一些機構開始從事關於多國語音翻譯的研究,其中著名的研究機構「國際語音翻譯研究協會」(C-Star,網址:http://www.c-star.org)集合了美、日、德、法、韓、義等國協力合作,研究領域著重於觀光旅遊,包括行程安排、資訊查詢、預訂服務及會談協商等。

這個協會早期在一九九一至一九九三年只有美、德、日三國參加,到一九九九年陸陸續續有韓、法、義三國加入,至今共有 19 個單位加入研究。目前研究成果包括了在一九九三年由德國聯邦教育科學研究科技部主持的八年語音轉語音翻譯計畫,這個計畫共花費一億六千九百萬德國馬克,主要在處理德、英、日三語的多國語音翻譯。歐洲資訊科技研發議程中的開放式長程研究計畫,則從一九九六年起進行了五年的德、法、義三語例句式語音翻譯系統的發展。此外,從一九九○年開始美國卡內基美隆大學、日本國際電氣通信基礎技術研究所、德國西門子公司等相關機構共同研發約十年的雅里斯相關系統,目前已具有英、日、德、韓、義、法六種語言的互譯功能。

C-Star 第三階段工作從二○○一年正式啟動,到二○○四年結束。其目標是利用公共電話網路和網際網路,在四年內實現透過手機、電話、電腦終端機等設備,進行不同語種人類之間,在旅行期間的同步場景對話,包括預訂旅館、購買機票、餐館對話、外幣兌換等。更重要的是,這項計畫把多國語音的直接翻譯視為一個科學工程!透過建立系統性的平臺、演算法推動該技術的迅速發展,在 30 至 50 年內達到徹底掃除人類之間語言障礙的目的。

另外根據一九九九年日本電報電話公司的報導,日本政府與約 70 家廠商,自二○○一年起的五年內,投入約一百二十億日圓開發多國語音翻譯技術,預估在二○一○年後多國語音雙向翻譯市場將急速擴大,在爾後的 15 年內相關產值累積可達七兆八千億日圓之譜。在二○○○年亦有相關報導指出,美國警方正在測試一套語音翻譯機,希望能把英文翻成西班牙文、廣東話、越南話,在緊急狀況發生時就能立即藉由機器進行溝通。

目前市面上還沒有語音轉語音的網路溝通系統,就實驗室成品來看,先前介紹以伺服器架構的語音轉語音翻譯系統(Verbmobil),著重於語音對語音轉換處理。使用者可藉由手機、電話、網際網路與此系統聯繫,透過此系統使用者可使用自己所熟悉的語言,與其他使用不同語言的人進行對談及溝通。

多國語音電腦輔助翻譯技術

在這些系統中,除了強化多國語言的語音辨識模型及語音合成模型外,機器翻譯中的來源語言理解模型、轉換模型及目的語言生成模型,仍是目前需進一步研究的課題。而如何辨識語者的真正意圖,並轉換成正確語句給聽者,則是現階段系統研發的主要目標。在語音翻譯領域裡,研究範圍涵蓋了語音訊號處理、自然語言處理及機器翻譯。研究的困難處在於人類的自然語言現象非常複雜,想把語言的原理與結構研究透澈,就如同想解開人類腦部活動的祕密一樣深奧且艱難,故目前語音轉語音的研究方向,仍著重在特定領域的應用(如觀光旅遊)。

就處理架構而言,可分為循序式處理和內嵌式處理。所謂循序式架構,是以語音辨識、機器翻譯、語音合成的三個步驟,來處理同步語譯;內嵌式架構則是將語音辨識與機器翻譯整合做語譯處理,將文句生成後再做語音合成。一般而言,多國語音轉語音翻譯系統的架構,可分為語音辨識、機器翻譯及語音合成三個部分。

語言辨識:多國語音辨識到底是如何運作的?為了將使用者的語音辨識成電腦可處理的文字,這個步驟可分成兩個階段,分別是語言鑑別及語音辨識。

語言鑑別是根據各種語言的差異性來處理多國語言,以國語、英語和德語為例,國語是手寫文字,而德、英兩語是發音文字,德、英兩語是羅馬拼音文字,不需再做斷詞處理,而國語則需斷詞,英語的詞態較簡單,國語和德語的詞態較複雜。透過差異性分析,使得在語音辨識的處理上更具效率和準確性。對於自動語言鑑別有兩種處理方式,一種是權重式鑑別,透過多國語言或幾個單一語言的辨識器,記算每種語言辨識後的分數,並選擇最高分數的語言;另一種是可靠度鑑別,利用隱藏式馬可夫模型,找出語音段最可信賴的語言區間。

隱藏式馬可夫模型是目前連續語音辨識常用的演算法,由於語音訊號具有短時間穩定的性質,因此當人類聲道處於某種發聲組態時,可以將它看成是具備某種統計特性的狀態,用一些連續的狀態,便可以模擬人類說話過程中聲道的改變,這種模擬方法可用一個由左至右的隱藏式馬可夫模型來表示。這種雙重隨機程序,包括狀態轉移機率與狀態觀測機率。狀態轉移機率是一個隱藏的隨機程序,它決定停留在原狀態或是遷移到下個狀態的可能性,也就是在說話時,發聲組態不變或是改變到另一個組態的機率;狀態觀測機率則描述在每個狀態觀察到某個現象的機率大小,意即在某個發聲組態下,發出某個聲音的可能性。

機器翻譯:目前機器翻譯的架構可粗略分為直接式、轉換式和中介式三類。所謂直接式是採取逐字翻譯,這是最簡單的方式,而此架構主要的問題在於不同的語言間其詞組並非是一對一的關係,進行選詞時會產生混淆;此外,不同的語言有不同的詞序規則(中英文的動詞通常接在主詞之後,而日文的動詞則放在整句之末)。故在轉換式架構中,利用來源語言剖析、轉換語言及目的語言生成三個步驟來處理上述的問題,雖然轉換式架構比直接式架構有更多的語言分析處理,但由於缺乏一個共通性知識語意的了解,所以在翻譯句子時仍會有誤譯的情況發生。

轉換式架構的另一個缺點,是在 M 個來源語言及 N 個生成語言之間,除了 M 個來源語言剖析及 N 個目的語言生成外,還需發展 C(M,N) = M(M ? 1)(M ? 2) … (M ? N + 1)/(1‧2‧3‧…‧N)種語言轉換規則組合,這對發展多國語音轉譯系統是一項負擔。因此在轉換式架構外另有一種中介式架構,所謂中介式架構是利用國際人工語言來表達知識的形式,不易被一些特定語意的表達方式所影響,能有效地指出在多個語言間做轉換的問題所在,透過這樣的架構,只要 M 個來源語言剖析及 N 個目的語言生成的處理即可。然而,如何發展一個有效及嚴謹的國際人工語言,則是此一架構下的重要課題。

介紹完了機器翻譯的處理架構後,在這些架構下發展的機器翻譯系統又可再分為三類:以語言學分析為背景的系統、以語料分析為背景的系統及混合式系統。目前以語言學分析為背景的系統,是知識式機器翻譯系統,為了理解人類構句的行為,所以從語言學上的觀點來分析。此一系統主要在發展關於詞彙提供的詞態、句形及語意的深層資訊,它較能提供全域且高品質、全自動化的翻譯,而其缺點是知識庫索引的建構及蒐集,需要耗費相當大量的人工、時間和金錢。而中介式的架構,便是此系統發展的目標之一。

以語料為背景的系統,目前是以統計式機器翻譯與例句式機器翻譯為研究方向。所謂統計式機器翻譯,是藉由所蒐集的大量雙語語料,估測目的語言組合機率模型、詞彙轉換機率模型及雙語間詞序的可能對應機率模型。此系統十分仰賴特定領域所提供的資訊,較無法應用到全域處理。而例句式機器翻譯系統是透過所蒐集的雙語語料,從語料中搜尋與來源語言最相似的翻譯例句,進行詞彙修正或合併處理,這類系統所產生的譯句的正確性及品質,與所蒐集的雙語語料有相當大的關聯性。

混合式系統則是以語言學分析為背景,結合類似統計式及例句式的優點,進行更適當的翻譯處理程序。語言合成:指的是文字轉語音處理,這是將經由轉譯出來的結果(通常以 ASCII 碼表示),再轉變成人類語音輸出,這個步驟中需要將人類發音的基本單元,透過適當的演算法來運算。

在發音的基本單元部分,每種語言大約具有 30 到 50 種發音方式,而透過這些發音方式可組合成音節,以中文單聲調為例,就有 408 種以上音節,所以在這個部分是要挑選出哪些是適合做為合成語音的合成單元。由於語音合成有自然度與可辨度的要求,在不同的應用發展上有不同的處理方式。若以在個人電腦上的應用為範圍,則由於個人電腦可提供大量記憶體儲存合成單元,故在合成單元的選擇上,可以句子為單位錄製,因此往往需要錄製到上千句或上萬句,再從大量的合成單元中透過適當的搜尋演算法,尋找適當的合成單元。

但多國語音電腦輔助翻譯,在即時性的需求下,使用者會藉由記憶體較小的裝置(如個人數位助理)進行溝通,故在合成單元儲存空間上有所限制。因此在這種條件下,需要仰賴特別語音編碼技術來提高合成單元儲放空間,而且還能保有合成單元大量的語音資訊。語音編碼的方法,廣泛來說可以分成波形編碼法、參數編碼法和混合編碼法三類。

以參數編碼法或是混合編碼法來說,這兩者都是運用以聲道模型為基礎的口腔合成濾波器。所謂口腔合成濾波器,基本上是由線性預測觀念發展而來,亦即假設一個語音樣本,可以由以前的 p 個語音樣本之線性組合來預測,而其做法是將實際語音樣本與預測樣本二者的誤差減至最小,如此可以找到最佳預測器。而預測器內的係數,即線性組合所需的係數,稱為線性預測係數,任何一種透過線性預測參數,來做數位語音編碼的演算法,在解碼端都需要經由數位語音合成濾波器,來合成語音,濾波器的輸入訊號為語音激發訊號,進入數位語音合成濾波器運算後的輸出便是合成語音。

展望

目前國內的多國語音電腦輔助翻譯正處於發展初期,對產、官、學界而言,都是屬於值得投入的領域。當前世界研究趨勢,正在發展一種特殊的新語言——國際人工語言,屆時只須將要翻譯的語言(最終需要翻譯的主要語言會寥寥無幾)在電腦裡先轉換成國際人工語言,便能簡單地譯成各種其他不同的語言了。人類各種族的語言障礙一旦除去,科技文明必將更迅速普及全球,開啟一個新智慧的紀元。在未來幾十年內,全人類將再次聯合攜手共建一座新「巴別塔」,透過特定領域知識及先進的即時性硬體技術所提供的幫助,使得「走到那兒,說到那兒」的多國語音電腦輔助翻譯服務得以實現。