多媒體影音檢索系統

多媒體影音檢索系統早期電腦由於計算速度較慢且磁碟空間不足,對於多媒體資料的應用較為貧乏。但近來由於技術的大幅進步及網路頻寬的增加,多媒體的發展也越來越蓬勃,不論是視訊、音樂、影像等資訊,在網路上都能廣泛地流通與利用,也因此多媒體資料的處理及資料庫的管理,逐漸成為人們重視的課題。

面對網路上大量的多媒體資料,如何讓使用者有效率地搜尋出所需要的?各界針對這個目標發展出許多智慧型的檢索技術。相較於傳統的文字檢索,多媒體檢索的查詢方式更是多樣化。在視訊、動畫方面,有以影像特徵、字幕內容、關鍵畫面等為主的查詢;在音樂方面也有以音高、響度、音色等為主的查詢。而能同時以影像或聲音為基礎的多媒體搜尋系統,便統稱為「多媒體影音檢索系統」。

「多媒體影音檢索系統」的架構主要可分為兩部分:影音資料庫的建立及影音搜尋。在資料庫建立的部分,首先是輸入影音資料,做影音切割、特徵分析等步驟以得到影音的特徵向量,並且把它歸檔到資料庫中。至於在影音搜尋的部分,一開始先輸入影音資料或其內容描述,接著進行影音特徵分析,把得到的特徵向量與資料庫做比對,便可得到搜尋的結果。

另外,為了讓搜尋能夠更符合使用者的需求,在每一次的輸出結束後都會從使用者那邊得到一個回饋值,讓系統了解使用者的需要,以達到更好的搜尋。

由於以影像與以聲音為基礎的檢索技術,在本質上是有差異的,因此分別針對影像視訊檢索與聲音檢索這兩種技術進行介紹。

影像視訊檢索技術

隨著資料壓縮技術的進步和網路頻寬的增加,在網路上即時播放視訊內容或從中取得視訊資料是非常容易的,但要從龐大的多媒體資料庫中搜尋出想要的影音資料,仍然是一件艱鉅的工作。目前的網路搜尋引擎都是利用文字來進行搜尋,但如果詢問者只知物件的外型、顏色或其他資訊,便無法進行搜尋。為了克服上述的困難,因而發展出一個自動化、以內容為主的多媒體標記及檢索資料庫系統。

2001 年 9 月國際標準組織(International Standard Organization, ISO)頒布了 MPEG?7 的標準,MPEG?7 全名是「多媒體視訊內容描述界面」,它提供了一連串豐富的標準化工具描述多媒體視訊的內容。然而,MPEG?7 只規定多媒體內容的標準描述,並未規定特徵擷取的演算法與搜尋引擎,其策略留給各公司自行開發。

視訊資料包含了空間及時間兩個維度,因此一個有用的視訊標記要能同時記錄一個場景的空間和時間內容。簡單來說,空間特性就是主要畫框的萃取,把它視為一張影像加以處理,而相機與物體的運動資訊,則歸類成時間上的特徵。

為了達到這個目的,首先把視訊資料切割成多個基本場景,稱為場景鏡頭,它是由一連串的畫框組成,且表達了空間及時間上連續的活動。視訊切割的目標,是把視訊資料串流切割成一組多個具有意義的片段,把它視為標記的基本元素。使用者可以利用文字、影像、外型、甚至是一小段的動態影像來作詢問,當網路伺服器接收到這些詢問時,便可以從資料庫中快速地搜尋到使用者想要的視訊影片。

以內容為主的「視訊標記及檢索系統」,由視訊切割、主要畫框的萃取及運動特徵的擷取三大項所組成。

視訊切割:第一個步驟就是把視訊資料分割成多個場景鏡頭。視訊通常具有多個層次,如果可以了解視訊資料的結構,且對每一個階層作標記,會對多媒體資料庫的檢索非常有幫助。

主要畫框的萃取:主要畫框是場景鏡頭中的一個畫框,代表同一個場景鏡頭中最顯著的內容。主要畫框的特徵可以根據影像的色彩、紋理、外型、輪廓及物件取得,因此它提供了適當的特徵內涵給視訊標記及檢索系統,也讓使用者可以藉著一些凸顯的畫框快速地瀏覽視訊資料。

運動特徵的擷取:視訊資料的運動特性提供了在時間維度上最簡易的處理方式。MPEG?7 定義了所有相關的運動描述子:運動活性(motion activity)描述視訊整體的運動快慢情形;在同一個場景中,相機的移動所造成的運動稱為相機的運動;有關放大縮小、仿射、透視、或者是拋物線的,這些運動稱為變形參數;運動軌跡是用來描述物體的運動;參數運動則是用來描述物件的扭曲情形。

把以上的視訊影像低階特徵擷取出來之後,如何建立索引也是一門重要的學問。基本上視訊的索引資料有幾個來源:人工建立的視訊註解、視訊的分段資料(日期、長度、起始時間等)、以及影像特徵(顏色、花紋、形狀等)。索引資料建立完成後,接著要有計算特徵相似性的方式,如歐幾里得距離、馬氏距離等,以查看彼此是否具有相似性,彼此的值是否相差在一個範圍之內,最後把查詢結果按相似性的大小依序排列出來。但是如何有效地建立以內容為主的多媒體影像檢索系統,至今仍未定案。

近年來,許多學校或公司嘗試發展以內容為主的多媒體影像檢索系統,但由於困難度高,都不很實用。它們各具特色,以下就針對幾個系統作簡單的介紹。

IBM 的 Query by Image Content(QBIC, http://wwwqbic.almaden.ibm.com)是第一個以內容為基礎的影像檢索系統。QBIC 系統主要以影像的顏色、像素的分配等全域性特徵來作檢索,這類系統適合檢索有關風景的影像資料庫。

相對於全域式的影像特徵擷取,以區域為基礎的影像檢索能夠針對視訊影像中的主體,讓使用者對所關注的物件部分作檢索,如加州大學柏克萊分校的 Blobworld 系統(http://elib.cs.berkeley.edu/photos/blobworld/)。這個系統對影像做區域的分割,並對使用者所關注的焦點部分給予較高的權重。

另外,哥倫比亞大學的 VisualSEEK 系統(http://www.aa-lab.cs.uu.nl/cbirsurvey/cbir-survey/node42.html)則是考慮影像的顏色、形狀、紋理等空間資訊來作檢索。其他目前已經發展或正在發展的影像內容檢索系統,還有美國UCSB大學的 Netra、哥倫比亞大學的 WebSEEK 與 VideoQ、MIT 的 PhotoBook、UIUC 的 MARS 等。

以上的檢索系統各有不同的特性,但是對於滿足「方便且有效的、以內容為主的檢索系統」的要求仍有所不足。

聲音檢索技術

除了影像內容可以作檢索外,聲音也同樣地可以作檢索。透過自動索引及檢索語音資訊的技術,能協助人們在大量的多媒體資料庫中快速且正確地尋找到所需的資訊。

人類能夠聽見的聲音頻率範圍大約在 60 ~ 20,000 赫茲之間,其中人類語音頻率主要分布在 300 ~ 4,000 赫茲之間。以前涉及語音信號處理的研究,如語音識別,大多是單一詞彙的辨識,對於連續的語音識別則較困難,錯誤率也較高。但經過這幾年的努力,已經有了突破性的進展,除了語音辨認的研究外,也對辨別說話者的技術進行了許多研究,這些研究成果將為以聲音為主的檢索技術提供很大的幫助。目前市面上以聲音作檢索的應用產品並不多,但相信這種技術在未來會是一個熱門的課題。

以聲音為主的檢索技術,主要可分為三個主題:基於語音技術的檢索,聲音類別檢索,以及音樂檢索。

語音檢索

語音檢索是以語音為主的檢索,採用的技術主要是語音識別與其相關處理技術,可應用的地方有錄音筆、PDA 等與語音有關的產品。根據技術的不同,又可分為以下四大類。

第一類是先利用語音識別技術把語音轉成文字,再採用文字檢索方法進行檢索。

第二類是以關鍵詞為基礎進行檢索。在一般的語音搜尋中,可先定義一些使用者較感興趣的關鍵詞,讓系統自動檢測這類關鍵詞並作標記,而這些標記就可以用來作檢索。例如以棒球比賽中的「安打」來標記與安打有關的內容。

第三類是以辨認說話者的技術來進行分割並作檢索。這種技術的主要目的是辨別出說話者是不是同一個人,而不是識別出說話的內容。透過這項技術便可以把不同說話者的聲音作分割,並建立錄音索引,主要可用在錄音筆等相關產品上。

第四類是以子詞為單元進行檢索。當語音識別系統在處理無範圍限制的資料時,它的效能通常會變差,尤其是當一些專有名詞如人名、地名等不在系統資料庫中時會更差。一般變通的方法是使用子詞來當作索引單元,當使用者輸入查詢語音時,查詢語音首先會被分解成幾個子詞單元。例如要檢索王大明三個音,可先把它分成王、大、明三個子詞單元,然後把這些單元的特徵與資料庫中預先計算好的特徵進行比對。

聲音類別檢索

聲音類別檢索是以特定聲音為對象的檢索,這裡的聲音類別可以是鳥叫聲、鋼琴聲、流水聲,甚至是語音等。聲音類別檢索大致可分為以下兩個部分。

第一部分是透過聲音訓練和分類來進行檢索。使用者可先自由選擇一些表達某類特性的聲音樣本來訓練系統,使它建立這類聲音的模型。以「敲門聲」為例,首先輸給系統許多敲門聲的樣本,接著系統會對每一個樣本找出其特徵向量,並計算這些訓練樣本的平均向量和共變異矩陣,利用平均向量和共變異矩陣就可建構出表達這類聲音的模型。因此當一個新的聲音進入系統時,透過分析聲音並與之前所建立的模型作比較,便可知道這個新聲音是否屬於這一類別。

而聲音分類是把聲音按照所預定的組合分類。首先建構出所需聲音分類的模型,接著計算各模型間的距離,然後根據這距離訂出一個適當的臨界值,如此便可用來決定新進入的聲音應該被歸到哪一個類別。在實際的情況中,也有可能發生某個聲音無法被歸類的情形,這時可以選擇新增一個類別或把它歸類到距離最近的類別。

第二部分是利用聽覺特徵進行檢索。利用人類聽覺感知的特性,如基頻、振幅、音高等,可找出特徵向量並用來區分不同聲音。例如,可取一小段時間做分析並計算其聽覺感知特徵,利用這些特徵向量可對不同聲音,如風聲、流水聲、動物聲和其他聲音等進行檢索或分類。

上述所提的方法適合聲音長度較短的情況,如一小段敲門聲、汽車喇叭聲等。但在一般的錄音檔中,可能會包含許多不同類別的聲音,這些聲音可能是個別單一出現,也有可能是同時出現。例如上課中的教室,除了有老師的聲音外,可能同時有同學的講話聲、教室外的鳥叫聲,或其他聲音。如此複雜的聲音背景,便增添了語音處理的困難度。

處理這類聲音時,如果使用上述的方法,便需要先把音源分開,再把音檔分割成某些長段的聲音片段。在分割的過程中,還牽涉到區分語音、音樂或其他聲音的相關技術,例如在連續劇中,需要分割出語音、音樂、廣告聲等。聲音分割的做法一般是透過信號的聲學分析,並找出聲音的轉變點,這裡的轉變點指的是聲音特徵向量突然改變的地方。利用轉變點把聲音信號分成若干區段,這些區段就可以當作個別的聲音來處理。

音樂檢索

音樂檢索是以音樂為檢索目的,主要是利用音樂的旋律、音符、節拍等音樂特性來作檢索。節拍是音樂中的一種周期特性,音樂的樂譜一般則是以事件形式來作描述,通常是以起始時間、結束時間和一組聲音特徵向量,如基音、音高、旋律等,來描述一個音樂事件。值得一提的是許多音樂特徵是隨著時間變化的,因此在描述音樂時,一般都是用統計量來作描述。

人類對音樂的認知可以基於時間或頻率。時間的分析是利用振幅的統計,得到音樂中的節拍特性。頻率分析則可獲得音樂的基本頻率,利用這些基本頻率便可進行音樂檢索。在檢索的過程中,使用者也可用唱的來搜尋出所要找的音樂,利用基音抽取演算法可把音樂轉換成音符形式,便可使用於音樂數據庫的查詢。

人性化的搜尋引擎

現在是一個資訊爆炸的時代,透過網際網路能找到許許多多的資源。相較於過去的資訊貧乏,取而代之的卻是過多的資訊。這固然增進了人們的便利,也造成了另一個問題,就是要如何從龐大的網路資料庫中搜尋到自己想要的資訊。為了克服這個問題,發展出許多網際網路搜尋引擎,較著名的有 Google 搜尋引擎、番薯藤搜尋引擎、新浪網番薯藤搜尋引擎等。

這些搜尋引擎雖然為人們帶來了一定程度的便利,但是仍有許多進步的空間,因為現在的搜尋引擎多是以文字為基礎來作檢索,其優點是搜尋速度較快,搜尋演算法也較容易實現,缺點則是不夠人性化,搜尋效果也較差。因此,多媒體影音檢索系統的發展是必然的趨勢,透過多媒體影音檢索系統的幫助,相信能更快地找出所需的資料,這才是真正人性化的搜尋引擎。