1 語音信息及其特點
自然界存在著各種各樣的聲音, 對聲音進行數字化處理得到的結果稱為“音頻”,是一種重要的計算機多媒體信息。20Hz~20kHz 是正常的人耳能夠感知合理頻率范圍。
音頻信息中的一種重要類型為“語音”,具有以下重要特征:
(1)由高度抽象的概念交流組成的媒體形式,主要由字、詞、語法等語素組成。
(2)語音信息的頻率大約分布在 300Hz~4000Hz 之間,主要組成部分為低頻,且頻譜中心(或亮度)也處于低頻段。
(3)一般的語音信息中停頓點位于單詞和句子之間,且靜音所占比例較高.
(4)語音信息的特征結構為前部只要是由輔音引起的連續音節短摩擦周期,后部是元音的較長間隔.在輔音引起的連續音節短摩擦周期內有較高的平均過零率(ZCR),在 ZCR 上比音樂具有更高的可變性.
利用這些特征對語音信息進行特征提取,是針對性的研究和探討基于內容的語音信息檢索技術的前提條件.
2 語音信息檢索技術
利用語音處理技術檢索感興趣的音頻信息成為語音檢索.
利用前人對語音信號數字化處理的研究成果,進行改進和優化后可以應用于語音檢索.建立語音索引進行檢索的主要策略見圖1和圖2所示.
在建立語音索引進行檢索的策略 1 中,還應該包含語音中的發音者身份及其情緒等其它信息因素,這樣可以提高語音索引的建立及進行檢索的效率和準確度;建立語音索引進行檢索的策略 2 便于利用數字化的信息檢索技術對語音信號進行處理,這就是基于內容的音頻檢索技術的基本原理和方法。
以下主要具體探討和總結幾種目前比較成熟的語音信息檢索技術和方法。
(1)大詞匯語音識別技術:利用自動語音識別(ASR)技術將語音轉換為文本信息,采用傳統的文本檢索方法進行檢索。這種技術依賴于連續語音識別系統的識別率以及對語音信息的處理過程.
在新聞廣播等標準語音環境下可以達到90%以上的詞語正確度,但在實際應用由于存在說話人的差異和情緒等因素的干擾,語音識別率較低.考慮到檢索任務只是匹配包含在音頻數據中的查詢詞句,而不是追求一篇可讀性好的完整文章,所以ASR識別出來的腳本仍然對信息檢索有用,這種方法可作為語音檢索的最初的模糊匹配,為進一步的精確匹配奠定基礎.Carnegie Mellon 大學的 Info media 項目就是采用這種方法將電視電影中的聲音轉換為文本腳本,經過數據分析整理后形成適合全文檢索的形式和結構[1].這種方法存在嚴重的缺陷是說話人地域及口音的差異會給識別帶來困難,目前只能通過對系統加大模式識別訓練量及采用多級交叉識別的方法來保證一定的識別率.
(2)基于子詞單元檢索技術:利用子詞(Subword)索引單元處理不在系統的詞庫中的專業的詞匯(例如人名、地點)。這種方法適合于處理各方面無限制主題的大范圍語音資料,可以提高識別率,擴大范圍進行進一步的識別搜索.
在ETH Zurich的一個研究小組利用VCV(2 個元音+2 個輔音+2 個元音子詞單元)的音節形式單元作為索引進行語音檢索.例如,“information”這個詞的VCV形式為“info”、“orma”和“atio”.
進行檢索查詢時,用戶的查詢條件首先進行分解形成子詞單元,然后將這些單元的特征與語音檢索庫中預先設定的特征進行匹配,以完成檢索任務.
這種識別技術的僅針對英語語種,存在一定的局限,但可以作為設計其它語種進行的語音檢索的一種思路和方法.
(3)基于關鍵詞發現的檢索技術:關鍵詞發現(Keywordspotting)指在無約束的語音中自動檢測詞或短語的一種技術[6].
該技術的原理和方法主要是在長段語音錄音或音軌中識別或標記用戶設定的興趣事件或某些重要時間節點,利用這些標記進行關鍵標記檢索便可以獲得用戶所需結果.
例如,在足球比賽中通過檢測比賽解說詞中的“進球”詞句并設定標記進行檢索,便可以得到相關進球內容的檢索結果.該技術通??梢宰鳛橐环N建立音頻索引的基本方法和技術.
由于該技術是利用預先確定的固定關鍵詞句進行識別和索引的,因此存在識別率低,檢索效率不高的問題,為了提高檢索效率,可以將檢索范圍限定在某個特定領域。Cambridge 大學的 VMR 組通過預先計算生成語音網格,便可以在限定檢索范圍內實現無限制關鍵詞發現,從而提高了檢索的效率.
(4)基于說話人辨認進行分割的檢索技術:該技術僅根據說話人的語音差別進行說話人的身份識別,而不對語音的內容進行識別。若在適當條件環境下可以達到較高的精確度,因此目前較多應用于安保系統的語音識別身份確認領域。同時在語音信息處理領域,運用該技術可以根據說話人的變化開展分割錄音,并建立說話人身份的錄音索引,從而可以再一段語音信息中將說話人進行分割,為后繼處理提供基礎。目前常用該技術技術檢測視頻或多媒體資源的聲音信息中的說話人變化情況及其身份,從而建立相關的索引或依據需求確定某種類型的結構(如對話)。Xerox PARC 就是利用該技術對會議錄音進行分割并展開分析,以說話人身份或聲學類型(如掌聲、音樂等)作為分割區段的依據。如果采用的用戶界面是以時間線為坐標軸的形式展示分割區段,則對長篇的會議資料進行快捷方便地直接瀏覽[4][5].
3 自然語言的計算機信息處理技術
自然語言指主要受限于語法規則,其它因素對其只有較少束縛,屬于非受控語言.若其的信息標引(如詞組等)直接從原始信息中抽取,則其信息標引的錯誤率較低、準確度高,且具有較強的時效性.
而且若使用自然語言檢索則用戶無需過多考慮檢索規則就可以實現信息檢索.但是自然語言也存在詞義模糊、詞間關系不清等因素造成漏檢和誤檢,從而導致檢索效果不盡人意.解決的方法是在檢索前建立系統內關鍵詞詞典、類主題詞典和后控制詞表等自然語言處理系統模塊對自然語言進行預處理.
人工智能計算機是處理自然語言的基礎,主要的技術為自動分詞技術、人名和機構名自動識別技術、自動標引技術等,同時需結合自動文摘、文檔自動分類、信息抽取、自動發現中文概念詞以及概念詞之間的語義關系的確定等復雜技術才能取得較好的處理效果.目前基于信息檢索的自然語言處理技術仍只能針對簡單語言的處理(如確認詞根和詞組等).另外,由于歷史和政治等原因造成漢語計算機處理字符集和內碼體系沒有統一標準,港澳臺使用繁體而中國大陸和新加坡使用簡體,臺灣主要為大五碼(big5),中國大陸為國標碼(GB)等。這就使中文得自然語言處理技術必須解決編碼自動轉換與漢語自動切分兩大難題.
在這個領域比較成熟的是尤里卡中文智能搜索引擎,其利用先進的自然語言理解技術,成功突破了“表達差異”和“忠實表達”的難題,實現了信息檢索和導航服務的智能化,用戶只需輸入口語化的查詢請求,便可以獲得直接的、準確的和翔實的結果.
4 語音識別系統
簡單的說,自動語音識別(ASR)屬于模式匹配范疇.一般ASR系統應該具有訓練階段和模式匹配階段.
(1)訓練階段:ASR 系統首先需采集大量的發音者的語音序列數據.具體步驟見圖3所示.圖中ASR系統提取的最小的語音單位為音素,識別數據庫包含音素模型集合、同義詞詞庫和語法等要素。
(2)模式匹配(識別)階段:ASR 系統對輸入語音進行處理的方法與訓練階段相似,通過對輸入語音提取特征矢量,在識別數據庫中搜索與輸入語音的特征矢量最匹配的特征矢量的單詞序列,從而通過模式匹配完成對輸入語音的識別。
目前比較通用和流行的 ASR 模式匹配技術為:動態時間環繞技術、隱藏馬可夫模型(HMM)和人工神經網(ANN)模型等。
其中應用較為廣泛為基于 HMM 的技術。HMM 技術的主要核心思想為:首先將每個音素分解為可持續超過一個幀時間(一般設定為 10ms)的三個狀態,分別為輸入狀態、中間狀態和輸出狀態;然后在訓練階段中使用訓練語音數據為每個可能的音素構建 HMM,每個音素的 HMM 均輸入狀態、中間狀態和輸出狀態三個狀態,并用狀態轉換概率和符號發生概率來定義。在該設定環境下,為每個幀計算的特征矢量稱為符號。由于時間的單向性特征決定了一些轉換是不允許的。在訓練階段后期,由不同的發音者、時間變化和周圍的聲音引起的變化均采用每個音素由捕獲不同幀的特征矢量變化的一個HMM 表示;最后的語音識別階段中,便可以按照幀的順序來計算每個輸入音素的特征矢量.
識別的目的就是去發現哪個音素的HMM最可能產生輸入音素的特征矢量序列,從而進行匹配.HMM對應的音素被認為是輸入音素,由于一個單詞含有大量的音素,因此一般需將音素序列進行整體識別.計算 HMM 產生一個給定特征矢量序列的概率目前有多種算法,常用Viterbi 算法和前向算法。
Viterbi算法主要應用在識別連續的語音,前向算法主要應用于識別隔離的單詞.
5 結束語
目前的語音檢索技術還處于發展階段,還面臨著諸多挑戰:
(1)對檢索結果準確性的判斷:如果檢索出來的結果較多,那么用戶必須對檢索要求進行逐一判斷,對于用戶來說比較麻煩,而且需用較大的耗時成本去鑒別檢索結果的準確性,這是一個急待解決的難題.
(2)需要制定更先進的和統一的編碼標準:原始語音信息是無結構的,如果在其數字化時就用結構化的編碼標準去生成,那么就可以直接進行檢索.
語音信息檢索是一個涉及較為廣泛的研究領域,達到人腦那樣對語義進行自動理解仍然進行進一步深入和廣泛的研究,這是一個從實際認識向抽象理解不斷發展的過程,同時也是基于知識理解的應用研究,屬于多學科交叉的研究領域.在這個領域的研究和發展過程中,我們將面臨更多的挑戰,同時也會出現更多新的契機和機會.