【第五篇】論文題目:基于語料庫的機器翻譯的現狀與展望
摘要:機器翻譯是探索如何借助計算機程序將文字或語音從一種自然語言翻譯成另外一種自然語言的技術。早期是從自然語言學的角度研究機器翻譯, 產生了基于規則的機器翻譯系統。上世紀80年代末以來, 針對傳統機器翻譯的不足在基于規則的技術中引入了語料庫方法。與翻譯有關的語料庫有三類:平行語料庫、多語語料庫和可比語料庫?;谡Z料庫的機器翻譯主要包括基于統計的方法和基于實例的方法。前者強調從數學上建立統計模型, 后者主要是從機器學習的角度通過翻譯實例進行推理?;谡Z義的方法將會成為統計機器翻譯未來發展的趨勢;而融合各種學科理論和技術的最新成果, 進一步建立和發展多模態語料庫, 則是開發基于語料庫的機器翻譯系統的發展前景。
關鍵詞:機器翻譯; 語料庫; 基于統計的方法; 基于實例的方法; 發展前景;
1. 基于語料庫的機器翻譯概觀
1.1 語料庫與機器翻譯
語料庫是指存儲于計算機中的原始文本帶有語言學信息標注特征的、經過加工的語料文本, 是一個由大量在真實情況下使用的語言信息集成的、可供計算機檢索的、專門做研究使用的巨型資料庫 \\(張彧、張曉丹, 2010\\) 。它始建于上世紀60年代末的美國布朗大學。語料庫的研究與應用近些年來逐步深入, 并取得了長足的進步。目前關于雙語或多語語料庫的研究大致可分為三類:一是研究雙語語料的對齊技術, 國內外學者就此提出多種策略和方法, 現在已經出現了許多對齊雙語或多語語料的程序或工具;二是研究雙語語料的各種應用, 如在基于統計的機器翻譯技術、基于實例的機器翻譯技術, 雙語詞典編纂技術中, 雙語語料庫都發揮著十分重要的作用;三是雙語語料庫的設計、采集、編碼和管理問題 \\(常寶寶等, 2003\\) 。
在眾多的基于語料庫的研究中, 將語料庫應用于翻譯領域是當前語料庫應用研究的熱點之一。機器翻譯 \\(machine translation, MT\\) 是探索如何借助計算機程序將文字或語音從一種自然語言翻譯成另外一種自然語言的技術 \\(趙紅梅、劉群, 2010\\) 。機器翻譯研究始于上世紀50年代, 20世紀70年代末至80年代末, 機器翻譯研究進入了繁榮期, 這一階段最顯著的特點就是許多翻譯系統在很多領域真正走向了實用化。1976年加拿大蒙特利爾大學開發的英法翻譯系統TAUMMETEO是一個典型代表, 該系統可以高質量地對天氣預報信息進行翻譯 \\(邵艷秋, 2010\\) 。典型的機器翻譯系統采用一種基于轉換的 \\(transfer-based\\) 翻譯策略, 通常分三個步驟 \\(何蓮珍, 2007\\) :1\\) 分析源語言, 形成源語言表征;2\\) 將源語言表征轉換成目標語言表征;3\\) 從目標語言表征生成目標語言譯文。傳統機器翻譯有其不足之處, 具體表現在兩個方面:
第一, 傳統機器翻譯將詞作為基本翻譯單位, 機器先將源語言句子分解成詞, 再將詞轉換成目標語言的詞, 然后根據目標語言語法結構特征將詞連接起來。第二, 傳統的機器翻譯對語境沒有給予充分的考慮?;谡Z料庫的翻譯對等研究正是試圖克服傳統機器翻譯系統的不足、提高機器翻譯系統效率和準確率的一種嘗試。
經過50多年不斷的發展, 機器翻譯系統雖然在一些領域發揮了一定的作用, 但是現有的翻譯系統仍沒有達到人們之前所預期的翻譯效果。早期, 人們是從自然語言學的角度研究機器翻譯, 產生了基于規則的機器翻譯系統, 這種機器翻譯本質上都是基于語言規則或語言知識的。如, 詞法規則、句法分析規則、轉換規則、目標語生成規則等。這些規則都是根據語言專家的經驗總結歸納出來的。而分析規則一般存在由人工編寫、工作量大、規則的主觀性又強、一致性難以保障等不足。這種純粹基于語言知識的狀況漸漸被基于語料庫的機器翻譯方法打破 \\(王厚峰, 2003\\) 。1989年以來, 機器翻譯的發展進入了一個新紀元。這個新紀元的重要標志是, 在基于規則的技術中引入了語料庫方法, 其中包括基于統計的方法、基于實例的方法、通過語料加工手段使語料庫轉化為語言知識庫的方法, 等等 \\(馮志偉, 2010\\) 。近年來, 基于語料庫的機器翻譯系統發展很快, 取得了突出的成績。
1.2 用于機器翻譯的語料庫
與翻譯研究有關的語料庫有三類:平行語料庫 \\(parallel corpus\\) 、多語語料庫 \\(multi-languages corpus\\) 和可比語料庫 \\(comparable corpus\\) 。平行語料庫收集某種語言的原創文本和相應翻譯成另一種文字的文本;多語語料庫是按照類似設計標準建立兩個或多個不同語言單語種語料文本組成的復合語料庫。其中的文本完全是原文文本, 不收集翻譯文本;可比語料庫收集某種語言, 如英語的原文文本, 同時也收集從其它語言翻譯成英語的文本 \\(肖維青, 2007\\) 。
自上世紀90年代中期以來, 西方一批翻譯研究者率先將語料庫運用于翻譯研究, 特別是描寫翻譯研究, 旨在“揭開翻譯文本作為溝通活動媒介的本質” \\(Baker 1993, 轉引自肖維青2007\\) 。1995年以Baker為首的曼徹斯特大學科技學院翻譯研究中心創建了世界上第一個可比語料庫———翻譯英語語料庫 \\(簡稱TEC, 即Translational English Corpus\\) 。近年來, 在語言信息處理的研究和開發中, 單語和多語語料庫 \\(以雙語語料庫居多\\) 的作用日益凸顯出來。特別是在機器翻譯研究中, 人們提出了多種基于雙語語料庫的新方法, 例如采用所謂的基于實例的或基于存儲的機器翻譯方法, 可以直接使用經過對齊的雙語語料改善機器譯文的質量。此外, 也可以通過統計模型從雙語語料庫中獲取雙語詞典和翻譯模式, 從而改進傳統的機器翻譯方法 \\(常寶寶等, 2003\\) 。目前, 國際上也建成了許多大型的平行語料庫, 比如奧斯陸大學的英語—挪威語平行語料庫、加拿大議會會議英法平行語料庫等, 為翻譯研究提供了有力工具, 使人們能更客觀、更科學地考察翻譯的性質以及翻譯過程的種種制約因素;國內主要有北京外國語大學中國外語教育與研究中心建立的通用漢英平行語料庫, 以及北京大學計算語言學研究所同中國科學院計算技術研究所、清華大學智能技術國家重點實驗室聯合開發的漢英雙語平行語料庫等 \\(肖維青, 2007\\) 。目前國內外都建立起各種規模和類型的雙語甚至多語、多模態的基于語料庫的翻譯模式, 例如眾所周知的谷歌 \\(Google\\) 翻譯等。一般來講, 幾萬句對的語料庫僅適用于某個專門翻譯領域或專門區域, 而大多數語料庫的規模都在幾百萬句對左右, 毫無疑問, 規模越大的語料庫提供最優化譯文的機率就越高?;ヂ摼W搜索概念的引入, 使得語料庫規模得以無限地擴大。
1.3 基于語料庫的機器翻譯方法
根據知識獲取方式的不同, 可以將機器翻譯分成基于人工獲取知識的方法 \\(或基于規則的方法\\) 和基于機器自動學習知識的方法 \\(或基于語料庫的方法\\) 兩類;根據學習方法的不同, 后者還可以進一步分為非參數方法 \\(或實例方法\\) 與參數方法 \\(或統計方法\\) 兩種 \\(趙紅梅、劉群, 2010\\) 。這些方法不僅可以直接使用對齊的雙語語料改進機器自動翻譯的質量, 加強機器輔助翻譯中的人機交互, 還可以通過統計模型從雙語語料庫中獲取翻譯模型從而改進費時、易出錯的傳統機器翻譯方法。有學者曾預言, 基于語料庫的機器翻譯系統能夠大幅度超越第三代機器翻譯系統的性能, 很可能成為第四代機器翻譯系統的雛形 \\(肖維青, 2007\\) 。
基于實例和基于統計的這兩種翻譯方法的出現, 大大促進了機器翻譯的發展, 掀起了一場新的研究熱潮。重要的是這兩種翻譯方式都是以大型語料庫的建立為前提的, 由此語料庫的研究成為一些機器翻譯研究人員研究的重點。在基于統計的機器翻譯方法中, 知識的表示是統計數據, 而不是語料庫本身;翻譯知識的獲取是在翻譯之前完成, 翻譯的過程中不再使用語料庫;而在基于實例的機器翻譯方法中, 雙語語料庫本身就是翻譯知識的一種表現形式 \\(不一定是唯一的\\) , 翻譯知識的獲取在翻譯之前沒有全部完成, 在翻譯的過程中還要查詢并利用語料庫 \\(馮志偉, 2010\\) ?;趯嵗突诮y計的機器翻譯方法都屬于數據驅動方法。這兩種方法并不是互相排斥的, 只是解決問題的角度有所不同?;趯嵗姆椒ㄖ饕菑臋C器學習的角度通過翻譯實例進行推理;而基于統計的方法則強調從數學上建立統計模型。如何將不同的方法相結合, 優勢互補, 建立多種方法相融合的機器翻譯系統是很多研究者的研究目標 \\(邵艷秋, 2010\\) 。
近幾年機器翻譯在這兩種方法的推動下, 涌現出了很多的新理論和新方法。不僅翻譯質量較傳統的規則方法有了較大的提高, 而且由于可以從大規模語料庫中自動獲取翻譯知識, 無需人工撰寫規則, 大大縮短了機器翻譯系統的開發周期, 拓展了機器翻譯的應用, 也降低了機器翻譯研究的門檻, 這吸引了更多的研究者投入到機器翻譯研究中來, 使得這個研究領域充滿了生機與活力 \\(劉群, 2009\\) 。1999年開始到現在, 統計機器翻譯方法取得了突破性的發展, 并且現在仍在迅速發展之中, 實際上目前可以說是一個多種方法混合、并行的發展時期 \\(邵艷秋, 2010\\) 。
2. 基于語料庫的機器翻譯的主要方法
2.1 基于實例的方法
基于實例的機器翻譯 \\(Example-based Machine Translation\\) 的思想最早是由日本機器翻譯專家長尾真 \\(Nagao Makoto\\) 于1981年提出、并于1984年發表的。長尾真指出, 人類并不通過做深層的語言學分析來進行翻譯, 人類的翻譯過程是:首先把輸入的句子正確地分解為一些短語碎片, 接著把這些短語碎片翻譯成其他語言的短語碎片, 最后再把這些短語碎片構成完整的句子, 每個短語碎片的翻譯是通過類比的原則來實現的, 也就是“通過類比來進行翻譯” \\(“translation by analogy”\\) \\(馮志偉, 2010\\) 。因此, 我們應該在計算機中存儲一些實例, 并建立由給定的句子搜索類似例句的機制?;趯嵗姆椒‥BMT \\(Example-based Machine Translation\\) 就是指從已經收集的雙語實例庫中尋找與待翻譯的源語言句子最相似的翻譯實例 \\(通常是句子\\) , 再對實例的譯文進行調整從而實現翻譯的一種機器翻譯方法 \\(趙紅梅、劉群, 2010\\) 。
基于實例的機器翻譯系統運作原理是 \\(馮志偉, 2010\\) , 首先, 在基于實例的機器翻譯系統中, 系統的主要知識源是雙語對照的翻譯實例庫, 實例庫主要有兩個字段, 一個字段保存源語言句子, 另一個字段保存與之對應的譯文, 每輸入一個源語言的句子時, 系統把這個句子同實例庫中的源語言句子字段進行比較, 找出與這個句子最為相似的句子, 并模擬與這個句子相對應的譯文, 最后輸出譯文。其次, 在該翻譯系統中, 翻譯知識以實例和義類詞典的形式來表示, 易于增加或刪除, 系統的維護簡單易行, 如果利用了較大的翻譯實例庫并進行精確的對比, 有可能產生高質量譯文, 而且避免了基于規則的那些傳統的機器翻譯方法必須進行深層語言學分析的難點, 在翻譯策略上是很有吸引力的。要進行基于實例的機器翻譯需要研究如下問題:第一, 正確地進行雙語自動對齊 \\(alignment\\) ;第二, 建立有效的實例匹配檢索機制:第三, 根據檢索到的實例生成與源語言句子相對應的譯文。
實例的泛化在翻譯的過程中起著重要作用 \\(趙紅梅、劉群, 2010\\) 。由于待翻譯的源語言并不一定能找到完全相同的實例, 為了找到語義最相似的實例, EBMT要借助語義詞典, 在確定了相似的句子之后, 緊接著的譯文調整必須借助于雙語詞典。EBMT用于全自動翻譯。很顯然, 對那些產品升級換代后的說明書和相關文檔的翻譯, 只要新的文檔與先前版本在內容上有相當程度的一致, EBMT的翻譯效果就是非常理想的。后來人們在最初EBMT的基礎上進行了很多擴展。最典型的就是通過實例的泛化, 形成實例模板 \\(pattern\\) , 所謂泛化也就是把實例中的一些具體詞泛化成一些類別。實例的泛化大大提高了實例的匹配率, 可以減少實際翻譯中所需要的實例庫的規模。理論上, 實例可以逐步抽象成規則, 基于規則的方法本質上可以看成是翻譯實例高度抽象的結果。但是, 由于自然語言的歧義性, 泛化并不是一件輕而易舉的事情。在很多情況下, 待翻譯的源語言還是很難找到可以覆蓋的實例, 這是基于實例方法的局限性, 因而在很多情況下, 基于實例的方法只是作為翻譯系統中其他主流方法的一個補充。
基于實例的機器翻譯方法對句子不做深層的語義分析, 一定程度上避開了難度較高的語言分析過程;其系統可以通過增加實例和詞匯進行擴充, 比較容易維護;另外由于其利用了大量的翻譯實例, 可以產生高質量的譯文。但是, 基于實例的翻譯方法有許多關鍵問題需要解決, 如雙語對齊語料庫的構建, 目前短語層次和詞語一級的語料庫對齊問題還沒有得到很好的解決;在對匹配片段進行檢索時, 如何計算待譯片段和翻譯實例之間的相似度, 找到最合適的片段;如何將實例片段進行有效地組合形成譯文;以及如何提高翻譯實例的覆蓋率等等 \\(邵艷秋, 2010\\) 。
目前世界上的基于實例的機器翻譯系統主要有:日本京都大學長尾真和佐藤 \\(S.Sato\\) 的MBT1和MBT2系統、美國卡內基-梅隆大學的多引擎機器翻譯系統 \\(Multiengine Machine Translation\\) PANGLOSS系統、日本口語翻譯通信研究實驗室ATR的ETOC和EBMT系統、我國清華大學計算機系也進行了基于實例的機器翻譯試驗, 建立了基于實例的日漢機器翻譯系統;在哈爾濱工業大學和清華大學聯合開發的計算機寫作和翻譯的集成環境“達雅”系統中, 也使用了基于實例的技術 \\(馮志偉, 2010\\) 。
2.2 基于統計的方法
統計機器翻譯最早是由IBM公司的研究者在1990年前后提出來的, 他們開發的系統在ARPA組織的機器翻譯評測中取得了可以與SYSTRAN系統相媲美的結果。要知道, SYSTRAN系統經過了幾十年的調試, 而IBM的系統只經過了幾年的開發, 直接從語料庫中獲取翻譯知識, 沒有經過人工的規則調試。IBM的工作在當時引起了轟動。但由于當時IBM動用了最先進的工作站集群計算環境, 其他研究者很難重復他們的工作, 所以在很長一段時間內統計機器翻譯一直停滯不前。一直到1999年, 一些研究者在一次約翰·霍普金斯夏季研討會上, 重復了IBM的工作, 并且發布了一個開放源代碼的工具以后, 統計機器翻譯才重新引起了人們的重視。2002年開始, 美國國家標準技術研究所 \\(NIST\\) 在美國國防高級研究計劃署 \\(DARPA\\) 的支持下, 開展了一個每年一度的機器翻譯評測工作, 在這個系列評測中, 統計機器翻譯方法一鳴驚人, 全面超過了傳統的基于規則的機器翻譯方法, 統計機器翻譯也一舉成為了機器翻譯研究的主流和熱點。近幾年, 統計機器翻譯發展很快, 目前基于短語的模型已經非常成熟, 在此基礎上, 研究者們又提出了很多新型的基于句法的統計模型, 并且取得了初步的成功 \\(趙紅梅、劉群, 2010\\) 。
基于統計模型的方法, 也稱為統計機器翻譯, 其基本思想是 \\(趙紅梅、劉群, 2010\\) :我們可以認為源語言句子到目標語言句子的翻譯是一個概率問題, 任何一個目標語言句子都有可能是任何一個源語言句子的譯文, 只是概率不同, 機器翻譯的任務就是找到概率最大的句子。到目前為止, 基于統計模型的方法經歷了基于詞的模型、基于短語的模型和基于句法的模型三個階段 \\(趙紅梅、劉群, 2010\\) 。統計機器翻譯是基于大量的雙語平行語料庫, 通過對語料庫的統計分析將其中隱含的翻譯知識抽象成統計模型, 然后利用該統計模型進行翻譯。統計模型通常包括翻譯模型和語言模型。翻譯模型的功能是計算將一種語言串翻譯為另一種語言串的可能性, 通常表現為一個條件概率;語言模型用于計算一個語言串在目標語言中出現的可能性, 也就是計算該語言串在目標語言中句法、語義上的合理程度, 通常表示為目標語言的N元模型或者其變形。與基于規則的機器翻譯或基于實例的機器翻譯方法相比, 統計機器翻譯有嚴格的數學理論做基礎, 以概率形式呈現翻譯知識, 模型表現為參數, 訓練過程就是求解參數的過程, 翻譯就是利用參數進行譯文搜索。統計機器翻譯從語料庫中獲取語言知識而不是通過人工進行總結, 從而無需手工編寫詞典和規則。因此, 統計機器翻譯系統可以方便地移植到不同的語種和領域。但是統計機器翻譯對于語料庫的依賴性比較強, 因此語料庫的質量將直接影響統計模型的建立。另外, 相對于規則系統, 統計機器翻譯系統的時空開銷比較大, 其算法的設計也需要進一步研究 \\(邵艷秋, 2010\\) 。
統計機器翻譯有以下優勢 \\(趙紅梅、劉群, 2010\\) :1\\) 由于統計機器翻譯是直接從語料庫中獲取翻譯知識, 不需要人工調試規則和詞典, 與傳統的規則式方法相比, 翻譯系統開發的人工成本低、開發周期短;2\\) 由于翻譯知識是直接來源于大規模的、真實的雙語語料庫, 所以譯文中會經常出現很地道的翻譯表達形式;3\\) 由于是帶參數的機器學習, 翻譯與語言本身無關, 所以翻譯模型可以迅速遷移到新的語種和新的領域。
目前基于統計的方法得到了廣泛的使用, 取得了突破性的進展 \\(張彧、張曉丹, 2010\\) 。在統計機器翻譯中, 將源語言句子翻譯成目標語言句子的過程是隨機的。與傳統的翻譯方法相比, 統計機器翻譯不需要人工構造的翻譯知識, 所有語言知識包括翻譯知識都是從語料庫中自動獲取的。也就是說, 翻譯的過程是在所有譯文中搜索出最優化和使用頻次最高的譯文。文本的翻譯包括詞語的選擇、詞匯的搭配、句法的選擇、語篇的連貫和語用規則的遵循等。而這些知識的應用都是在一定的語料庫中, 通過人工智能中的一些成熟方法來搜索而實現的。因此, 機器統計翻譯使用的語料庫的建立是保證該翻譯方法可行的關鍵。如今由于互聯網搜索概念的引入, 使得語料庫規模得以無限地擴大, 統計翻譯機的技術日臻成熟。
但是基于短語的統計機器翻譯本身存在一些固有缺陷, 如短語層次上的全局重排序, 短語非連續性和泛化能力問題, 極大地束縛了該方法的進一步發展。這使得人們又不得不求助于句法, 因為在理論上或者在人們的直覺上, 引入句法結構知識有助于解決這些問題。所以縱觀統計機器翻譯的發展歷程, 可以看到, 基于句法的統計機器翻譯是繼基于短語的統計機器翻譯之后的一個新趨勢。從目前的情況來看, 有些基于句法的統計機器翻譯系統在性能上已經明顯超過了基于短語的系統, 如2005年NIST機器翻譯評測中的Chiang的Hiero系統, 2006年NIST機器翻譯評測中的ISI的系統和中科院計算所的系統, 在性能上它們接近甚至超過了最好的短語系統。將句法知識引入到統計機器翻譯系統中, 存在多種不同的方法, 如在單詞對齊模型中引入句法知識, 在翻譯之前利用句法知識調整源語言語序在翻譯之后利用句法知識做重新排序 \\(reranking\\) 等 \\(熊德意等, 2008\\) 。
3. 基于語料庫的機器翻譯的發展展望
到目前為止, 統計機器翻譯中用到的語言知識還是很有限的。如果不引入更復雜的語言知識, 一些機器翻譯問題是不可能真正得到解決的。比如說譯文的句法合法性問題、指代問題、篇章問題等等, 目前都沒有得到很好的解決這都有待于研究工作者進行更加深入的研究。應該相信隨著研究的深入, 更多的語言知識將能夠有效地融入到統計機器翻譯之中, 使得機器翻譯的水平更上一個臺階 \\(劉群, 2009\\) 。
基于詞的方法和基于短語的方法幾乎沒有用到任何語言知識, 而是采用了一種詞匯化的概率計算方法, 所有的語言知識直接通過對詞語的概率統計表現出來。目前基于句法的統計翻譯方法開始成為研究的熱點, 特別是在基于語言學句法的翻譯模型中, 句法知識得到了充分的利用, 已經開始超越單純基于短語的方法或者基于形式化句法的方法。正是因為可供翻譯機器利用并進行對比統計的語料庫的存在, 翻譯結果在詞、短語以及句法層面具有信度。因此, 機器翻譯技術在借助語料庫以及相關搜索技術所提供的合理、有效的平臺上, 無論從理論還是實踐層面上, 均邁上了一個嶄新的臺階。但是, 從翻譯結果來看, 在語篇和語義的對應方面問題依然存在?;谡Z義的方法現在還很少有人用, 僅有一些基于詞義排歧的工作, 可使現有的機器翻譯性能略有提高 \\(劉群, 2009\\) 。因此, 未來翻譯模型的發展方向應是建立合理的語義和語用模型, 基于語義的方法將會成為統計機器翻譯發展的趨勢。
開發基于語料庫的機器翻譯系統, 語料庫在未來的發展應集中在以下兩個方面:首先, 不斷溶合各種自然科學 \\(如神經科學等\\) 、社會科學 \\(如語言學、翻譯理論等\\) 和信息技術 \\(如人工智能技術等\\) 的最新成果, 改善基于語料庫的機器翻譯系統的性能和質量 \\(李亮, 2004\\) 。比如, 由神經科學與語言學相結合的神經語言學, 可以使我們更加深入地了解人類處理語言的最深層的機制, 這一理論的應用可以使我們處理語料庫的效率成倍甚至成冪式增長。再如, 重視最新人工智能計算機技術的開發應用, 畢竟語料庫本身是機械的, 如何靈活地使用它是人工智能技術的研究課題之一;其次, 建立和發展多模態語料庫, 逐步建立一系列面向機器翻譯的語料庫、句型庫、文體特征庫、認知知識庫, 并陸續開發一系列相應的的自然語言處理工具、分析工具、檢索工具, 從而使現有的基于文本的語料庫內容更豐富, 使用更靈活 \\(張彧、張曉丹, 2010\\) 。
參考文獻
[1]常寶寶, 詹衛東, 張華瑞.面向漢英機器翻譯的雙語語料庫的建設及其管理[J].計算機輔助術語研究, 2003 \\(1\\) :28-31.
[2]馮志偉.基于語料庫的機器翻譯系統[J].術語標準化與信息技術, 2010 \\(1\\) :28-35.
[3]何蓮珍.基于漢、英語平行語料庫的翻譯數據庫設計[J].現代外語, 2007 \\(2\\) :191-199.
[4]李亮.基于語料庫的機器翻譯[J].上??萍挤g, 2004 \\(2\\) :59-62.
[5]劉群.機器翻譯研究新進展[J].當代語言學, 2009 \\(2\\) :147-158.
[6]邵艷秋.機器翻譯相關術語簡介[J].術語標準化與信息技術, 2010 \\(1\\) :25-27+35.
[7]王厚峰.基于實例的機器翻譯——方法和問題[J].術語標準化與信息技術, 2003 \\(2\\) :33-36.
[8]肖維青.平行語料庫與應用翻譯研究[J].中國科技翻譯, 2007 \\(3\\) :25-28.
[9]熊德意, 劉群, 林守勛.基于句法的統計機器翻譯綜述[J].中文信息學報, 2008 \\(2\\) :28-39.
[10]趙紅梅, 劉群.機器翻譯及其評測技術簡介[J].術語標準化與信息技術, 2010 \\(1\\) :36-45.
點擊查看更多:機器翻譯論文