AI 的應用:機器翻譯

機器翻譯的發展歷程

Photo by Aaron Burden on Unsplash

這是聖經中創世紀第十一章的巴別塔橋段,左邊是英文原文、右邊是中文譯文。姑且不論人類語言眾多分歧的原因,語言隔閡是每個人都會遇到的困難,且語言學習是一段漫長且辛苦的過程。雖然有專業的譯者可以為我們翻譯文件,但在數位轉型的趨勢下,文件的數量勢必會越來越龐大,翻譯人才供不應求。除了翻譯人才短缺的問題,稀有語系的翻譯人才也難以培育,所以科學家們嘗試運用 AI 來解決問題,我們稱之為:機器翻譯(Machine Translation)。

機器翻譯的目的在於將一種自然語言翻譯為另一種自然語言(自然語言為人類隨自然演化而發展出的語言,不包含程式語言、世界語等人工語言),其優勢包含:翻譯快速、低成本。

機器翻譯的發展歷程大致可以理解為三個階段:

  • 基於規則的機器翻譯(Rule-Based Machine Translation):
    傳統方法上,語言學家利用語言學知識訂定出大量的翻譯規則,成為機器翻譯的始祖。翻譯規則像是字典一般,運用了「如果⋯⋯,就⋯⋯」的判斷方法來翻譯。這個方法仰賴非常大量的規則(想像字典的厚度)來進行翻譯,即需要非常多專家來編寫這些規則。但字典再厚,也無法涵蓋所有狀況,因為文字之間有無限種組合方式,且翻譯成果也不通順。
  • 統計機器翻譯(Statistical Machine Translation):
    統計機器翻譯採用了基於短語的機器翻譯(Phrase-Based Machine Translation),將要翻譯的句子切成數個短語,翻譯這些短語後,再重新組合成句子。這類型的機器翻譯利用了大量的平行語料(來源語言和目標語言之間的對照譯文,如上述聖經的中/英對照譯文)作為訓練資料,此時因網路蓬勃發展,網頁上大量的平行語料可供訓練(像是維基百科有多種語言可供選擇)。相較於基於規則的機器翻譯,統計機器翻譯的成果已經進步許多,也有許多科技公司投入機器翻譯的研究(如 IBM、Google 等)。雖然成果已經進步許多,但仍有許多錯誤,於是使用了基於統計及規則的混合式機器翻譯。
  • 神經機器翻譯(Neural Machine Translation):
    到了近代,AI 的發展讓機器翻譯又大幅躍進。AI 運用類神經網路(Neural Networks)的技術,直接模擬譯者的思路,讓翻譯成果更為自然、通順。比起過往的作法,AI 能明白一段文本的意義,而不是用查表的方式進行翻譯。神經機器翻譯是目前普遍被使用的作法,目前相關的產品有 Google 翻譯及 Microsoft 線上翻譯。除了利用網路上的大量文本資料進行訓練以外,也可以客製化字彙表來增加翻譯的準確性(例如:專有名詞、人名、特定領域的術語等等)。

機器翻譯可以取代譯者嗎?

以現階段的技術而言,機器翻譯無法完全取代譯者的角色。翻譯理論中的「信、達、雅」原則,分別代表了譯文需要準確、通順、優美,要同時達到這三個指標並不容易。譯者會根據文本的類型選擇翻譯方式,例如:在古典文學的翻譯中,信、雅會是譯者優先考慮的指標;在翻譯商用文件時,譯者會優先考慮信、達。然而,現階段的機器翻譯面對文本,並不會根據文本類型作出調整。

Google Translation 將「松下」翻譯為「Panasonic」

儘管機器翻譯還沒辦法完全取代人工翻譯,機器翻譯的速度和成本優勢仍顯而易見。我們可以結合機器翻譯和人工編修,一方面提高機器翻譯的品質,也加快人工翻譯的速度,換言之以潤飾來取代翻譯工作。隨著自然語言處理(Natural Language Processing, NLP)技術蓬勃發展,機器翻譯的水準還在持續上升,我們將能更有效率的涉略各種不同語言的知識。

機器翻譯的效率之高,可以同步進行翻譯(同步口譯)。今年日本東京所舉辦的奧運吸引了大量外國遊客,在翻譯志工短缺的情況下,一般商家也能運用翻譯機來接待外國遊客。

日本的多國語言即時翻譯機
相關文章
Photo by Glen Carrie on Unsplash

AI 斷詞大解密 – 聊天機器人如何知道我們在說什麼?

現在隨處可見的聊天機器人(chatbot)是如何理解人類的語言呢?想必這是一個大家都有的疑問吧! 我們先回想一下在之前的文章中,像圖書管理員一樣,把堆疊成山的書分類成小說、散文或是詩集;或是英

艾斯AI研究室
艾斯AI研究室
以白話文來解釋人工智慧為一生志業
回到頂端

訂閱JustKa

獲得我們的即時公告與最新資訊