2014年3月6日 星期四

孫子兵法中翻英與谷歌自動翻譯00004

  谷歌翻譯成效良好的原因,不在於演算法更為聰明,而是谷歌研究人員的想法就如同班科和布里爾,做法是輸入更多資料,而不只是輸入高品質的資料。……谷歌的人工智慧專家諾威格等人,就曾在一篇名為〈資料的非理性效果〉的文章中寫道:「簡單的模型、加上大量的資料,就會打敗很複雜,但資料較少的模型。」諾威格等人也指出,雜亂正是關鍵:「在某些方面,可以說谷歌語料庫還不如布朗語料庫,因為資料內容的網頁未經過濾,會有不完整的句子、拼字錯誤、文法錯誤,以及其他種種錯誤,而且也沒有經過人工精心修正、標註各種詞類資訊。但就因為它的規模是布朗語料庫的百萬倍,已足以蓋過所有缺點。」(《大數據》p58)
  以上這段話,應該還是成立的。那麼從我們最近貼的幾則翻譯看來,效果似乎毫無疑問不如人意。為什麼?這就牽涉到之前提到的「大數據的極限」。確實,谷歌翻譯的效果仍然還是可能領先其他的翻譯軟體,但如果它只是立足於以「大數據」為基礎來發展所有演算法,那麼它很容易就會面臨極限值,而難以甚至無法超越了。也就是「大數據」本身可以提供不錯的品質,但它也有個門檻在那裡,過了這個門檻,想要再往前進,幾乎是「寸步難行」了。這同樣適用於任何想要單純的利用大數據來進行預測的作法。
  我們以「輸入法」的最簡單預測方式為例,就是統計每一個字後面出現哪些字的字頻來做預測(譬如:「預」後面可以是「測、先」等字。)。因此,當數據量很小時,它的準確率是很低的,但當數據量超過一個臨界值之後,它的功效幾乎可以說「到頂」了,也就是即使不停的增加資料量,它的進步也非常非常有限,甚至不再進步了。以「一」這個字為例,在一萬字的語料庫裡,它後面可能跟了一百個字;在一個十萬字的語料庫裡,它後面可跟了三百個字;在一個一百萬字的語料庫裡,它後面可能跟了五百個字。但可能超過一百萬字以後,它後面跟的字與總字數的比率就會「驟減」。同時,更主要的一點是,可能在一百萬字以後它後面所跟的字的「排序」就幾乎不再變動了。這時候就算再增加十倍的語料,也對於它的預測能力沒有任何助益了。
  這個「現象」同樣適用於藉由「大數據」來做預測的其他領域。以「超自然輸入法」為例,這種預測方式僅是最基本的構件,要提昇預測型輸入法的預測能力,還得藉由其他手段來達成。
  我們在這裡以《孫子兵法》中翻英來對翻譯軟體進行度量,並不是想要借用它的成果(因為目前看來還不堪用),而是想要理解當前自動翻譯的程度,以及體現出的相關問題。同時拿這些來跟人工翻譯做一點比較。不過目前我還沒有那麼多時間放在這裡,如果以整本《孫子兵法》為例,每天放一則,也要放一年半才會放完。讀者可藉機用這種方式,無壓力的學習《孫子兵法》。一日咀嚼一句話,一年半載後也自然的看完了整本書。當然,這個過程,如果不放上點故事的話,顯然會比較枯燥的。因此,實際上的執行時間可能超過兩年。為了避免本站淪為簡單的名句轉貼,因此,大概每三句之後,會有一段論述,或者其他相關主題的闡述。
  今天要介紹的一句是:
  故兵知彼知己,百戰不殆;不知彼而知己,一勝一敗;不知彼不知己,每戰必殆。(〈謀攻〉篇)
  所以在戰爭中,能理解敵人也能理解自己的人,即使作戰一百次也不會有危險;不理解敵人而理解自己的人,有一半的機會獲勝,有一半的機會失敗;不理解敵人也不理解自己的人,每一次作戰都一定會有危險啊!(白話翻譯)
  Google中翻英:So in war, the enemy can understand people can understand their own, even though there will not be a hundred times the risk of war; do not understand the enemy and understand his own people, half the chance of winning, half the chance of failure; does not understand the enemy do not understand themselves, every battle will definitely be dangerous ah!

  Therefore I say:'Know the enemy and know yourself; in a hundred battles you will never be in peril. When you are ignorant of the enemy but know yourself, your chances of winning or losing are equal. If ignorant both of your enemy and of yourself, you are certain in every battle to be in peril.'(Samuel B. Griffith)
  Google英翻中:因此,我說:“知己知彼,百戰不殆,在百仗你將永遠處於危險之中。當你是無知的敵人,但了解自己,你輸贏的機會是相等的。如果無知和自己的兩個你的敵人,你一定在每一場戰爭將處於危險之中。“
  Hence the saying: If you know the enemy and know yourself, you need not fear the result of a hundred battles. If you know yourself but not the enemy, for every victory gained you will also suffer a defeat. If you know neither the enemy nor yourself, you will succumb in every battle.(Lionel Giles)
  Google英翻中:故曰:如果您知道敵人,知道自己,你不用擔心百戰役的結果。如果你知道自己,但不是敵人,每一個獲得了勝利,你也將遭遇慘敗。如果您知道既不是敵人也不是你自己,你會屈從於每一場戰鬥。

  從以上的翻譯可以明顯看出,不管是Griffith或Giles的翻譯也都未能盡如人意。至於那些已經被筆者改正的句子,翻譯後的語意自然就相差更遠了。


沒有留言:

張貼留言