2014年2月4日 星期二

繁簡互轉問題之一


繁簡互轉問題


  隨著兩岸圖書版權交易日益興盛、兩岸網站交流頻繁,一個文書處理軟體或一個網路翻譯軟體的「繁簡轉換」功能,也逐漸重要起來!然而時至今日,我們所能使用到的繁簡轉換工具仍然停留在低質量的階段!
  繁簡轉換牽涉到幾個面向,第一個層面發生在字的轉換上。字的轉換之所以會產生問題,主要發生在兩件事上,一是簡體字有歸併字(如:丑醜、發髮、干乾。),這些歸併字一脫離上下文,便只能對應到一個繁體字(一般作法採用高頻優先!);二是根據 Unicode 收錄漢字規則,採用「字源分離原則」,因此不同地區(中日韓)對於某一個字的不同寫法,由於來源不同,都予以收錄。但事實上他們所代表的是同一個字。由於第二個原因(形近而誤)所導致的編碼轉換失誤,會造成轉換後的檔案存成 Ansi 編碼後(相當於將Unicode編碼的檔案存成Big5編碼的檔案的意思。),產生「?」(003F)的字元,這是 MS 系統在無法對應編碼的情況下統一的處理方式!因為兩個字雖然長得很像、意思也一樣(如:啟啓、產産、顏顔、艷艶、媯嬀。),編碼卻並不相同。也就是說,這是轉換表的製造者,因為「眼誤」所產生的失誤!但這種失誤,非常容易用程式檢查出來!(寫一個這樣的程式,不用三分鐘!)

  由於有歸併字的問題存在,因此在字的轉換上,不管演算法、轉換表怎麼設計,理論上「正確率」都不可能達到百分之百!不過這確實存在一個「準確率的極限值」!但每一家都未能達標!
  第二個層面是詞彙,很多詞彙必須依靠更高層次的知識(上下語境、常識推理)才能予以正確的轉換,譬如:「颱風、台風」。另一種類型是,兩岸對於同一個概念,使用了不同的詞彙,譬如「對象、物件」。(導致的錯誤可能是:她是我結婚的物件!)翻譯類的差異,自然就更不必說了!
  我在2008年曾經對「谷歌(Google)、微軟(MicroSoft)、昇陽(Sun)」三家公司的相關產品進行繁簡轉換正確率的調查,並公佈在博客上。時至今日,我再一次做了相同步驟的調查(先將繁體字表利用各軟體的相關功能轉簡,再將此表轉繁。步驟為:繁→簡→繁。),結果令人訝異!撇除昇陽的 OpenOffice 系列中的 Write 是開源的且昇陽也被甲骨文收購,因此毫無改進,勉強可以接受之外,其他兩家放著讓它爛的態度,令人不敢苟同!這其中又以 Google 翻譯的繁簡轉換問題最嚴重!
  以下分就幾家在第一層面上的轉換所產生的失誤,分別列表、略述如下:
  谷歌(google):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23



  以下是2008與2011年兩次調查的比較表:
軟體
2008調查
2011調查
Word 2003
698
534
Word 2007
424
424
Sun OpenOffice Write
537
537
Google 翻譯
564
563
 
  由這個表可以看出,Word 2007與開放原碼的 Write 是其中完全沒動的二個兄弟!Google的表現則最讓人失望!
  你知道台灣出版社一年要為這樣的錯誤多付出多少成本、代價嗎?只能說,這樣的成本是無形的,因此沒有計算過的人,不會感到痛!但其實卻是非常可怕的!而對於這些大廠商的工程師來說,要修改這樣的錯誤,其實再簡單不過了!不過我們目前所見,只是在「字」這個層面,便已經錯成這樣!其他層面的錯誤一起考慮進來,那就更可觀了!
  如果這些大企業把這些對照失誤改進了,對於使用者尤其兩岸的出版業(尤其缺乏自動校勘系統的台灣),每年所能省下的成本將是非常可觀!甚至不誇張的說,用來給付數萬名小朋友的營養午餐錢恐怕都有了!
  我們回過頭來想一想,為什麼繁體世界的軟體發生了這麼多的失誤(包涵微軟錯誤的細明體字體「厲兵秣馬」的「」字),幾年來仍然無法得到改進呢?(尤其改進它,是如此簡單的一件事!)是因為繁體使用者的市場小嗎?還是因為繁體使用者都不太注重品質(所以不反應。你反應,大企業都不一定會理你!何況你不反應呢!)?或者是這些大企業根本不想理會繁體使用者呢(企業有擺爛文化?!)?或許答案是綜合性的,只是三種原因所佔比率有別罷了!否則,豐田汽車願意招修美國的汽車,為何這些大企業面對每天都有繁體使用者會使用的繁簡轉換功能(以及細明體),卻擺著讓它爛呢!
  不管各位的想法如何,至少我不能接受這樣的品質!所以一有機會,我就說你一遍!直到你改進為止!
  當然,與其等著你改進,不如我自己設計一套,還來得快一點,畢竟,2008至2011也已經過了快三年了!
  毫無疑問,「繁簡轉換功能」自然也是「赤兔自動校勘系統」中重要的一項功能!
朔雪寒 2011.4.9


資訊



文字:朔雪寒 著
書庫:開放書雲

沒有留言:

張貼留言