繁簡互轉問題

　　隨著兩岸圖書版權交易日益興盛、兩岸網站交流頻繁，一個文書處理軟體或一個網路翻譯軟體的「繁簡轉換」功能，也逐漸重要起來！然而時至今日，我們所能使用到的繁簡轉換工具仍然停留在低質量的階段！

　　繁簡轉換牽涉到幾個面向，第一個層面發生在字的轉換上。字的轉換之所以會產生問題，主要發生在兩件事上，一是簡體字有歸併字（如：丑醜、發髮、干乾。），這些歸併字一脫離上下文，便只能對應到一個繁體字（一般作法採用高頻優先！）；二是根據 Unicode 收錄漢字規則，採用「字源分離原則」，因此不同地區（中日韓）對於某一個字的不同寫法，由於來源不同，都予以收錄。但事實上他們所代表的是同一個字。由於第二個原因（形近而誤）所導致的編碼轉換失誤，會造成轉換後的檔案存成 Ansi 編碼後（相當於將Unicode編碼的檔案存成Big5編碼的檔案的意思。），產生「?」（003F）的字元，這是 MS 系統在無法對應編碼的情況下統一的處理方式！因為兩個字雖然長得很像、意思也一樣（如：啟啓、產産、顏顔、艷艶、媯嬀。），編碼卻並不相同。也就是說，這是轉換表的製造者，因為「眼誤」所產生的失誤！但這種失誤，非常容易用程式檢查出來！（寫一個這樣的程式，不用三分鐘！）

　　由於有歸併字的問題存在，因此在字的轉換上，不管演算法、轉換表怎麼設計，理論上「正確率」都不可能達到百分之百！不過這確實存在一個「準確率的極限值」！但每一家都未能達標！

　　第二個層面是詞彙，很多詞彙必須依靠更高層次的知識（上下語境、常識推理）才能予以正確的轉換，譬如：「颱風、台風」。另一種類型是，兩岸對於同一個概念，使用了不同的詞彙，譬如「對象、物件」。（導致的錯誤可能是：她是我結婚的物件！）翻譯類的差異，自然就更不必說了！

　　我在2008年曾經對「谷歌（Google）、微軟（MicroSoft）、昇陽（Sun）」三家公司的相關產品進行繁簡轉換正確率的調查，並公佈在博客上。時至今日，我再一次做了相同步驟的調查（先將繁體字表利用各軟體的相關功能轉簡，再將此表轉繁。步驟為：繁→簡→繁。），結果令人訝異！撇除昇陽的 OpenOffice 系列中的 Write 是開源的且昇陽也被甲骨文收購，因此毫無改進，勉強可以接受之外，其他兩家放著讓它爛的態度，令人不敢苟同！這其中又以 Google 翻譯的繁簡轉換問題最嚴重！

　　以下分就幾家在第一層面上的轉換所產生的失誤，分別列表、略述如下：

　　谷歌（google）：

1	儿	兒
2	几	幾
3	么	麼
4	于	於
5	尢	尤
6	尸	屍
7	干	幹
8	丑	醜
9	丰	豐
10	云	雲
11	仆	僕
12	凶	兇
13	弔	吊
14	斗	鬥
15	占	佔
16	扑	撲
17	朮	術
18	氾	泛
19	伙	夥
20	伋	汲
21	划	劃
22	吁	籲
23	后	後

　　以下是2008與2011年兩次調查的比較表：

軟體	2008調查	2011調查
Word 2003	698	534
Word 2007	424	424
Sun OpenOffice Write	537	537
Google 翻譯	564	563

　　由這個表可以看出，Word 2007與開放原碼的 Write 是其中完全沒動的二個兄弟！Google的表現則最讓人失望！

　　你知道台灣出版社一年要為這樣的錯誤多付出多少成本、代價嗎？只能說，這樣的成本是無形的，因此沒有計算過的人，不會感到痛！但其實卻是非常可怕的！而對於這些大廠商的工程師來說，要修改這樣的錯誤，其實再簡單不過了！不過我們目前所見，只是在「字」這個層面，便已經錯成這樣！其他層面的錯誤一起考慮進來，那就更可觀了！

　　如果這些大企業把這些對照失誤改進了，對於使用者尤其兩岸的出版業（尤其缺乏自動校勘系統的台灣），每年所能省下的成本將是非常可觀！甚至不誇張的說，用來給付數萬名小朋友的營養午餐錢恐怕都有了！

　　我們回過頭來想一想，為什麼繁體世界的軟體發生了這麼多的失誤（包涵微軟錯誤的細明體字體「厲兵秣馬」的「秣」字），幾年來仍然無法得到改進呢？（尤其改進它，是如此簡單的一件事！）是因為繁體使用者的市場小嗎？還是因為繁體使用者都不太注重品質（所以不反應。你反應，大企業都不一定會理你！何況你不反應呢！）？或者是這些大企業根本不想理會繁體使用者呢（企業有擺爛文化？！）？或許答案是綜合性的，只是三種原因所佔比率有別罷了！否則，豐田汽車願意招修美國的汽車，為何這些大企業面對每天都有繁體使用者會使用的繁簡轉換功能（以及細明體），卻擺著讓它爛呢！

　　不管各位的想法如何，至少我不能接受這樣的品質！所以一有機會，我就說你一遍！直到你改進為止！

　　當然，與其等著你改進，不如我自己設計一套，還來得快一點，畢竟，2008至2011也已經過了快三年了！

　　毫無疑問，「繁簡轉換功能」自然也是「赤兔自動校勘系統」中重要的一項功能！

朔雪寒　2011.4.9

資訊

文字：朔雪寒　著

書庫：南史電子書庫

書庫：開放書雲

主站：策略研究中心

朔雪寒

2014年2月4日星期二