2014年2月4日 星期二

查找中文字詞的工具


查找中文字詞的工具


  身處資訊時代,不管是作者還是編輯,或者只是一般的使用者,其實我們都有必要理解在寫作時有哪些工具可以用。這樣的好處,不言可喻。一來作者可以更放心的把稿件交給編輯,一來編輯可以更輕鬆的處理相關的稿件(從而提昇或者維護出版品的品質),而一般人則更可以對完善整個中文資訊處理環境盡一分心力(詳下文)!
  這工具,無非是指用來查詢一個中文字的「字碼、字型、字義」或者一個中文詞彙意義與用法的工具。

  作者是稿件的源頭,如果從作者這一端就把文字相關問題搞好,對作者(維護品質)、出版社(節省成本)、編輯(節省時間心力)、教育(小學生、大學生看了出版社滿是錯字的編輯,當然對教育沒有好處!)都有好處。
  一、查「字」。(字碼、字型、輸入方式)
  當你遇到一個字打不出來時,可以到全字庫去查找。那個字可能存在,也可能不存在於當前的系統與編碼之中。利用這個網站,很多原本打不出來的文字都有解了。因為目前的作業系統一般對於萬國碼(Unicode)的支援都在5.0的基礎,5.0的版本已經支援了七萬多字的中文。我們一般常用的中文字不過四千左右,七萬多字的中文其實多數是沒有意義的死字,在台灣則還有更多的使用者自造字(僅僅為了取名而自己造了一個字)。
  那麼為何這個字存在於系統之中,卻顯示不出來呢?因為你的字型並不支援。為何這個字存在於系統之中,卻打不出來呢?因為你的輸入法並不支援,或者你的輸入法所根據的輸入碼有誤(如果開發者參考全字庫的資料,全字庫本身就錯了,那麼你的輸入法便會出錯。由於不會有人去對這種上萬個字的編碼做一一輸入驗證的工作,因此這種錯誤是存在的。同時這也將導致另一個問題產生,這一點我們日後會談到。)!以微軟最新的正黑體而言,已經支援了 Unicode 5.0 的版本,也就是說指定了這個字型,就可以看到七萬多字的中文了(連甲骨文與八卦、天九、國際象棋等符號都有了)!
  全字庫:目前「全字庫網站中CNS11643對應至國際ISO10646之對應資料,提升至對應到Unicode5.2版本,共調整1,751字」;「5.0版全字庫目前可供查詢的字共87,047個中文字、10,771個拼音文字及894個符號;87,047個中文字,包含全字庫第一至第七字面(48,274個)及第十至十五字面(38,773個),可經由全字庫網站以總筆畫數、注音符號、倉頡碼、拼音、筆順序、部件及複合等方式查詢其注音、部首、筆畫、筆順序、部件、國標碼(CNS)及BIG-5碼(含BIG-5E)、Unicode碼等相關屬性;10,771個拼音文字,則位於全字庫第八及第九字面;894個符號,包含國標碼第一字面原有符號(684個)及新建的台灣方言音、日文平假名╱片假名、歐元、國字O等符號(210個),可經由全字庫網站以符號類別查詢其國標碼(CNS)及BIG-5碼(含BIG-5E)、Unicode碼等相關屬性。」(引自全字庫)
  從這個網站你得到了編碼之後,譬如「4E00」,你將這個十六進制的編碼貼到或在word上鍵入後,將編碼反白後,按下「Alt+X」,即可得到字「一」。反之,你想知道一個中文字的Unicode 十六進制編碼,你只要把那個字反白後,按下「Alt+X」就可得到編碼。當然當你的稿件出現了這樣的字時,儘管你的作業系統可以看到,或者你基本沒有注意到你的作者用了一個Unicode 5.0的字(UCS4編碼,四位元編碼),那麼你可能在將稿子送到印刷廠印製後產生問題。這問題的來源可能是你為你的書稿選用了一個不錯的字體,但這個字體並沒有支援到這個字,於是你書印出樣稿後,那邊可能就是一個空白!
  除非你是研究竹簡帛書等出土文物的作者(相關缺字還是不少,可見本站的出土竹簡兵書即可得知。),或者你非得提到一個用了自造字的人名,那麼你才可能有缺字問題。因為,Unicode 5.0便已支援甲骨文了!前者的需求還與文化相關,後者簡直是胡搞!而台灣沒有立法限制取名時不得「自造字」,於是很多人都想過過當倉頡的癮頭!從而造成了整個中文資訊處理的「嚴重困擾」!我今天寫這篇文章時,看了全字庫,看到了這則新聞「新增戶政姓名用字全字庫暫編碼42字」,看了就火!像這種亂七八糟的自造字,只會跟隨他的主人一生,然後從此就沒人聞問與使用了!而為了這樣一個人,我們得付出非常沉重的資訊處理成本。包括相關單位造字空間不足、字型,單位與單位之間造字編碼不一導致溝通錯誤,等等問題。
  此外,你也可以利用微軟作業系統「系統工具→字元對應表」對某編碼頁進行查看。(估計你不會有興趣!)
  雖然這網站很好用,也是國家級的產品,但還是有不少錯誤的。僅舉兩例如下(事實上很多。)
CNScode = 666199 ,錯誤字串= 29293,4 ,注音符號:ㄉㄞㄉㄞˇㄝˋ,錯誤類型:4000。
CNScode = 684901 ,錯誤字串= ,4,3 ,注音符號:ㄝˋㄝˇ,錯誤類型:4000。
  「ㄝ」,是不單獨發音的。這種類型的錯誤,只要輸入法不經審核的採用(鐵定是如此的),使用者就不可能打出來!尤其如果輸入法的規則本身不容許只輸入「ㄝ」就能取字的話(因為不符注音的型式規則)。由於單獨輸入「ㄝ」是不合法的,因此就算他的讀音對照表剛好有「ㄝ」對應的字,由於他首先不會去檢查,因此就算有,你也不可能打出來!而如果一個字只有這個音符,那很不幸,就算你的輸入法收錄了那個字,你還是無法打出它。

  二、查「字義、詞彙義」。
  有兩個網站是非常好用的。
  教育部國語辭典:這就不用說了,很多編輯都靠這吃飯呢!但你得留意他自己所說的這句話:
(二)本辭典所立詞目,如遇文獻用字有參差現象者,為顧及讀者查索所需及語言資料之存錄,
  亦酌予收錄。
  如:除收差之毫釐,謬以千里一詞外,亦收如下之詞:
    【差之毫釐,失之千里】──見舊唐書.卷二○○.朱泚等傳.史臣曰:蓋差之
                 毫釐,失之千里,蛇螫不能斷腕,蟻穴所以壞隄。
    【差若豪釐,繆以千里】──見禮記.經解:君子慎始,差若豪釐,繆以千里。
                 
    【差以豪釐,謬以千里】──見漢書.卷六十二.司馬遷傳:察其所以,皆失其
                 本也。故易曰:差以豪釐,謬以千里。
 
  其實古籍在流傳的過程中也產生了很多錯誤,這些錯誤的類型,跟今天常犯的錯誤類型有很大的重疊。「豪、毫」明顯就是「形音皆近而誤」的類型。教育部居然都收錄了,那麼如果你以錯誤的去找,自然找到了錯誤的!當然,前去用這句查驗的結果是都只有「毫釐」而無「豪釐」了。但既然這是他自己明言的一個收錄規則,你便不得不留意了。
  漢典:在這裡除了可以讓你看到基本的白話解釋以外,還可以看到《康熙字典》、《說文解字》對相關文字的解釋。非常好用的一個工具。
  維基詞典:一個分類上比較特別的詞典。但由於還在建設中,因此就不多介紹了!

  三、查「古文」。
  三個網站:
  維基文庫:維基文庫的很多文章都來自於網路,有些有人校勘、有些沒人校勘,因此並不可靠。除此外,其中的古籍有些來自繁體網站,有些來自簡體網站,這可能產生嚴重的問題。由於簡體字有歸併字,加上早期的、晚期的許多文書處理軟體,如 Word、Write(open office)、Google Doc,他們的繁簡轉換功能都不完善,因此藉由這些軟體轉換過來的古文,錯誤連連!如果再加上原本打字輸入就會產生的一堆錯誤,那更是不忍卒睹了!
  之所以把他放在第一位,乃在於他不僅是免費的,更是最大的一個!而且會越來越大。
 
  中研院漢籍:這是一個設計上非常糟糕、應用上非常不便的網站!(前幾年還要收費!)怎麼說呢?首先以《史記》而言他將文段切分為好幾個單位,無法讓你舒服的上下文銜接著看,甚至還會懷疑那些上下文是否是接續的。其次,只要你試著使用他的搜尋系統,你就會知道他有多糟糕了!當然,他唯一的好處是版本文字上比較靠譜!但還是有錯的。
  譬如:
  「錯字」:
  經書與子書/二、諸子與專著/(一)諸子/通玄真經(文子)/卷第十一/上義
  赤帝為火炎(災),故黃帝擒之,共工為水害,故顓頊誅之.教人以道,導之以德而不聽,即臨之以威武,臨之不從,則制之以兵革.
  《太平御覽》某「枹」字誤為「抱」字。(相關資料已經遺失。)
  「標點不一」:(以前根本不用新式標點)
  經書與子書/一、經書/(一)十三經注疏/春秋左傳正義/昭公/卷四十八/傳十七年
  君其備之乃警戒備
  經書與子書/一、經書/(二)斷句十三經經文/春秋左傳/昭公/傳十七年
  君其備之.乃警戎備
 
  中研院早期的版本不僅沒有使用新式標點符號,而且缺字問題也並未針對Unicode的版本更新而與時俱進,目前的狀態還是很糟糕的。而且已經持續了幾年,很多書還是看不到。(免費有什麼用?)至於對Unicode的支援,由於使用上太不方便,搜尋引擎比以前差很多,因此無暇去探索!
 
  寒泉:一個早期的古籍搜尋軟體,古籍收錄的不多,但搜尋起來很方便。缺點是有很多缺字。也不再維護。
 
  當使用者要查找古文時,中研院、寒泉或其他只是一個便利的手段,但以一個編輯而言,這樣做是不靠譜的。首先是兩站所用的版本不同,其次是你的作者所用的版本也不一定與這些網站的版本相同。如果你的作者有所本,你應該去找他的版本來校勘,而非圖個便利,隨便應付了事,甚至「把對的改成錯的」。
  中研院的版本:
  〈呂氏春秋.知分〉:「其僕將馳,晏子無良其僕之手曰。」
  寒泉的版本:
  〈呂氏春秋.恃君覽〉:「其僕將馳,晏子撫順其僕之手曰。」
  〈知分〉是〈恃君覽〉的其中一篇,這是其一,其二由上可見兩者的版本文字差異是很大的。
  至於其他的差異,我就不再多說了。
  當然,如果你要查找兵書,那麼「策略研究中心」是你唯一的選擇!上面的兵書很多都是反覆校過的!

  四、查「百科」。
  當然,除了維基百科,你還會想到的是大英百科。不過,那是要付費的。而且中文版大英百科,也有不少錯誤,僅舉一例如下:
  瑣羅亞斯德(西元前628~西元前551)
  Zoroaster(628B.C.~551B.C.)
  古伊朗語作Zarathustra伊朗宗教改革家、先知、瑣羅亞斯德教創始人。

  瑣羅亞斯德教與祆教(501~600)
  Zoroastrianism and Parsiism (501~600)
  伊斯蘭教出現之前古代伊朗的主要宗教。創始於6世紀。反對多神論,只崇拜最高神阿胡拉‧瑪茲達。
 
  這個錯誤是非常離譜的。現在修正了沒,我並不清楚,也沒有興趣去弄清楚。但從以上的例子中,你不難發現,整個中文資訊應用的工具裡面,只有具有普遍性意義的如「維基百科、Google」是方便的,其他的有些方便,但量少不再維護,有些則耗費了不知道納稅人多少錢,卻越搞越糟!
  如果你是一個對「正誤、是非、黑白」很執著的人,網路的工具只是一個參考!尤其當你對那個領域並不熟悉時,你更是不能完全相信它!

  五、搜尋引擎。  
  當然只有 Google 一家是堪用的。微軟的Bing聽說還因為疑似盜用了Google的搜尋結果,目前Google已對微軟提起了相關訴訟。
  我這裡要談的是,很多編輯習慣於使用Google來決定一個「詞彙」應該是甲而非乙!這種荒謬性是不言可喻的!表面上他可以拿語言乃「約定成俗」來說事!事實上,這無非是一個用來掩飾自己對語言文字不理解的冠冕堂皇的藉口。
  從以上舉例,可見連政府單位的都會出錯。而那些開發輸入法的企業的語料其實很多都是從政府單位取得的。也就是說,如果一個輸入法本身的詞彙就錯了,假設他的市占率很高(譬如微軟的xp),那麼日積月累之下,那個錯誤的詞彙的使用次數無疑會凌駕於正確的詞彙的使用次數上,而罪魁禍首無非就是開發輸入法的企業沒有盡到品管之責。
  也就是說,你有可能用非倉頡類的輸入法打出錯誤的詞彙。而這個錯誤的來源有可能只是輸入法開發公司取得了錯誤的原始資料,或者他取得了正確的資料,卻被他的開發者無意間搞錯了。如此一來,這樣的錯誤詞彙,便很容易在搜尋引擎中取得高的搜索率。這是其一。
  其二,網路上寫文章的人,並非是全部的人口,而也沒有人知道那大概的比例。同時,常寫文章的人寫的文章數量,又可能是從來不上網、不上網寫文章的人的數十百千倍。因此拿網路上一個搜尋引擎的搜索率來當成「約定俗成」的證據,不僅在邏輯上、科學上,甚至在常識上都站不住腳。而且既然有國家單位的辭典,為何還要去依靠搜尋引擎呢!難道這些編輯的身邊從來都沒有一本紙本的「中文大詞典」之類的玩意嗎?
  第三,今天我要寫一個程式來刻意提高某個錯誤詞彙的搜索率,那是非常容易的。我只要寫一個可以自動搜尋網路最新新聞與最前一百個關鍵詞的程式,然後再將這個錯誤的詞彙嵌入在這樣的一堆文字之中。同時每天每秒的製造文章,那麼那個錯誤的就會很快變成一些習慣於使用搜尋引擎來決定「是非」的編輯心目中「理想」的詞彙!
  那麼,你還打算繼續這麼幹嗎?
 

資訊



文字:朔雪寒 著
書庫:開放書雲

沒有留言:

張貼留言

注意:只有此網誌的成員可以留言。