2014年2月4日 星期二

中文編碼以及相關問題

中文資訊處理

中文編碼以及相關問題

 
 
注意:繁簡體編碼一致的部份,指涉的字型仍然是不一樣的。

繁體
Big5









Unicode
4E2D
6587
8CC7
8A0A
8655
7406
5F88
7C21
55AE
簡體
GB









Unicode
4E2D
6587
8D44
8BAF
5904
7406
5F88
7B80
5355


附註:白色為編碼相同部份,黃色為編碼相異部份。
 
 

一、以前電腦文書處理軟體,其繁體中文採用區域碼Big-5編碼,現在採用萬國碼Unicode,最新版本編號為5.2,但vista面市時支援的是5.0的版本。此外,中華民國政府也自己搞了一套中文編碼,謂之「全字庫」,其中多數編碼都與Unicode 5.0接軌。而所收字數多於Unicode。其原因在於中華民國政府未立法限制造字,以至於許多「好奇」之人,取名字時喜自創新字,造成國家不必要之資源浪費。如中華電信、戶政單位。總之,第一件編輯要明白的事情很簡單,那就是他們現在已經有非常多的中文可用,多數都在支援Unicode 5.0的作業系統,如Vista中具備了相關的字型,同時最新版的昇陽、微軟Word也可以處理這些編碼。至於美編常用的蘋果電腦支援到Unicode幾版,因我手頭上沒有這套系統,請自行測試。同時,Unicode 已經收有很多符號,包括注音符號、部首、撲克牌、麻將、八卦,還有各國文字與古文,如甲骨文、越南喃字,這些字或符號都可在Unicode的相關平面中找到,其他的請自行參考Unicode網站或維基百科說明,便建立相關的知識庫,以免為不必要的字與符號作拼字或畫圖的工作。(幾年前的維基百科相關平面使用非常方便,現在很不方便。)或利用微軟作業系統「系統工具->字元對應表」對某編碼頁進行查看。

  Big-5 收字:13,502 字。

  Big-5有兩個重複字,編碼不同但字型相同,因此使用「取代」功能將無法完全取代。

Big-5空間分配 內碼範圍 字數 說明
A140 - A3BF 408 特殊符號
A3C0 - A3FE 63 未用字區
A440 - C67E 5,401 常用字
C6A1 - C8FE 408 使用者造字區(4)
C940 - F9D5 7,652 次常用字
F9D6 - F9FE 41 擴充字
FA40 - FEFE 785 使用者造字區(1)
8E40 - A0FE 2,983 使用者造字區(2)
8140 - 8DFE 2,041 使用者造字區(3)

預設字集 = 13,502 =常用字+次常用字+特殊符號+擴充字
使用者造字區 = 6,217 = (1)+(2)+(3)+(4)
未用字區 = 63
可定義總字數 19,782

  Unicode 3.1 收字(UCS-2):21,204 字。

Unicode 3.1 中文字及中文造字區:
4E00 - 9FA5 中文字(51A6字,共20902字)
F900 - FA2D 中文字(12E字,共302字)
E000 - F8FF 中文造字區(1900字,共6400字)

(UCS-2,2表示由兩個位元組所構成的編碼,如「原」字編碼為:53 9F。由53與9F組成,16進制表示法。目前實際應用的Unicode版本對應於UCS-2,使用16位的編碼空間。也就是每個字元佔用2個位元組。這樣理論上一共最多可以表示216即65536個字元。基本滿足各種語言的使用。實際上目前版本的Unicode尚未填充滿這16位編碼,保留了大量空間作為特殊使用或將來擴展。)


  Unicode 5.2 收字(UCS-4):74,394字。

(UCS-4。4表示由四個位元組所構成的編碼。最新(但未實際廣泛使用)的Unicode版本定義了16個輔助平面,兩者合起來至少需要佔據21位的編碼空間,比3位元組略少。但事實上輔助平面字元仍然佔用4位元組編碼空間,與UCS-4保持一致。未來版本會擴充到ISO 10646-1實現級別3,即涵蓋UCS-4的所有字元。UCS-4是一個更大的尚未填充完全的31位字符集,加上恆為0的首位,共需佔據32位,即4位元組。理論上最多能表示231個字元,完全可以涵蓋一切語言所用的符號。)

Unicode截至目前為止歷次的版次與發佈時間如下:(取自維基百科)
Unicode 1.0:1991年10月
Unicode 1.0.1:1992年6月
Unicode 1.1:1993年6月
Unicode 2.0:1997年7月
Unicode 2.1:1998年5月
Unicode 2.1.2:1998年5月
Unicode 3.0:1999年9月;涵蓋了來自ISO 10646-1的十六位元通用字元集(UCS)基本多文種平面(Basic Multilingual Plane)
Unicode 3.1:2001年3月;新增從ISO 10646-2定義的輔助平面(Supplementary Planes)
Unicode 3.2:2002年3月
Unicode 4.0:2003年4月
Unicode 4.0.1:2004年3月
Unicode 4.1:2005年3月
Unicode 5.0:2006年7月
Unicode 5.1:2008年4月
Unicode 5.2:2009年10月

  CNS全字庫收字:

  Unicode 5.0包涵以前各版本文字,Unicode 包涵區域碼(如Big5或GB)。
 
 
  至於什麼UTF-8、UTF-16,這些加速網路傳輸與校驗的編碼方式,與編輯作業無關,不需理會。若有疏漏請自行補充。

字碼表漢字字數表

沒有留言:

張貼留言