中文資訊處理

中文編碼以及相關問題

注意：繁簡體編碼一致的部份，指涉的字型仍然是不一樣的。

繁體	中	文	資	訊	處	理	很	簡	單
Big5
Unicode	4E2D	6587	8CC7	8A0A	8655	7406	5F88	7C21	55AE
簡體	中	文	资	讯	处	理	很	简	单
GB
Unicode	4E2D	6587	8D44	8BAF	5904	7406	5F88	7B80	5355

附註：白色為編碼相同部份，黃色為編碼相異部份。

一、以前電腦文書處理軟體，其繁體中文採用區域碼Big-5編碼，現在採用萬國碼Unicode，最新版本編號為5.2，但vista面市時支援的是5.0的版本。此外，中華民國政府也自己搞了一套中文編碼，謂之「全字庫」，其中多數編碼都與Unicode 5.0接軌。而所收字數多於Unicode。其原因在於中華民國政府未立法限制造字，以至於許多「好奇」之人，取名字時喜自創新字，造成國家不必要之資源浪費。如中華電信、戶政單位。總之，第一件編輯要明白的事情很簡單，那就是他們現在已經有非常多的中文可用，多數都在支援Unicode 5.0的作業系統，如Vista中具備了相關的字型，同時最新版的昇陽、微軟Word也可以處理這些編碼。至於美編常用的蘋果電腦支援到Unicode幾版，因我手頭上沒有這套系統，請自行測試。同時，Unicode 已經收有很多符號，包括注音符號、部首、撲克牌、麻將、八卦，還有各國文字與古文，如甲骨文、越南喃字，這些字或符號都可在Unicode的相關平面中找到，其他的請自行參考Unicode網站或維基百科說明，便建立相關的知識庫，以免為不必要的字與符號作拼字或畫圖的工作。（幾年前的維基百科相關平面使用非常方便，現在很不方便。）或利用微軟作業系統「系統工具->字元對應表」對某編碼頁進行查看。

　　Big-5 收字：13,502 字。

　　Big-5有兩個重複字，編碼不同但字型相同，因此使用「取代」功能將無法完全取代。

Big-5空間分配內碼範圍字數說明
A140 - A3BF 408 特殊符號
A3C0 - A3FE 63 未用字區
A440 - C67E 5,401 常用字
C6A1 - C8FE 408 使用者造字區(4)
C940 - F9D5 7,652 次常用字
F9D6 - F9FE 41 擴充字
FA40 - FEFE 785 使用者造字區(1)
8E40 - A0FE 2,983 使用者造字區(2)
8140 - 8DFE 2,041 使用者造字區(3)

預設字集 = 13,502 =常用字+次常用字+特殊符號+擴充字
使用者造字區 = 6,217 = (1)+(2)+(3)+(4)
未用字區 = 63
可定義總字數 19,782

　　Unicode 3.1 收字（UCS-2）：21,204 字。

Unicode 3.1 中文字及中文造字區：
4E00 - 9FA5 中文字（51A6字，共20902字）
F900 - FA2D 中文字（12E字，共302字）
E000 - F8FF 中文造字區（1900字，共6400字）

（UCS-2，2表示由兩個位元組所構成的編碼，如「原」字編碼為：53 9F。由53與9F組成，16進制表示法。目前實際應用的Unicode版本對應於UCS-2，使用16位的編碼空間。也就是每個字元佔用2個位元組。這樣理論上一共最多可以表示216即65536個字元。基本滿足各種語言的使用。實際上目前版本的Unicode尚未填充滿這16位編碼，保留了大量空間作為特殊使用或將來擴展。）

　　Unicode 5.2 收字（UCS-4）：74,394字。

（UCS-4。4表示由四個位元組所構成的編碼。最新（但未實際廣泛使用）的Unicode版本定義了16個輔助平面，兩者合起來至少需要佔據21位的編碼空間，比3位元組略少。但事實上輔助平面字元仍然佔用4位元組編碼空間，與UCS-4保持一致。未來版本會擴充到ISO 10646-1實現級別3，即涵蓋UCS-4的所有字元。UCS-4是一個更大的尚未填充完全的31位字符集，加上恆為0的首位，共需佔據32位，即4位元組。理論上最多能表示231個字元，完全可以涵蓋一切語言所用的符號。）

Unicode截至目前為止歷次的版次與發佈時間如下：（取自維基百科）
Unicode 1.0：1991年10月
Unicode 1.0.1：1992年6月
Unicode 1.1：1993年6月
Unicode 2.0：1997年7月
Unicode 2.1：1998年5月
Unicode 2.1.2：1998年5月
Unicode 3.0：1999年9月；涵蓋了來自ISO 10646-1的十六位元通用字元集（UCS）基本多文種平面（Basic Multilingual Plane）
Unicode 3.1：2001年3月；新增從ISO 10646-2定義的輔助平面（Supplementary Planes）
Unicode 3.2：2002年3月
Unicode 4.0：2003年4月
Unicode 4.0.1：2004年3月
Unicode 4.1：2005年3月
Unicode 5.0：2006年7月
Unicode 5.1：2008年4月
Unicode 5.2：2009年10月

　　CNS全字庫收字：

　　Unicode 5.0包涵以前各版本文字，Unicode 包涵區域碼（如Big5或GB）。

　　至於什麼UTF-8、UTF-16，這些加速網路傳輸與校驗的編碼方式，與編輯作業無關，不需理會。若有疏漏請自行補充。

字碼表漢字字數表

朔雪寒

2014年2月4日星期二

中文編碼以及相關問題

中文資訊處理

中文編碼以及相關問題

沒有留言:

張貼留言

2014年2月4日 星期二

中文編碼以及相關問題

中文資訊處理

中文編碼以及相關問題

沒有留言:

張貼留言

2014年2月4日星期二