2015年12月14日 星期一

《中文資訊處理》技術大綱

  以下這張表格,大概始於2007年左右的計畫大綱,雖然個人早有計劃把中文資訊處理的所有技術跑過一遍。但真正寫這張表還是在2007年左右的事情。轉眼間,已經過了快十年了。許多技術都摸過了:字型技術(細項太多不列舉)、繁簡轉換、自動校對、文書處理、輸入法(預測與拆型)、中文分詞、詞庫、電子書、文本比對等等,被浪費的時間實在太多了,整個進度延宕至今,一直無法順利的進入語義理解工程的建構。沒有語義理解技術,預測型輸入法(如超自然輸入法)、自動校對、自動翻譯、語音識別,都無法有質的飛耀!人工智慧就更是不可能完成的事情了!
  目前關於「中文資訊處理」的書籍,其實也只有一本講得「夠多」的,也就是Ken Lunde的《中日韓越資訊處理》,但事實上,根據個人多年來的摸索,這本厚厚的經典,對於「中文資訊處理」的部份也只是講到了一點皮毛而已。對於每一種個人已經摸索過的技術的思考,多數都寫成了一部分的文字記載下來。成書的時候估計也是很多技術都已經行之多年以後的事情了!
  明年,希望可以進入語義工程的建設了!今年年底的超自然輸入法,大概也只能放幾個簡單的模型進去,試試有模型與無模型在預測上的差異!但若要達到0.35鍵一個字的輸入效率,則非完成語義理解模型建構不可。
  沒有語義理解技術,卻奢談自動翻譯、語音識別甚至光學文字識別(OCR。目前只有這項技術的辨識率是很高的!但只限於當代印刷品,對於品質校差的印刷品或者民國以前的古籍,用無能為力來形容也是不過分的!)能達到多少精確度,我想那都是給一般民眾錯誤的資訊。幾個月前,大企業說能自動辨識貓了,於是後來連超級電腦都沒有的小公司也出來說自己能辨識很多貓了!我不禁想問,狗辨識出來了嗎?人辨識出來了嗎?幾個月過去了,還是只有辨識出貓嗎?
  以上,希望明年有機會再看到自己的計畫大綱時,是語義理解已經完成的時候了!

2015.12.14 朔雪寒


中文資訊處理
輸出
靜態字型
向量字型
點陣字型
動態組字
字型元素、骨骼、特徵萃取
嵌入式字型

造字相關技術

語音合成輸出
語音特徵萃取、語音合成、平人語音(語音骨骼)
輸入
鍵盤輸入
拼音輸入法(如注音)
拆形輸入法(如倉頡)
其他(如筆劃等)
手寫輸入

語音輸入

光學辨識輸入
硬體相機、輪廓識別、字體修復、自動校對
轉換
繁簡轉換
95%
自動翻譯

編碼轉換
區域碼、萬國碼、網路傳輸碼等
應用
文書處理
75%
自動校對
赤兔1.0(完成)
圖文互換

搜尋

電子字典

文字摘要
新聞與小說自動文摘
人格、情緒分析

X計畫

密碼

改寫、創作

人工智慧

文化
古籍電子化

電子書
75%

沒有留言:

張貼留言