目前關於「中文資訊處理」的書籍,其實也只有一本講得「夠多」的,也就是Ken Lunde的《中日韓越資訊處理》,但事實上,根據個人多年來的摸索,這本厚厚的經典,對於「中文資訊處理」的部份也只是講到了一點皮毛而已。對於每一種個人已經摸索過的技術的思考,多數都寫成了一部分的文字記載下來。成書的時候估計也是很多技術都已經行之多年以後的事情了!
明年,希望可以進入語義工程的建設了!今年年底的超自然輸入法,大概也只能放幾個簡單的模型進去,試試有模型與無模型在預測上的差異!但若要達到0.35鍵一個字的輸入效率,則非完成語義理解模型建構不可。
沒有語義理解技術,卻奢談自動翻譯、語音識別甚至光學文字識別(OCR。目前只有這項技術的辨識率是很高的!但只限於當代印刷品,對於品質校差的印刷品或者民國以前的古籍,用無能為力來形容也是不過分的!)能達到多少精確度,我想那都是給一般民眾錯誤的資訊。幾個月前,大企業說能自動辨識貓了,於是後來連超級電腦都沒有的小公司也出來說自己能辨識很多貓了!我不禁想問,狗辨識出來了嗎?人辨識出來了嗎?幾個月過去了,還是只有辨識出貓嗎?
以上,希望明年有機會再看到自己的計畫大綱時,是語義理解已經完成的時候了!
2015.12.14 朔雪寒
中文資訊處理
|
輸出
|
靜態字型
|
向量字型
|
點陣字型
|
|||
動態組字
|
字型元素、骨骼、特徵萃取
|
||
嵌入式字型
|
|||
造字相關技術
|
|||
語音合成輸出
|
語音特徵萃取、語音合成、平人語音(語音骨骼)
|
||
輸入
|
鍵盤輸入
|
拼音輸入法(如注音)
|
|
拆形輸入法(如倉頡)
|
|||
其他(如筆劃等)
|
|||
手寫輸入
|
|||
語音輸入
|
|||
光學辨識輸入
|
硬體相機、輪廓識別、字體修復、自動校對
|
||
轉換
|
繁簡轉換
|
95%
|
|
自動翻譯
|
|||
編碼轉換
|
區域碼、萬國碼、網路傳輸碼等
|
||
應用
|
文書處理
|
75%
|
|
自動校對
|
赤兔1.0(完成)
|
||
圖文互換
|
|||
搜尋
|
|||
電子字典
|
|||
文字摘要
|
新聞與小說自動文摘
|
||
人格、情緒分析
|
|||
X計畫
|
|||
密碼
|
|||
改寫、創作
|
|||
人工智慧
|
|||
文化
|
古籍電子化
|
||
電子書
|
75%
|
沒有留言:
張貼留言
注意:只有此網誌的成員可以留言。