朔雪寒: 《中文資訊處理》技術大綱

2015年12月14日星期一

《中文資訊處理》技術大綱

　　以下這張表格，大概始於2007年左右的計畫大綱，雖然個人早有計劃把中文資訊處理的所有技術跑過一遍。但真正寫這張表還是在2007年左右的事情。轉眼間，已經過了快十年了。許多技術都摸過了：字型技術（細項太多不列舉）、繁簡轉換、自動校對、文書處理、輸入法（預測與拆型）、中文分詞、詞庫、電子書、文本比對等等，被浪費的時間實在太多了，整個進度延宕至今，一直無法順利的進入語義理解工程的建構。沒有語義理解技術，預測型輸入法（如超自然輸入法）、自動校對、自動翻譯、語音識別，都無法有質的飛耀！人工智慧就更是不可能完成的事情了！
　　目前關於「中文資訊處理」的書籍，其實也只有一本講得「夠多」的，也就是Ken Lunde的《中日韓越資訊處理》，但事實上，根據個人多年來的摸索，這本厚厚的經典，對於「中文資訊處理」的部份也只是講到了一點皮毛而已。對於每一種個人已經摸索過的技術的思考，多數都寫成了一部分的文字記載下來。成書的時候估計也是很多技術都已經行之多年以後的事情了！
　　明年，希望可以進入語義工程的建設了！今年年底的超自然輸入法，大概也只能放幾個簡單的模型進去，試試有模型與無模型在預測上的差異！但若要達到0.35鍵一個字的輸入效率，則非完成語義理解模型建構不可。
　　沒有語義理解技術，卻奢談自動翻譯、語音識別甚至光學文字識別（OCR。目前只有這項技術的辨識率是很高的！但只限於當代印刷品，對於品質校差的印刷品或者民國以前的古籍，用無能為力來形容也是不過分的！）能達到多少精確度，我想那都是給一般民眾錯誤的資訊。幾個月前，大企業說能自動辨識貓了，於是後來連超級電腦都沒有的小公司也出來說自己能辨識很多貓了！我不禁想問，狗辨識出來了嗎？人辨識出來了嗎？幾個月過去了，還是只有辨識出貓嗎？
　　以上，希望明年有機會再看到自己的計畫大綱時，是語義理解已經完成的時候了！

2015.12.14 朔雪寒

中文資訊處理	輸出	靜態字型	向量字型
		靜態字型	點陣字型
		動態組字	字型元素、骨骼、特徵萃取
		嵌入式字型
		造字相關技術
		語音合成輸出	語音特徵萃取、語音合成、平人語音（語音骨骼）
	輸入	鍵盤輸入	拼音輸入法（如注音）
			拆形輸入法（如倉頡）
			其他（如筆劃等）
		手寫輸入
		語音輸入
		光學辨識輸入	硬體相機、輪廓識別、字體修復、自動校對
	轉換	繁簡轉換	95%
		自動翻譯
		編碼轉換	區域碼、萬國碼、網路傳輸碼等
	應用	文書處理	75%
		自動校對	赤兔1.0（完成）
		圖文互換
		搜尋
		電子字典
		文字摘要	新聞與小說自動文摘
		人格、情緒分析
		X計畫
		密碼
		改寫、創作
		人工智慧
	文化	古籍電子化
	文化	電子書	75%

沒有留言:

張貼留言

注意：只有此網誌的成員可以留言。

2015年12月14日 星期一

《中文資訊處理》技術大綱

沒有留言:

張貼留言

2015年12月14日星期一