2014年2月4日 星期二

文本錯誤類型分類表

中文資訊處理

文本錯誤類型分類表



錯誤類型
分支類別
註解
音誤音同而誤
如再在。
音近而誤如後害、哈罰
形誤形近而誤
如水火木。
省形而誤如「字、子」子為字之省形,古代避諱缺筆或者書籍遭蠹蟲咬損都有可能導致這樣的錯誤。
兩字合為一字如「日、月」合為明,古代書籍直排,因此多是上下部件組合的誤字為多。如王念孫糾正的《戰國策》「觸龍言」誤做「觸讋」。又如:尉繚子「謀而守之也」誤為「豪士一謀者也」。又如:「王月坡」誤為「王肚皮」(笑話),屬於分而又合的綜合性錯誤。
一字分為兩字如「明」分為日、月,解說同上,今日的OCR軟體仍有機會犯出相同的錯誤。
形音皆誤
通常具有相同的聲符,如「經、輕」。
義近而誤
意義相近而換用導致的錯誤。如淮南子「聽、聞」之誤,再經由其他途徑,難免有狗誤為人的現象出現了。「獲、得」(得二將)
增字
增加文字。
減字
減損文字。可能導致很多問題,如省略了主詞。
錯置
古代又稱為「互乙」,如「意願」錯置為「願意」。
繁簡
繁體字與簡體字互相轉換後所導致的編碼錯誤,可分為三種:
一、一般由轉換軟體發生「形近而誤」所產生的字型與編碼對應錯誤所致。
二、歸併字未能轉正確所導致的錯誤。
三、某些字型在簡體中相似,但在繁體中差距很大。簡轉繁容易將錯誤擴大化,如「于子、哂晒」相近,轉繁後為「於子、哂曬」,形體差異就遠了。

語法
如「他一拳打他了」,為「他打他一拳了」,或「他打了他一拳」、「他一拳打了他」之誤。
知識
知識錯誤所導致的錯誤,如秦始皇劉邦,秦始皇為嬴政,劉邦為漢高祖。以前項為主,但可給出兩個修正項。
符號
如項目符號的錯誤,如一、二、四,缺了第三項。
標點
如引號少了一個,兩個句號相連。
排版
排版引起的錯誤,形式複雜。
其他
如「錯簡」為竹簡使用時期所產生的特殊錯誤,即竹簡編繩斷絕後重新編排竹簡而產生整簡位置錯誤的情況。
解釋錯誤一字多義如:越人之兵雖多。
斷句錯誤如:小敵之,堅;智,不足將兵。
語法錯誤如:餌兵勿食。


沒有留言:

張貼留言