2016年5月1日 星期日

一個人出版:利用文本比對技術對古籍做自動校對二:封神演義


  這次的校對與上次《儒林外史》的差別在於,這次使用的比對版本是一個簡體版本。由於當前還沒有一個可以進行完全轉換的繁簡轉換程式(普世皆然),因此轉換後必然會有無法轉換(無法對一對多的字進行完善的轉換)、甚至轉換失誤的地方(如微軟的轉換功能)。因此一般而言,不會有人拿簡體版來校繁體版。由於文本比對技術可以忽略繁簡轉換的差異,因此這次在得到一個二校版的《封神演義》(封神榜)之後,便決定趁機把這本名著做一次比較完整的校對。隨著個人校對技術的演進,個人所販賣的電子書,不管是免費或收費,都會獲得逐步的改進。《封神演義》這一次校對之後,日後除非全書過眼,否則這應該是最後一次大校了。為了節省讀者時間,以下的影片只錄了一段,這次的整理大概耗時二個小時左右。主因在於這種校對方式與一般校對不同,因此需要對文本有更多的關注,加上有一千多筆差異,因此消耗了比較多的時間。最後,修正了二百多筆差異,意味著二校稿本身最大可能存在至少一千筆以上的錯誤。這本書不計標點是四十多萬字的篇幅,共一百回。

《封神演義》校對畫面
在未修改以前,這個版本已經經過幾次較對了,當時已經是最佳版本。修改完成後,這個版本自然更完善了。
  個人關於古籍校對的想法與計畫,大概如下:
  設計一隻網路機器人,自動前往網路(主要可能是:維基百科、開放文學等。遍及所有學術論文,以及各個網頁。)的相關文本中搜索相關文句。因此,需要先建立副本,以利於比對前後差異。最終將這些版本與個人的版本進行比對,給出差異報表。隨時可以利用零散的時間進行校對。
  目前的這個文本比對程式還是非常簡單的版本,若寫複雜一點,會更省時省力。接下來要校對的大概是《蜀山劍俠傳》,這本書自從換過了版本(基本上是換回來)之後,就一直找不到時間校對。因為之前校對是根據替換前的版本,更換後還來不及用文本比對來校對。主因在於這本書有四百多萬字,之前的版本已經修正了數千筆的錯誤。只是這本書就得耗掉至少五個小時以上的時間。因此會選擇比較空閒的時候來做(即便可能不存在這種空閒時間)。
  個人的出版品不敢保證每一本書都是非常完美,以致於完全沒有錯誤的,不過隨著個人自動校對技術的演進,以及收集資料的日益完善化,書籍的品質會逐步獲得提昇。電子書一個常被拿來當成優勢的地方就是可以隨時更正錯誤,如果今天一些不肖書商,隨意的抓取文字(早期甚至為了不讓使用者看到正文,寧願花時間寫一大堆廢文,以超過5%最低試閱篇幅,以此來欺騙讀者。最終Google強制免費試閱20%之後,倒是省了這些人剪輯貼上一些介紹文字的功夫,但仍然不會對自己的出版品進行優化。),利用一些簡單的廣告學原理,就騙到了多數的讀者。最終,電子書的市場大概只能剩下品質低劣的產品了!

1 則留言:

注意:只有此網誌的成員可以留言。