顯示具有 文本比對 標籤的文章。 顯示所有文章
顯示具有 文本比對 標籤的文章。 顯示所有文章

2016年5月1日 星期日

一個人出版:利用文本比對技術對古籍做自動校對二:封神演義


  這次的校對與上次《儒林外史》的差別在於,這次使用的比對版本是一個簡體版本。由於當前還沒有一個可以進行完全轉換的繁簡轉換程式(普世皆然),因此轉換後必然會有無法轉換(無法對一對多的字進行完善的轉換)、甚至轉換失誤的地方(如微軟的轉換功能)。因此一般而言,不會有人拿簡體版來校繁體版。由於文本比對技術可以忽略繁簡轉換的差異,因此這次在得到一個二校版的《封神演義》(封神榜)之後,便決定趁機把這本名著做一次比較完整的校對。隨著個人校對技術的演進,個人所販賣的電子書,不管是免費或收費,都會獲得逐步的改進。《封神演義》這一次校對之後,日後除非全書過眼,否則這應該是最後一次大校了。為了節省讀者時間,以下的影片只錄了一段,這次的整理大概耗時二個小時左右。主因在於這種校對方式與一般校對不同,因此需要對文本有更多的關注,加上有一千多筆差異,因此消耗了比較多的時間。最後,修正了二百多筆差異,意味著二校稿本身最大可能存在至少一千筆以上的錯誤。這本書不計標點是四十多萬字的篇幅,共一百回。

《封神演義》校對畫面
在未修改以前,這個版本已經經過幾次較對了,當時已經是最佳版本。修改完成後,這個版本自然更完善了。
  個人關於古籍校對的想法與計畫,大概如下:
  設計一隻網路機器人,自動前往網路(主要可能是:維基百科、開放文學等。遍及所有學術論文,以及各個網頁。)的相關文本中搜索相關文句。因此,需要先建立副本,以利於比對前後差異。最終將這些版本與個人的版本進行比對,給出差異報表。隨時可以利用零散的時間進行校對。
  目前的這個文本比對程式還是非常簡單的版本,若寫複雜一點,會更省時省力。接下來要校對的大概是《蜀山劍俠傳》,這本書自從換過了版本(基本上是換回來)之後,就一直找不到時間校對。因為之前校對是根據替換前的版本,更換後還來不及用文本比對來校對。主因在於這本書有四百多萬字,之前的版本已經修正了數千筆的錯誤。只是這本書就得耗掉至少五個小時以上的時間。因此會選擇比較空閒的時候來做(即便可能不存在這種空閒時間)。
  個人的出版品不敢保證每一本書都是非常完美,以致於完全沒有錯誤的,不過隨著個人自動校對技術的演進,以及收集資料的日益完善化,書籍的品質會逐步獲得提昇。電子書一個常被拿來當成優勢的地方就是可以隨時更正錯誤,如果今天一些不肖書商,隨意的抓取文字(早期甚至為了不讓使用者看到正文,寧願花時間寫一大堆廢文,以超過5%最低試閱篇幅,以此來欺騙讀者。最終Google強制免費試閱20%之後,倒是省了這些人剪輯貼上一些介紹文字的功夫,但仍然不會對自己的出版品進行優化。),利用一些簡單的廣告學原理,就騙到了多數的讀者。最終,電子書的市場大概只能剩下品質低劣的產品了!

2016年4月26日 星期二

一個人出版:個人電子書出版流程二:校對技術:利用文本比對技術對古籍做自動校對


目前正在進行的語義工程,如果全部完成之後,可以讓「全自動校對」成真。也就是使用者完全不需要管電腦到底改了什麼,其校對品質都會比人工校對還要好。當然,這是指校對軟體的「失誤率」低於萬分之一以下的結果。距離這個目標還有不少的距離。
  那麼個人怎麼校對古籍呢?除了早期許多純手工、人工校稿(《三國演義》、《西遊記》、《隋唐嘉話》等)甚至逐字對稿(《郁離子》,更早期的天策府兵書當然也全是逐字對稿。),這樣的做法自然是做不了太多事情的,而且品質上也難以保證。


儒林外史》的校對實例
因此可以保證這個版本已經是網路最佳版本

  除了標點符號的校對已經有充足的工具輔助校對外,一些古籍中的人名也能使用自動辨識人名的功能進行校對,一些比較現代的詞彙或者繁簡失誤也可以用到目前的校對機制。但如果要更進一步,那就沒有辦法了。且即使如此,總有失誤的,品質上還比不上「用心的」人工校對。
  十幾年來,網路上曾經有過一些風潮,包括把古籍全部電子化的風潮(基本不太可能全部完成),其中很多是由個人之力建立的!但十幾年過去之後,絕大多數的相關網站與相關電子文字都已經隨著時間而消逝了!這種消逝,消逝的不僅是那些文字,更包含了曾經對這些文字進行過校對的人所耗費的無數眼力、腦力、精力!後來雖然出現了維基百科、中國哲學電子書等比較能將這些精力、成果集中保管、維護的網站,但沒有人知道這些網站還能維持多久。至於個人的「策略研究中心」究竟還能維持多久,其實也是一個未知之數。撇除這一點,即便有以上兩個網站的存在,很多熱心人士(包含個人)還是喜歡自行校對自己的文字檔,而這些文字檔也一如其他古籍一般,很容易會隨著校對者的境遇而消失。因此,許多寶貴的生命與品質也在這樣的情況下隨著消失了。
  有鑑於此,個人在一些古籍的處理上,使用了文本比對的技術,利用這樣的技術對古籍進行自動校對。其前提當然是兩個版本都經過了人工校對。藉由文本比對技術,將兩個版本的人工校對的部份進行比對,從而修正當前版本難以由程式自動找出的錯誤。
  這個文本比對技術非常簡單,原本是一個比對抄襲系統的一部分,個人認為很容易可以用來作校對,因此就花了一個半小時左右的時間寫出了這個簡單的文本比對校對程式。
  最終今年結束以前有可能把整個論文或文章抄襲比對系統完成。至於相關的校對理論、技術都是個人自行研發,有機會再就技術面做一些講解。