2015年12月4日 星期五

Google 雲端硬碟與微軟OneNote OCR 教學

  OCR即光學文字辨識(Optical Character Recognition)的英文縮寫。為了評比各大企業的OCR技術,因此決定自己寫一篇教學。
  這次準備的是許天虹翻譯的傑克倫敦小說《世界公敵》譯文圖片,是目前正在製作的電子書的底稿。(目前已經出版了許天虹小說譯叢中的《雙城記》)關於許天虹的譯筆,台灣讀者應該是不陌生的,但對於這個名字則相對陌生!因為總總「能找出的理由」,一本書的真實譯者的名字被掩蓋了很久!總之,這次趁著製作公版小說翻譯電子書的時機,會陸續介紹這些早該被大家所認識的譯者。以下是這次測試用的圖片:

Google

一個月前試用時辨識度略低一點,今天重新使用後,辨識度在可以接受的範圍內。但只測試了這張圖片。實際的辨識率數據等過一陣子有空再寫一篇專門的來評比。

步驟一

  先選擇Chrome左上角的選單,點擊「雲端硬碟」。

步驟二

   點選右上角「新增」→「檔案上傳」。

步驟三

  選擇要上傳的影像檔案,這次選的是「強者的力量.PNG」(也即傑克倫敦小說《世界公敵》頁面。)。

 步驟四

檔案上傳到雲端硬碟後,點選檔案,按下滑鼠右鍵,選擇「選擇開啟工具」→「Google 文件」。

步驟五

  進入「Google 文件」之後,選擇右上角「檔案」→「下載格式」→「純文字」。即可完成OCR文字辨識流程。


Google OCR效果

  以下為Google 2015.12.4日的辨識結果:
________________

世界公献
(譯者按·這篇小說發表於一九一○年以前,其中所說的事當然都出於作 者的活潑想像,但他邦偽稱是從一十世紀後半期出版的一部書—名叫「古怪 的罪犯們」—摘取出來的,說得活龍活現。2 科學化的巫師、人類的大敵—愛彌兒·格魯克—-終於被西拉斯·班南曼捉住了 。格魯克在坐「電椅」以前所作的供狀,闡明了一九三三年至1九四一年之間擾亂世界 的一連串莫明其妙的大事,其中有許多似乎是彼此毫無關係的。比如葡萄牙國王和王后 的被刺,跟紐約市許多警察官的被暗殺,在這深可注意的供狀公布之前,世人絕沒有夢 想到其間有什麼關連。愛彌兒·格魯克的作為固然很可僧,我們邦也不禁要對這不幸的 、變態的、被虐待的天才發生一些哀憐。他的這一方面的故事還沒有人講過;根據著他 的供狀和當時的大批證言、文件、記錄,我們邦可以繪成一幅他的相當精密的寫照,而

微軟OneNote 

  微軟提供OCR的功能並不友善,最新的Office使用者,普遍使用的是這個方式來進行OCR。

步驟一

  打開OneNote(以下使用2013版):


步驟二

選擇增加一個新的章節:

步驟三

  選擇要上傳的影像檔案,這次選的是「強者的力量.PNG」(也即傑克倫敦小說《世界公敵》頁面。)。

 步驟四

在圖片上按下滑鼠右鍵,跳出選單後選擇「複製圖片的文字」,OCR後的文字已經在剪貼簿之中。

步驟五

  將剪貼簿中的文字貼到記事本或Word上即可完成文字識別工作。

微軟 OCR效果

  以下為微軟OneNote 2015.12.4日的辨識結果:

的 供 狀 和 時 的 大 批 證 言 、 文 件 、 記 錄 , 我 們 却 可 以 成 一 幅 他 的 相 當 精 的 照 , 而 一 
想 到 共 有 什 關 連 , 。 愛 彌 兒 · 格 魯 克 的 作 爲 固 然 很 可 憎 , 我 們 却 也 不 禁 對 這 不 幸 的 
被 , 跟 紐 約 許 多 警 察 官 的 被 暗 殺 , 在 這 深 可 注 意 的 供 狀 公 布 之 前 , 絕 沒 有 夢 
的 一 連 串 莫 明 其 妙 的 大 事 , 共 中 有 許 多 似 乎 是 彼 此 毫 無 關 係 的 。 如 … 匍 萄 牙 國 正 和 王 后 
、 的 . 、 被 虐 待 的 天 才 發 生 一 些 。 他 的 這 一 方 面 的 故 事 沒 有 人 講 過 
。 格 魯 克 在 坐 r 電 椅 凵 以 前 所 作 的 供 狀 , 闡 明 了 一 - 一 
科 化 的 師 、 的 大 敵 — , , 彌 兒 · 格 魯 克 ; 終 於 被 酉 拉 斯 · 班 南 曼 捉 『 
的 罪 犯 們 二 , 摘 取 , 來 的 , 得 活 龍 現 。 
者 的 活 潑 想 像 ; 但 他 却 僞 是 從 二 十 世 紀 後 牛 期 版 的 一 , ! ! 眲 古 怪 
世 界 敵 
譯 者 按 : 這 篇 小 發 表 於 一 九 一 O 年 以 前 , 共 中 所 的 事 當 然 都 於 作 
一 丿 一 一 一 三 年 至 一 九 四 一 年 之 擾 亂 界 
· , 丨 』 
他 一 

微軟的結果,若用慘不忍睹來形容,應該不為過吧!


2015.12.5續測試

  由於微軟第一頁已經明顯遜於Google與Abbyy,目前主要以後者進行工作。於是回想之前測試,Google的水準沒有這麼高!因此把整個檔案上傳,結果只給出了幾頁結果。有些結果與微軟第一頁的辨識結果不相上下,詳細的比對,等整本書製作完成後,會再交代。這幾頁結果,請見:(以下採用Tiff檔案為辨識底稿檔案格式,此前的為PNG,結果似乎有點影響!儘管理論上不該有太大影響甚至不該有影響,但結果確實如此,至於影響的幅度如何,請見下次的詳細報告。)
________________
  
________________

世界公献
C譯者按·這篇小說發表於一九一○年以前,其中所說的事當然都出於作
者的活潑想像;但他邦偽稱是從二十世紀後半期出版的一部書—名叫「古怪 的罪犯們」—摘取出來的,說得活龍活現。2
科學化的巫師、人類的大敵—愛彌兒·格魯克— -終於被西拉斯·班南曼捉住了
。格魯克在坐「電椅」以前所作的供狀,闡明了一九三三年至一九四一年之間擾亂世界 的一連串莫明其妙的大事,其中有許多似乎是彼此毫無關係的。比如葡萄牙國王和王后 的被刺,跟紐約市許多警察官的被暗殺,在這深可注意的供狀公布之前,世人絕沒有夢
想到其間有什麼關連。愛彌兒·格魯克的作為固然很可僧,我們邦也不禁要對這不幸的 、變態的、被虐待的天才發生一些哀憐。他的這一方面的故事還沒有人講過,根據著他 的供狀和當時的大批證言、文件、記錄,我們邦可以繪成一幅他的相當精密的寫照,而
________________
  
________________

韜射那些把他塑成人間的怪物驅使他去走他那條可怖的路徑的種種因素和壓力來
愛彌兒·格魯克在一八九五年生於紐約州的西拉古斯城。他的父親,約瑟夫·格魯 克,射」潤特別巡警和守夜人。在一九○○年突然死於肺炎症。母親是個脆弱可愛的 訊配,唯出嫁前做過女裁縫,在她的丈夫死後竟然悲傷死了。她的這種敏感遺傳給那孩 子,且變成了病態而可怖。
在一九○一年,六歲的愛彌兒就住到他的姨母安妮‧巴泰耳夫人家裏去了。安妮雖 是他母親的姊妹,但對於這個敏感的、異縮的孩子並沒有抱著一點親切的感情。她是一 個虛浮的小器的硬心腸的女人e 而且她又很窮困,她的丈夫是一個懶惰的·乘展的 無用之長物。年幼的愛娜兒·格魯始並不受勸迎,安妮·巴泰群夫人也充分把這事實深 印在他的心上。下面的一個實例,可以表明他在這幼雅的形成期中所受到的待遇。
他在巴泰耳的家裏住了一年稍多一點的時候,他跌*副了一條腿。這是由於在被禁止 的屋頂上遊戲正如古今以至未來的一切男孩子都要做的那樣。他的腿在膝蓋以上跌 斷了二處。由那些驚恐的同伴扶助著,愛彌兒勉強爬到了屋前的人行道上,在這兒他暈
過 去 了
隘 近 的
* 則兒童們都害怕巴泰耳家裏承臉色嚴厲的桿婦,不過他們也硬著頭皮去拉 門鈴,把這意外之事報告了安妮·巴泰耳夫人。她一眼都不看那倒臥在人行道上的小子
§ ø •
________________
  
________________

,巡自碰上了門,回去洗她的衣服去了。過了好些時候,落起細雨來了·醒了過來的愛 彌兒·格魯克躺在雨中廢泣著。他那條腿本來應該立刻接好的。可是現在呢,迅速地發 了炎,把事情弄糟了。在兩小時以後,磷近的婦女們憤怒起來,對安妮提出了抗議。這
一次、她走出來看那孩子了。她用腳踢著無可奈何地躺在那兒的他,歇斯的里地否認他 没廷o/
。他並不是她的孩子,她說,並且主張叫救護車來送他到市立收容醫院裏法。說畢,她
就回到屋裏去了。 衡一位姊人名叫仰
扇百葉窗上,掠開了安妮
子 馨 放
بيtھر
ुन्!
医娶 → 生 在
*修
麗沙白·薛普斯東的,得知了這情形,就命人把那孩子 生
阻« 把打到屋裏去O她又去請醫
o f%
了 ±%浮躁
變|-泰}的车卡上 依!*會**门。邙际协_苏凡*Ło, ;i * 付醫藥費給他的。前後兩個月,小愛彌兒 生生
攔 到時,安妮立刻就警告他,她不會付醫藥費船在床上, 第一個月裏始終仰天躺著,一次都翻不過身來·、他沒人照顧地獨自躺在那裏,只有那工 作過度而得不到報酬的醫生偶爾來看他一下。他沒有玩具,沒有什麼來消遣那坑長厭煩 有一只撫慰的手按在他的額上,沒有一點溫愛
的 孩。
他 的時光。沒有對他講一句和善的話,沒 表情或行動—什麼都沒有,只有安妮·巴泰耳的責罵和苛酷,反復不已地告訴 們不要他這個人。我們很易於明自,怎樣在這樣的環境中,那孤寂的、沒人照顧的 心中發生了不少對他的同類的恨意和敵意,後來竟表現為命世人這麼恐怖的行為。
9 子他的爆
„No
| * |



2015.12.7續測試

  Google的雲端OCR很難整檔的辨識,而且使用者要下載文字檔時,「必須」等到Google Docs確定讀完(顯示完整圖片)之後,才「可」下載!這意思是如果使用者不等它讀完,就下載純文字,那結果是不可接受的。但如果等它讀完以後再下載辨識檔,那麼就會得到比較高的辨識率!

沒有留言:

張貼留言