2014年10月21日 星期二

谷歌注音輸入法最新統計數據

  我曾將超自然輸入法(或預測型輸入法)的發展分為三個階段(層次),第一階段是充分利用統計技術,第二階段充分利用語法知識,第三階段充分利用語義理解技術。以前幾天發佈的蘋果原生輸入法看來,它對於第一階段的利用已經開發得快到底了,因此,第三方中文輸入法基本已經可以宣告沒戲了。其中的主因在於當前的其他中文輸入法,一來在統計上利用不足,二來對於語法知識的掌握不夠,三來完全沒有所謂的語意理解技術。所以只有當第三方輸入法能邁入第二層次時,開發蘋果第三方中文輸入法才有意義。但即使如此,由於蘋果當前的取碼數「在最理想狀態下(由於前一篇以及以下各篇的統計數據都排除了注音、拼音首字輸入的試錯按鍵數,因此數據看起來非常好。但如果包含這部份的按鍵數,則每一家的平均取碼數都至少要再拉高取碼數0.1-0.5左右)」已經1.4左右。因此,一般使用者不可能察覺那些取碼數在1.4以上或左右徘徊的輸入法的好處。所以,如果有人說中文第三方輸入法將在蘋果系統形成百家爭鳴的態勢,個人覺得那是天方夜譚。確實,可以有很多人繼續投入開發,但鐵定沒戲。尤其當使用者懂得用客觀的數據而非主觀的感受來衡量一個輸入法的好處時。
  自然,如果以超自然輸入法已經完成(包含設計思想)的部份,那麼蘋果原生中文輸入法即便是在第一階段也還有不少可以改進的地方,這些地方都改進後,即便尚未使用第二階段的技術,也足以將取碼數再降零點幾個百分點。這部份的「細節」或「技術」(目前寫於拙作《中文資訊處理》〈輸入法〉一章之中),等超自然輸入法正式發表後,再來談談。
  以下是對谷歌注音輸入法的最新測試,同樣採用首字輸入混合輸入,並取最好的結果加以記錄(因此事實上沒有人可以剛好第一次就全打出最好的結果)。統計結果可能隨著使用者的個人使用習慣而略有改變。統計樣本雖然小了一點,但還有些參考價值。畢竟人力與時間不足,因此只能用這樣小的樣本來加以統計,這一點請見諒。從這次的統計結果看來,谷歌的進步比較少,或者可能其實沒有更新(不太可能),但不管如何,以這次試驗的結果看來,蘋果幾乎完勝了谷歌。
  這一次挑選的句子,其實是很普通的句子,同時也沒有牽涉到人名、地名等。事實上,輸入法本身還得具備人名、地名識別等功能,所謂的「學習」功能才算達標。這一點,也等超自然輸入法推出後再來詳論。
  統計數據請見以下表格:
原句 長度 按鍵數 比率
你還好嗎 4 5 1.25
記得把東西放到冰箱 9 11 1.222222
要約幾點 4 12 3
我跟別人有約了 7 13 1.857143
今天想去哪吃 6 11 1.833333
我今天早上沒吃早餐 9 13 1.444444
什麼時候回家 6 8 1.333333
最近還好嗎 5 10 2
可以幫我一件事嗎 8 16 2
東西我已經發過去了 9 14 1.555556
你查收一下 5 10 2
在嗎 2 4 2
請儘快回覆 5 6 1.2
老闆通知週末加班 8 14 1.75
什麼時候是最後期限 9 12 1.333333
去樓下等我 5 10 2
五分鐘後 4 5 1.25
記得給我帶東西 7 14 2
我會晚點到 5 12 2.4
現在比較忙 5 7 1.4
怎麼可能 4 5 1.25
我會處理好 5 7 1.4
讓別人代替我先去一下 10 18 1.8
不可能的吧 5 7 1.4
快告訴我 4 6 1.5
你在哪裡 4 5 1.25
我在等你 4 5 1.25
週末小聚一下如何 8 14 1.75
有事請教你 5 8 1.6
還有其他的嗎 6 7 1.166667
還要等幾天 5 11 2.2
你看了嗎 4 7 1.75
回去再說吧 5 6 1.2
沒人知道的 5 7 1.4
就這樣吧 4 6 1.5
待會見 3 11 3.666667
你說這樣就這樣 7 8 1.142857
等我再檢查一次 7 12 1.714286
沒問題 3 3 1
等一下 3 5 1.666667
我還沒出發 5 8 1.6
東西還滿意嗎 6 7 1.166667
你有沒有想我 6 8 1.333333
  240 388 1.616667

沒有留言:

張貼留言