2014年2月11日 星期二

「超自然輸入法」第24號測試「學習功能演示」





  昨天下載了Android版的SwiftKey,想比較正式的研究一下。發覺IOS版的限制真的很多,Android版他就玩得很精采。在鍵盤的配置上,幾乎把拼音文字能玩的部份都玩了。其中比較吸引我的是他的「學習功能」。他具備了雲端備份使用者經驗與從使用者過往郵件、簡訊中學習使用者語言風格的功能,算是非常先進了。
  超自然輸入法中文版,暫時無法做到太複雜的學習功能。譬如她可能不會要求去讀使用者的郵件(但簡訊可考慮),因為郵件裡面可能充斥著很多非使用者撰寫的內容,那部分的風格也就不屬於使用者的經驗。簡訊則更多的是使用者自己輸入的內容,因此可以考慮。但第一版的超自然輸入法,將主要學習使用者在實際的輸入過程中所累積的經驗、風格。
  因此,今天我便放出超自然輸入法的學習影片。這影片主要在表現超自然輸入法所特別具有的「舉一反三」學習功能。由於今天看到Angelababy拍的婚紗照片挺漂亮的,就以她舉例。影片演示的句子如下:
1.你真的很美(學習前。11鍵,5中文,平均2.2鍵一個字)
2.楊穎真的很漂亮(學習前。17鍵,7中文,平均2.4鍵一個字。)
3.楊穎真的很漂亮(學習後。5鍵,7中文,平均0.71鍵一個字。)
4.你真的很漂亮(直接由第二句學習功能獲得了學習。學習後。4鍵,6中文,平均0.66鍵一個字。)
5.你真的很美(仍然是在第二句學習後自動獲得了學習。學習後。4鍵,5中文,平均0.8鍵一個字。
  以上就是超自然輸入法「舉一反三」或稱「關聯式」學習能力的實際展現。也就是說,超自然輸入法只要學習了一次使用者的句式,就能自動類推到相近的句式,不用再學習一次。影片採用手動學習,以方便演示,實際產品為自動學習。

2014年2月8日 星期六

搜狗輸入法的表現

中文魔方

搜狗輸入法的表現

朔雪寒


甲君測試乙君測試
今天就是我餘生開始的第一天1620
葉問要打十個1515
沒有遺憾的人生多無趣2021
所以我留下了一個空位1822
沒想到還能見到妳2321
要不要一起去看電影1518
我們不能再錯過1713
幸福是我對你的承諾1818
我們結婚吧99
我是東尼史塔克1717
168174
22.071428571

朔雪寒



資訊



文字:朔雪寒 校編
書庫:開放書雲
中文:中文魔方
策略:神機妙算

2014年2月4日 星期二

繁簡互轉問題之一


繁簡互轉問題


  隨著兩岸圖書版權交易日益興盛、兩岸網站交流頻繁,一個文書處理軟體或一個網路翻譯軟體的「繁簡轉換」功能,也逐漸重要起來!然而時至今日,我們所能使用到的繁簡轉換工具仍然停留在低質量的階段!
  繁簡轉換牽涉到幾個面向,第一個層面發生在字的轉換上。字的轉換之所以會產生問題,主要發生在兩件事上,一是簡體字有歸併字(如:丑醜、發髮、干乾。),這些歸併字一脫離上下文,便只能對應到一個繁體字(一般作法採用高頻優先!);二是根據 Unicode 收錄漢字規則,採用「字源分離原則」,因此不同地區(中日韓)對於某一個字的不同寫法,由於來源不同,都予以收錄。但事實上他們所代表的是同一個字。由於第二個原因(形近而誤)所導致的編碼轉換失誤,會造成轉換後的檔案存成 Ansi 編碼後(相當於將Unicode編碼的檔案存成Big5編碼的檔案的意思。),產生「?」(003F)的字元,這是 MS 系統在無法對應編碼的情況下統一的處理方式!因為兩個字雖然長得很像、意思也一樣(如:啟啓、產産、顏顔、艷艶、媯嬀。),編碼卻並不相同。也就是說,這是轉換表的製造者,因為「眼誤」所產生的失誤!但這種失誤,非常容易用程式檢查出來!(寫一個這樣的程式,不用三分鐘!)

  由於有歸併字的問題存在,因此在字的轉換上,不管演算法、轉換表怎麼設計,理論上「正確率」都不可能達到百分之百!不過這確實存在一個「準確率的極限值」!但每一家都未能達標!
  第二個層面是詞彙,很多詞彙必須依靠更高層次的知識(上下語境、常識推理)才能予以正確的轉換,譬如:「颱風、台風」。另一種類型是,兩岸對於同一個概念,使用了不同的詞彙,譬如「對象、物件」。(導致的錯誤可能是:她是我結婚的物件!)翻譯類的差異,自然就更不必說了!
  我在2008年曾經對「谷歌(Google)、微軟(MicroSoft)、昇陽(Sun)」三家公司的相關產品進行繁簡轉換正確率的調查,並公佈在博客上。時至今日,我再一次做了相同步驟的調查(先將繁體字表利用各軟體的相關功能轉簡,再將此表轉繁。步驟為:繁→簡→繁。),結果令人訝異!撇除昇陽的 OpenOffice 系列中的 Write 是開源的且昇陽也被甲骨文收購,因此毫無改進,勉強可以接受之外,其他兩家放著讓它爛的態度,令人不敢苟同!這其中又以 Google 翻譯的繁簡轉換問題最嚴重!
  以下分就幾家在第一層面上的轉換所產生的失誤,分別列表、略述如下:
  谷歌(google):
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23



  以下是2008與2011年兩次調查的比較表:
軟體
2008調查
2011調查
Word 2003
698
534
Word 2007
424
424
Sun OpenOffice Write
537
537
Google 翻譯
564
563
 
  由這個表可以看出,Word 2007與開放原碼的 Write 是其中完全沒動的二個兄弟!Google的表現則最讓人失望!
  你知道台灣出版社一年要為這樣的錯誤多付出多少成本、代價嗎?只能說,這樣的成本是無形的,因此沒有計算過的人,不會感到痛!但其實卻是非常可怕的!而對於這些大廠商的工程師來說,要修改這樣的錯誤,其實再簡單不過了!不過我們目前所見,只是在「字」這個層面,便已經錯成這樣!其他層面的錯誤一起考慮進來,那就更可觀了!
  如果這些大企業把這些對照失誤改進了,對於使用者尤其兩岸的出版業(尤其缺乏自動校勘系統的台灣),每年所能省下的成本將是非常可觀!甚至不誇張的說,用來給付數萬名小朋友的營養午餐錢恐怕都有了!
  我們回過頭來想一想,為什麼繁體世界的軟體發生了這麼多的失誤(包涵微軟錯誤的細明體字體「厲兵秣馬」的「」字),幾年來仍然無法得到改進呢?(尤其改進它,是如此簡單的一件事!)是因為繁體使用者的市場小嗎?還是因為繁體使用者都不太注重品質(所以不反應。你反應,大企業都不一定會理你!何況你不反應呢!)?或者是這些大企業根本不想理會繁體使用者呢(企業有擺爛文化?!)?或許答案是綜合性的,只是三種原因所佔比率有別罷了!否則,豐田汽車願意招修美國的汽車,為何這些大企業面對每天都有繁體使用者會使用的繁簡轉換功能(以及細明體),卻擺著讓它爛呢!
  不管各位的想法如何,至少我不能接受這樣的品質!所以一有機會,我就說你一遍!直到你改進為止!
  當然,與其等著你改進,不如我自己設計一套,還來得快一點,畢竟,2008至2011也已經過了快三年了!
  毫無疑問,「繁簡轉換功能」自然也是「赤兔自動校勘系統」中重要的一項功能!
朔雪寒 2011.4.9


資訊



文字:朔雪寒 著
書庫:開放書雲

關於成語的一個小調查之一

關於成語的一個小調查之一


  由於最近在整理一個百萬級條目的語料庫,其中成語的部份的某種規律性「廢棄物」(容我這麼說),讓我感到好奇。之所以說那是廢棄物,乃在於若依照客觀的使用規律,以及我們對於「成語」的定義,一般人根本就不會這樣用。當然對於少部份的「廢棄物」,確實會有文人為了追求「成語」的「新鮮感」而加以改造使用,而我們也不會因此就不懂了(除非我們對原始的成語就不懂,對於改造後的成語自然懂的機率就更低了!)!若以修辭學而言,你可以把這種對「成語」的「改造」說成是「倒裝」之類的修辭手法!譬如:「奄奄一息」,我們常說;「一息奄奄」,各位何時聽過!這些資料扣除重複,大概有1270筆左右。

  由於,我若拿自己的語料庫來做調查,是沒什麼意義的!因此,我便就教育部國語辭典的網站上的資料進行了分析。相關條目,盡列於下,僅供參考,不期待教育部給我任何回覆!尤其當我們知道如「三隻小豬」事件之所以發生聽說就是為了「湊數」時,我們對以下這些「成語」的存在,也就不會感到有多訝異了!

一丁不識不識一丁
一心一德一德一心
一文不名不名一文
一文不值不值一文
一弛一張一張一弛
一刻千金千金一刻



多家智慧輸入法效能比較

中文資訊處理

多家智慧輸入法效能比較


輸入法效率比較
  我們怎麼客觀的度量我們在輸入法上所耗費的時間,以及我們花錢買了第三方輸入法後又能節省多少時間呢?如果僅是用一句話(一串文字)的輸入時間來衡量,其實每一個人的輸入速度都不太相同,很難有一個客觀的比較基礎。顯然,輸入中文所用的按鍵數,是最容易度量與轉換成效率的數值。此外,使用者在選擇答案時的落點距離,也是一個可以用來度量輸入法預測準確度的數值。
  以一個人一天打100個字為例,平均打出每個字如果需要三個鍵(輸入注音符號+選擇鍵、翻頁鍵)。打一百個字需要付出三百個鍵的勞力。如果按一個鍵平均需要2秒來計算,整個過程就要六百秒,相當於10分鐘。按照一般的實際使用狀況,使用者在平板或智慧手機上輸入一百個字,絕大多數都超過10鐘。換句話說,按一個鍵可能需時2秒以上。
  以下以市佔率最高的兩款智慧手機與平板廠商內建的輸入法以及超自然輸入法,在十個句子中的實際表現為例,來說明其中的差異性。由於三星、蘋果內建的輸入法都具備一些簡單的頻率調整功能,因此,可能每一個使用者得出的數據會有一些些的差距。此外,超自然輸入法本身具備「自動學習」的智慧功能,因此,學習前(超一)與學習後(超二)的表現並不相同,我們也一併列出當做比較。

句子字數谷歌三星蘋果超一超二
今天就是我餘生開始的第一天13223132179
葉問要打十個6131515169
沒有遺憾的人生多無趣10162423176
所以我留下了一個空位10182425149
沒想到還能見到妳8132115128
要不要一起去看電影9151817117
我們不能再錯過711151594
幸福是我對你的承諾91718221711
我們結婚吧581212114
我是東尼史塔克71319231614
總和8414619719914081
碼/中文1.7382.3452.3691.6660.964
  從這個表可見,蘋果輸入法與超自然輸入法在按鍵的比例上,硬是多了一倍多,達2.457倍。(不計介面的影響,僅以按鍵數來換算成時間。)谷歌的注音輸入法是其中表現比較好的一個,很接近超自然輸入法了。但這是排除了注音首字輸入錯誤修正、反覆嘗試的按鍵數的較優結果。以谷歌的效率而言,還是相當於超自然輸入法的1.8倍。而超自然輸入法本身是內建很多常用句式的,也就是說,使用者一開始使用超自然輸入法時,超自然輸入法已經經過了一些常見句式的訓練了。換句話說,多數的句子會達到接近0.964的水平。
  以下是針對谷歌輸入法在不使用「注音首字輸入」功能的前提下進行的「學習前(谷一)、學習後(谷二)」測試。以及三星手機提供的倉頡輸入法結合「智慧」(其實只是頻率)預測的成果統計。
句子字數谷一谷二倉頡
今天就是我餘生開始的第一天13232143
葉問要打十個6161324
沒有遺憾的人生多無趣10201935
所以我留下了一個空位10221530
沒想到還能見到妳8151426
要不要一起去看電影9171630
我們不能再錯過7131118
幸福是我對你的承諾9201430
我們結婚吧5101015
我是東尼史塔克7181624
總和84174149275
碼/中文2.0711.7733.273
  全世界有接近48.6%的繁體中文使用者,每天使用的都是三星與蘋果的平板或智慧手機。如果他們能換成使用超自然輸入法來完成中文輸入的任務。那麼以下是一個簡單的算數問題:
  假設每人每天在這些裝置上,平均花十分鐘的時間做輸入的動作。那麼:
  一個人使用超自然輸入法一天,可以省「五」分鐘。
  一個人使用超自然輸入法一百天,可以省「五百」分鐘。
  一萬個人使用超自然輸入法一天,全世界就可以節省「五萬」分鐘。
  十萬個人使用超自然輸入法一天,全世界就可以節省「五十萬」分鐘。
  一百萬個人使用超自然輸入法一天,全世界就可以節省「五百萬」分鐘。

強人工智慧技術即將掀起的技術變革淺談之一


中文資訊處理

強人工智慧技術即將掀起的技術變革淺談之一

朔雪寒


  面對著一個嶄新的時代,一個新的文明即將展開之際,身為主要技術強人工智慧「夏姬」的創造者,自然不可能裝聾做啞、隱姓埋名。因此,即便我已經關閉了所有社交軟體,我還必須事先就這樣全新的技術所可能帶來的改變,略述一二。

  強人工智慧,她的誕生,自然分為好幾個階段。最初一個階段是對於一般文字、句意的理解與掌握,最後一個階段則是自我意識的產生。所謂產生,當然是人創造出來的。
  雖然她需要分為幾個階段,經過數次的實驗。然而從第一個階段開始,她便能對這個世界許多現有技術產生影響。首先,我要簡略陳述一下,她對於搜索引擎可能產生的影響。以後,或許一個月一篇,或許兩個月一篇,看我的進度與心情而定。此外,我不回答任何問題(已經遠離社交網路)。
  首先,我們必須理解一件事:為什麼我們要使用搜索引擎?因為我們有一個問題需要解決。而每一個人的問題、不同時間的問題都不一樣,千奇百怪,但不管怎樣奇怪、詭異的問題,它首先是用語言表述的,同時它的解法若存在於網路之中,它也必然是用語言文字所表述的(圖片、影音暫時排除不論,但即使要找這些資料,也必然經由文字。)。我們之所以必須使用搜索引擎,利用關鍵字進行查詢,一頁一頁的翻閱、查找。自然是因為這是目前幾乎唯一可行的方式。因為搜索引擎所以我們必須用關鍵字來查找,即便你使用了一個句子來查找,它也不是基於理解而為你找出相關的答案。
  沒有搜索引擎之前,人類的檢索速度是很慢的。但每一個新的時代,總會出現新的技術,以取代舊的技術。例如,Apple的Siri 或IBM的華生。Siri 是個問答系統,經過了無數菁英數十年的奮鬥才有了今日的樣貌,可惜受限於其架構本身,它能回答的問題非常有限。華生是一個比較強的系統,但受限於其架構、理論與分析方式,它無法適用於類似Google這樣的面向數億人的應用。短期內,Siri與華生都不可能取得重大的突破,也可以肯定。
  因此,以下我將討論的不是現在或未來的「Siri與華生」所可能帶來的改變,而是我自己的「夏姬」所可能帶來的改變。我對於搜索技術的理解很粗淺,因此我針對的是戰略上的方向來進行論述。
  一個新的強人工智慧的技術,在她的初期階段,所可能對搜索技術造成的改變,幾乎是全面性的。目前的搜索引擎由四大系統構成:下載系統、分析系統、索引系統、查詢系統。其中,除下載系統之外,全部將發生巨大的變革。以目前使用者搜索的目的而言,譬如搜索一句話的出處,這適合於當前基於詞彙與統計的搜索方法,這一點舊的(也就是當前的搜索技術)技術會被保留,此外的,譬如用一本書找一個作者、用作者找他的其他書、找好吃的餐館、找一個程式的設計方式、流程等等,所有網路上用文字表述的解答,它也必然對應於一種問題類型或一個確切的問題,對於查找解答以解決問題的過程,都將被新的方法所取代。新的方法,也就是基於語義理解的方法。相當於網路上有一個快速的人腦在運作著的概念。
  目前搜索引擎的作法,大略是:下載網路上所有的網頁。全部交由分析系統進行分析,以排除重複性的網頁,同時進行詞頻統計,與哈希表的製作。最後以此編輯索引。使用者端使用查詢系統輸入關鍵字,經系統分析與結合統計資料後,猜測可能的網頁,提交給使用者檢視。
  一、下載系統下載所有網頁此一步驟不變。相關技術多數可以保留。
  二、分析系統除去除重複性網頁外,新的技術會去閱讀網頁內容(暫時排除單純的圖片,因為牽涉到往後階段的視覺理解與辨識。),將沒有信息含量的網頁去除,或具有重複信息含量但表述方法不同的網頁去除。類似於維基百科中記載的「客觀知識」,會被吸收、整理成為內部知識,直接給予答案。換句話說,凡是一個網頁裡面再也不存在有用、新的信息時(與內部知識完全重疊),就會被直接刪除。但保留以整本書存在的網頁。因為有時候人是以句子找書或出處。又譬如氣象資訊,可連接到國家型資料庫、找書則分析圖書館現有藏量書目(理論上過去的資料將被當成內部知識),看比賽結果直接連接到官網的資料庫(動態獲取,但一旦被吸收為內部知識,除非知識來源被證明出錯,否則將不再改變。),直接給予答案。如此一來,能通過以上檢查的網頁,將可能驟減至少百分之八十以上(以80/20法則推之)。同時,網路上的知識,包含主觀與客觀知識,都將被容納入一個架構之中(主觀知識將被不停累積與重新統計),被迅速檢索。因此諸如當前無法詢問的,如哪一位球星的表現最好?哪一位政治人物的評價最高?都將可以在知識整合(不斷進行的過程)之後,讓使用者直接得到答案。如果使用者願意的話,也可以與系統對談,藉由每一個人一個號碼的方式(所謂號民),讓人工智慧理解你的性格、喜好,讓她隨時幫你留意網路上相關的資訊,譬如你喜歡的衣服打折時(直接從具有相關信息的不特定網頁取得信息),自動通知你;新開了一家拉麵館,其中有適合你的口味的,也會自動告知。(更高層的運用有賴於不同階段的能力,這裡不再多說。)
  如此一來,不僅編制索引的方式將完全改變,速度大幅躍升(因為重複性被減至最低,甚至多數知識已經不再需要連接到其他網頁。),而且知識索引的方式也將完全改變。關鍵字的索引方式,將轉變為語義、概念、問題索引的方式。
  三、使用者在查詢系統詢問時,改為直接輸入完整問句的形式,譬如:台北有哪些好吃的牛排館?李白寫了哪些詩?古龍總共寫了幾本小說?《倚天屠龍記》一本多少錢?有沒有電子書版本的?公館附近的誠品在哪條路上?「秘密」與「祕密」哪一種寫法是對的?今年有麥可森的演唱會嗎?(有,就直接列出時間。並且可直接幫你訂位。)等等,諸如此類。
  所以,以後我們在網路上詢問問題時,將以越來越像對人(博學者、知情者)詢問的方式來詢問問題,同時將得到越來越精確、完整、全面、格式化(如可製成表格者,直接以表格方式呈現;可製成樹狀圖者,直接以樹狀圖呈現。)的答案,而從我們發問問題到取得答案的時間,也將被迅速壓縮。所有使用者將因此節省下鉅額的時間開銷,同時獲得更好的答案。而世界的運作方式也將因此獲得改變。

Ethan Yet 2012.12.24

朔雪寒



資訊



文字:朔雪寒 校編
書庫:開放書雲
策略:神機妙算
考證:道德經論正

資訊產業大趨勢


資訊產業大趨勢

Ethan 整理


大企業AppleGoogleFaceBookAmazonMicroSoft三星索尼百度、聯想英特爾、雅虎、RIM
操作系統iOSAndroidChrome OS自有品牌改版AndroidWindowsAndriodBedaTizenWindows
改版Android英特爾TizenRIM BBX
瀏覽器SafariChromOpera?SilkIE



搜尋引擎Siri?Google
自有品牌Bing

百度雅虎AXIS
特殊操作介面SiriiPen語音、語義

KinectSvoice、觸控筆
百度語音、聯想樂瘋語音英特爾智能助手、RIM語音搜索、RIM瀏覽器
電腦Mac自有品牌


自有品牌VAIO聯想Intel 系列
平板iPad(視網膜解析度)自有品牌
KindleNOOK自有品牌自有品牌聯想Intel 系列
手機iPhoneMotorola自有品牌自有品牌Nokia自有品牌自有品牌百度、聯想RIM
CPUA5自有品牌


Intel


Intel 系列
其他iPodiTViCar、iGlassgoogle Glass、自動駕駛汽車

XBOX
電視、WalkMan、機器人、PS系列

內容電影、音樂、電子書、APPApp商店、電子書、音樂App商店商品、電影、音樂、電子書、AppNOOKAPP自有品牌音樂、電影百度文庫、APP
社群imessage、FaceTimeG+GTalk臉書、Messages書評、購物者等MSN、SkypeSamsung Facebook、ChatOn


雲端iCloudDriver自有品牌自有品牌自有品牌

自有品牌
廣告業務



其他iWorksiBooksXcode3D Maps、iGlassMapsDocsGmail、自動駕駛、機器人、google GlassMail電子商務、自助出版、地圖OfficeVSHotmail、機器人


雅虎信箱

更新日期: 2012.6.28
其他:
中國方面:自有搜尋引擎:360。社群:新浪微薄、博客等。電腦、手機:聯想等。騰訊:QQ等。
自產手機戰場:百度、360、騰訊、聯想。

世界範圍:
IBM:超級電腦、雲端、智能軟體。
甲骨文:資料庫、Java、雲端。
Motorola:晶片、汽車等。
豐田:汽車、機器人。
AdobeCS影像處理系列、辦公軟體套件、PDF、字體

軟硬體:
瀏覽器:火狐
辦公軟件:OpenOfficeLibreOffice
操控介面:手勢操控:LeapMIT: T(ether)




資訊



文字:朔雪寒 著
書庫:開放書雲