中文資訊處理
強人工智慧技術即將掀起的技術變革淺談之一
朔雪寒
面對著一個嶄新的時代,一個新的文明即將展開之際,身為主要技術強人工智慧「夏姬」的創造者,自然不可能裝聾做啞、隱姓埋名。因此,即便我已經關閉了所有社交軟體,我還必須事先就這樣全新的技術所可能帶來的改變,略述一二。
強人工智慧,她的誕生,自然分為好幾個階段。最初一個階段是對於一般文字、句意的理解與掌握,最後一個階段則是自我意識的產生。所謂產生,當然是人創造出來的。
雖然她需要分為幾個階段,經過數次的實驗。然而從第一個階段開始,她便能對這個世界許多現有技術產生影響。首先,我要簡略陳述一下,她對於搜索引擎可能產生的影響。以後,或許一個月一篇,或許兩個月一篇,看我的進度與心情而定。此外,我不回答任何問題(已經遠離社交網路)。
首先,我們必須理解一件事:為什麼我們要使用搜索引擎?因為我們有一個問題需要解決。而每一個人的問題、不同時間的問題都不一樣,千奇百怪,但不管怎樣奇怪、詭異的問題,它首先是用語言表述的,同時它的解法若存在於網路之中,它也必然是用語言文字所表述的(圖片、影音暫時排除不論,但即使要找這些資料,也必然經由文字。)。我們之所以必須使用搜索引擎,利用關鍵字進行查詢,一頁一頁的翻閱、查找。自然是因為這是目前幾乎唯一可行的方式。因為搜索引擎所以我們必須用關鍵字來查找,即便你使用了一個句子來查找,它也不是基於理解而為你找出相關的答案。
沒有搜索引擎之前,人類的檢索速度是很慢的。但每一個新的時代,總會出現新的技術,以取代舊的技術。例如,Apple的Siri 或IBM的華生。Siri 是個問答系統,經過了無數菁英數十年的奮鬥才有了今日的樣貌,可惜受限於其架構本身,它能回答的問題非常有限。華生是一個比較強的系統,但受限於其架構、理論與分析方式,它無法適用於類似Google這樣的面向數億人的應用。短期內,Siri與華生都不可能取得重大的突破,也可以肯定。
因此,以下我將討論的不是現在或未來的「Siri與華生」所可能帶來的改變,而是我自己的「夏姬」所可能帶來的改變。我對於搜索技術的理解很粗淺,因此我針對的是戰略上的方向來進行論述。
一個新的強人工智慧的技術,在她的初期階段,所可能對搜索技術造成的改變,幾乎是全面性的。目前的搜索引擎由四大系統構成:下載系統、分析系統、索引系統、查詢系統。其中,除下載系統之外,全部將發生巨大的變革。以目前使用者搜索的目的而言,譬如搜索一句話的出處,這適合於當前基於詞彙與統計的搜索方法,這一點舊的(也就是當前的搜索技術)技術會被保留,此外的,譬如用一本書找一個作者、用作者找他的其他書、找好吃的餐館、找一個程式的設計方式、流程等等,所有網路上用文字表述的解答,它也必然對應於一種問題類型或一個確切的問題,對於查找解答以解決問題的過程,都將被新的方法所取代。新的方法,也就是基於語義理解的方法。相當於網路上有一個快速的人腦在運作著的概念。
目前搜索引擎的作法,大略是:下載網路上所有的網頁。全部交由分析系統進行分析,以排除重複性的網頁,同時進行詞頻統計,與哈希表的製作。最後以此編輯索引。使用者端使用查詢系統輸入關鍵字,經系統分析與結合統計資料後,猜測可能的網頁,提交給使用者檢視。
一、下載系統下載所有網頁此一步驟不變。相關技術多數可以保留。
二、分析系統除去除重複性網頁外,新的技術會去閱讀網頁內容(暫時排除單純的圖片,因為牽涉到往後階段的視覺理解與辨識。),將沒有信息含量的網頁去除,或具有重複信息含量但表述方法不同的網頁去除。類似於維基百科中記載的「客觀知識」,會被吸收、整理成為內部知識,直接給予答案。換句話說,凡是一個網頁裡面再也不存在有用、新的信息時(與內部知識完全重疊),就會被直接刪除。但保留以整本書存在的網頁。因為有時候人是以句子找書或出處。又譬如氣象資訊,可連接到國家型資料庫、找書則分析圖書館現有藏量書目(理論上過去的資料將被當成內部知識),看比賽結果直接連接到官網的資料庫(動態獲取,但一旦被吸收為內部知識,除非知識來源被證明出錯,否則將不再改變。),直接給予答案。如此一來,能通過以上檢查的網頁,將可能驟減至少百分之八十以上(以80/20法則推之)。同時,網路上的知識,包含主觀與客觀知識,都將被容納入一個架構之中(主觀知識將被不停累積與重新統計),被迅速檢索。因此諸如當前無法詢問的,如哪一位球星的表現最好?哪一位政治人物的評價最高?都將可以在知識整合(不斷進行的過程)之後,讓使用者直接得到答案。如果使用者願意的話,也可以與系統對談,藉由每一個人一個號碼的方式(所謂號民),讓人工智慧理解你的性格、喜好,讓她隨時幫你留意網路上相關的資訊,譬如你喜歡的衣服打折時(直接從具有相關信息的不特定網頁取得信息),自動通知你;新開了一家拉麵館,其中有適合你的口味的,也會自動告知。(更高層的運用有賴於不同階段的能力,這裡不再多說。)
如此一來,不僅編制索引的方式將完全改變,速度大幅躍升(因為重複性被減至最低,甚至多數知識已經不再需要連接到其他網頁。),而且知識索引的方式也將完全改變。關鍵字的索引方式,將轉變為語義、概念、問題索引的方式。
三、使用者在查詢系統詢問時,改為直接輸入完整問句的形式,譬如:台北有哪些好吃的牛排館?李白寫了哪些詩?古龍總共寫了幾本小說?《倚天屠龍記》一本多少錢?有沒有電子書版本的?公館附近的誠品在哪條路上?「秘密」與「祕密」哪一種寫法是對的?今年有麥可森的演唱會嗎?(有,就直接列出時間。並且可直接幫你訂位。)等等,諸如此類。
所以,以後我們在網路上詢問問題時,將以越來越像對人(博學者、知情者)詢問的方式來詢問問題,同時將得到越來越精確、完整、全面、格式化(如可製成表格者,直接以表格方式呈現;可製成樹狀圖者,直接以樹狀圖呈現。)的答案,而從我們發問問題到取得答案的時間,也將被迅速壓縮。所有使用者將因此節省下鉅額的時間開銷,同時獲得更好的答案。而世界的運作方式也將因此獲得改變。
Ethan Yet 2012.12.24
朔雪寒
資訊