2014年2月4日 星期二

語義概念與分詞技術淺談(以中文字身、英文字根為例)

中文資訊處理

語義概念與分詞技術淺談(以中文字身、英文字根為例)



  由於英文字母等拼音文字,以空白為其詞彙的天然區隔符號,歷年來被一些語言學家奉為外語的一大優勢,而中文資訊處理也因此必須面對額外的中文分詞問題。其實英語在分析片語時也用到了分詞技術,當然由於其詞彙間的天然區隔,使得他的分詞技術並不複雜。

  然而事實上,這一切進入人工智慧(從現在開始)的領域,將有所改觀。也就是說,英語等拼音文字也得開始研究自己的分詞技術了(嚴格說來還是比中文簡單,詳見下文。)。
  中文字典從東漢許慎《說文解字》開始便具有了部首的概念,一直演變到如今以214個部首為主流分類法。除了部首以外,由於中文有百分之八十以上屬於形聲字,因此朱邦復先生等人又從中抽出了六百多個聲符。此外,從《說文解字》後,中文也開始有了字身的概念。而部首、聲符、字身,彼此的集合有很大的重疊!(關於字身最詳細的研究可見朱邦復先生的《漢字基因字典》)多數有意義的中文,因此可以表述為「部首+字身」的形式。目前的中文或者嚴格的說叫做漢字,還在產生新的文字,主要來自兩方面:一、一些頭腦發昏的人喜歡為自己的兒子取一個「舉世無雙」的名字,於是自己造了字就跑去戶政單位登記,或者從古籍中找到了一些不能算字的字,如有些字不過是以前避諱用的「缺筆字」,但因為「有所本」,所以也被收入,徒然造成中文資訊處理的困擾,以及社會資源的浪費(極大的浪費,筆者曾經代表前公司參與過中華電信整合造字方案研討。)。二、數十年來出土的古籍,屢屢有秦始皇未統一天下、未書同文前的戰國文字等。但諸如一些科技造字,已經基本停止,譬如化學元素用字。多數的新概念,都不再造字而以組合的方式為之。
  目前的中文大概收錄有七萬多字,其中只有約一萬字是有意義的,而這一萬字又由214個部首加上六百至八百多個字身組合而成,同時六百至八百個字身又可分解為字身與字身的組合,譬如:境(字)=「土+竟」、竟(字身)=「音+ㄦ」、音(字身)=「立+日」,可層層細分,直到所分出的符號不再具有意義為止。因此學習中文,並未如想像中難。一般人常用的字不過六千字,不僅已可應付日常生活所需,也能在看到科技術語時,第一時間獲得一些概略、初步理解。
  據學者統計,目前收錄於一般英文辭典中的詞彙多達450萬,若按照一個一個死記的方式,沒有人可以記下哪怕其中的四五萬字。而事實上,英語也有字首、字尾、字根,以有規律、聯想式的方式組成新的詞彙。自然,由於語言的發展沒有上帝在其中加以制約,也沒有第三隻手在其中進行篩選、剃除。因此英文的同義字、多義字的情況,比中文來得嚴重。因為中文的特性,原本就限定了它一開始就必須走向組合的道路,而英文則在詞彙逐漸累積的過程中也開始使用了組合的方式。只是這樣的組合是以詞彙為單位,而不如中文是以字為單位的。
  中文由於是象形文字,因此它的字型是在一個二維的面上面進行組合的,而英文則始終都是一維的線。中文是在進入詞彙單位以後(詞彙、短語、句子、長句),才開始使用一維方式。而一維方式的排列組合自然不如二維來的多,精確的說,就是它能藉以表達差異、規則的手法減少了很多。(只剩下前後、多重套疊)因此一些人以為漢字中諸如「群、羣;峰、峯」表達了不同的意思,其實它是可以藉由組合方式的不同而賦予不同的「解碼」方式,因此產生不同的意義,但多數的相關字型,其實都沒有意義上的差異,而僅具有字型上的差異,被視為異體字。
  中文早期的型態,可以表述為將一個高度壓縮的概念存放在一個字之中,譬如「豶」是指「去勢閹割的豬」、「牡」是指公牛、「牝」是指母牛(兩字都從牛部),可以說分得非常細。直到後來隨著人類的認識面逐漸擴展、詞彙不停的增加、社會的演進,於是很多字都不再使用,而抽象出了更底層的概念,譬如「公母、雌雄」都開始可以用來形容動物的性別狀態,而不再在字的層面進行理解,毫無疑問,這樣的方式(接近白話),更容易讓一般人理解與運用。
  想要設計出強人工智慧,就不可能不牽涉到這最底層的概念組合與解讀的層面。以下,僅就英文字根與中文字身的相關概念,做一個比較,以使讀者能更明白筆者之前所言的「組合律」確為語言發展的趨勢所在。

車部:
運(辵部+軍,車為軍的字身)載輸輾轉輯轟
輪輻軸轍轎

以上的字,可與其他字組成其他概念,如:
運輸、運載、運送、載送、輸送、輸出、輸入、輾壓、運轉、轉運、轉送
輪子、車輪、車軸、車轍、車輛

如果要表達不同車子的司機,只要在不同的車子類型概念之後加上「司機」即可,如:
公車司機、計程車司機、卡車司機、貨車司機、火車司機

car=car(車)、to run(跑)
car n. 車、汽車
carry v. 支持、攜帶(用車搬運的聯想)
carriage n. 運輸、車輛
carrier n. 運送人、運輸業者
carter n. 運貨馬車夫
chariot n. 古代雙輪戰車、四輪馬車

ger、gest=to carry(運送、運載)
gestate v. 懷孕、孕育、醞釀(計畫)
ingest v. 吸收、嚥下(運入)

port=to carry(運送、運載)
portable adj. 可攜帶的
portage n. 搬運、陸運
porter n. 腳夫、挑夫
deport v. 舉止、放逐(搬走的聯想)
export v. 輸出、外銷
exporter n. 輸出業者、出口商
importance n. 重要性
importation n. 輸入品、進口
importer n. 輸入業者、進口商
transport v. 運送、放逐
transportation n. 運輸、運輸工具、放逐

投擲拋射播排,這些字都跟手部有關,而可抽象出與手部無關的同等類型動作。
與以下的英文有相關聯繫的詞彙有:
投擲、投射、拋射、拋棄、拋出、散佈、散播、廣播、投放、排放、放棄、播放

噴射,都表示速度快速的物體運動。
以上的概念,加上「出、入、進」等表示相對動向概念,便可以表達:「投出、拋出、擲出、射出、播出、排出、射進、射入、排入、拋入、投入、噴出」等概念。

cast=to throw(投擲)
cast v. 投擲、投射、鑄造
broadcast v. 廣播、撒播、散佈
outcast n. 被逐出者、流浪者、被丟棄的
telecast v. 以電視播送

ject、jac=to throw(投擲)
abject adj. 不幸的、可憐的、卑鄙的(被丟棄的相關聯想)
abjection n. 落魄、恥辱
conjecture v. 推想、猜想
eject v. 投出、噴出、逐出、排斥(向外投出的聯想)
inject v. 注射、投入、加入(向內投擲進去的聯想)
object n. 物體、目標、目的(被投擲的目標物)
projectile n. 拋射物、發射體
rejection n. 拒絕、排泄物
ejaculation n. 射出、突發語

流浪漂泊,都屬於水部,與水的動態或狀態有關。
譬如以上的「outcast」為「流浪者」、以下的「vagabond」為「流浪的」、「vagrant」為「流浪漢」、「extravagance」為「浪費」,其中「者、漢」多屬表屬於人的詞尾。

vaga=to wander(流浪、漂泊)
vagabond adj. 流浪的、無賴的
vagrancy n. 流浪、漂泊
vagrant n. 流浪漢、無賴
divagate v. 徘徊、離題、誤入歧途(因流浪而迷失的聯想)
extravagance n. 奢侈、浪費、放縱

經,「南北之道謂之經,東西之道謂之緯。」,可組成「經過、經驗、經歷」;徑,路徑。

peri=to go through(通過)
empirical adj. 憑經驗的、經驗主義的
experience v. 經驗、經歷、體驗
expert n. 專家(累積豐富經驗的人)

岩石,都屬於石部。可與其他概念字組合成:石化、化石、石油、岩石。
任何詞彙加入「學」詞尾,即可表示、代表一門學問,譬如「心理學、地理學、歷史學、邏輯學、數學」;
加入「學者、學家」詞尾,即可表示從事某一學問的人,如「心理學家、歷史學家、歷史學者、社會學者」。

petr、petro=stone(石)、rock(岩石)
petrify v. 使石化、(因恐懼等原因而)嚇呆
petrification n. 石化、化石、嚇呆
petrochemistry n. 石油化學、岩石化學
petroliferous adj. 出產石油的
petrology n. 岩石學(研究岩石的學問)
petrologist n. 岩石學家

  由於想要建立概念網路,必然得對構詞方式進行解碼,若企圖一一建立概念,以英文而言,乃不可行之路。因此,從這篇文章開始,英文分詞技術,當開始有所發展了!至於中文,字型的意義解碼,來自於構字式與部首、字身的交互關係。日後有機會再談。

沒有留言:

張貼留言