在上一篇文章(取得訓練資料——打造模型的第一步),我們訓練了一個書籍分類 AI ,讓 AI 幫我們分類每天要上架的上百本書籍。
我們將書籍的內文和類別反覆給予電腦,讓電腦學習分類的過程,最後成為書籍分類 AI 。
在這個過程中,我們忽略了一個事實——電腦並不懂人類的語言。
有則笑話是這麼說的:世界上只有 10 種人,一種是懂二進位的、一種是不懂二進位的。
在二進位表示法下,不存在 2(包含)以上的數字。在四則運算中,遇 2 即進位(如下圖)。
二進位是最自然的表示法, 1 代表「有」、 0 代表「無」。
在電腦的電路中,1 代表「通電」、 0 代表「不通電」。
我們透過邏輯閘來控制電路上的電流,將電路整合到奈米級的晶片上,並用晶片來組裝電腦。
我們現在知道這世界上的 10 種人了。電腦的世界裡只有 1 和 0 ,並不懂人類語言的 ABC 和ㄅㄆㄇ。那我們要怎麼讓電腦看懂書籍的內文呢?
接下來,我們將以南北部人分類 AI 作為例子,說明電腦怎麼理解訓練資料,也就是「特徵抽取」。
特徵抽取(Feature Extraction)
為避免爭議,我們以濁水溪為界,將台灣分成南、北兩部分。
南北部人分類 AI 可以「透過發言人的一句話,判斷他是南部人或北部人」。
我們都知道,南北部人有不同的發音習慣和特殊用語。
筆者(台中人)的親身經歷如下:
我曾經跟一位花蓮同學說,我要去「尬賽」,但他聽不懂尬賽是什麼意思。因為「尬賽」是台中的講法,是去大便的意思。台北同學想跟我借「擦布」,而「擦布」是雙北地區普遍對橡皮擦的稱呼。我還有一個南部同學,他常常說要開「ㄋㄥˇ氣」,我都笑他你的「ㄋㄥˇ氣」怎麼跟別人的「ㄌㄥˇ氣」不一樣。這是由於南部人普遍比北部人熟悉台語,國語與台語接觸後所產生的語言變化。
我們常常可以從人講的話判斷他們來自哪裡、是南部人還是北部人。同樣的,如果電腦能從句子中抓到這些語言特徵,就能學到判斷發言者來自哪裡的技巧。
因此,我們人工定義出這些語言特徵:講尬賽的是北部人、講擦布的人是北部人、講ㄋㄥˇ氣的通常是南部人⋯⋯,藉此來將人類語言轉換為電腦世界中的數字。
依據上圖,我們將「哪有人尬賽的時候開ㄋㄥˇ氣的啦」表示成「 101 」送入電腦,讓電腦看懂人類的語言。
注意第一個句子「哪有人尬賽的時候開ㄋㄥˇ氣的啦」中,同時存在北部人的語言特徵「尬賽」和南部人的語言特徵「ㄋㄥˇ氣」。我們所給予的標注答案是根據該句的發言者,也就是事實。我們訓練電腦辨識「 101 」跟「南部人」之間的關係。
同理可知,北部人也可以講ㄋㄥˇ氣、南部人也可以講尬賽,並不奇怪。我們希望電腦能從這些細微的語言特徵中,找出能精準判斷的方法。
因此,我們需要定義非常多的語言特徵,才能將人類語言精準的傳達給電腦。
意即,數字的部分會很長,每一位數就代表一個語言特徵。
看完這篇文章,你心中是否也浮現出許多好玩的南北用語差異呢?留言讓我們知道吧!