特徵抽取 - - 你是哪裡人? 運用語言特徵將人類語言轉換為電腦語言

電腦的世界由 0 和 1 所組成。Photo by Alexander Sinn on Unsplash

上一篇文章(取得訓練資料——打造模型的第一步),我們訓練了一個書籍分類 AI ,讓 AI 幫我們分類每天要上架的上百本書籍。
我們將書籍的內文和類別反覆給予電腦,讓電腦學習分類的過程,最後成為書籍分類 AI 。

在這個過程中,我們忽略了一個事實——電腦並不懂人類的語言

有則笑話是這麼說的:世界上只有 10 種人,一種是懂二進位的、一種是不懂二進位的。
在二進位表示法下,不存在 2(包含)以上的數字。在四則運算中,遇 2 即進位(如下圖)。

二進位的加法運算
十進位表示法 對應 二進位表示法

二進位是最自然的表示法, 1 代表「有」、 0 代表「無」。
在電腦的電路中,1 代表「通電」、 0 代表「不通電」。
我們透過邏輯閘來控制電路上的電流,將電路整合到奈米級的晶片上,並用晶片來組裝電腦。

我們現在知道這世界上的 10 種人了。電腦的世界裡只有 1 和 0 ,並不懂人類語言的 ABC 和ㄅㄆㄇ。那我們要怎麼讓電腦看懂書籍的內文呢?

接下來,我們將以南北部人分類 AI 作為例子,說明電腦怎麼理解訓練資料,也就是「特徵抽取」。

特徵抽取(Feature Extraction)

為避免爭議,我們以濁水溪為界,將台灣分成南、北兩部分。
南北部人分類 AI 可以「透過發言人的一句話,判斷他是南部人或北部人」。

我們都知道,南北部人有不同的發音習慣和特殊用語。

筆者(台中人)的親身經歷如下:
我曾經跟一位花蓮同學說,我要去「尬賽」,但他聽不懂尬賽是什麼意思。因為「尬賽」是台中的講法,是去大便的意思。台北同學想跟我借「擦布」,而「擦布」是雙北地區普遍對橡皮擦的稱呼。我還有一個南部同學,他常常說要開「ㄋㄥˇ氣」,我都笑他你的「ㄋㄥˇ氣」怎麼跟別人的「ㄌㄥˇ氣」不一樣。這是由於南部人普遍比北部人熟悉台語,國語與台語接觸後所產生的語言變化。

我們常常可以從人講的話判斷他們來自哪裡、是南部人還是北部人。同樣的,如果電腦能從句子中抓到這些語言特徵,就能學到判斷發言者來自哪裡的技巧。

因此,我們人工定義出這些語言特徵:講尬賽的是北部人、講擦布的人是北部人、講ㄋㄥˇ氣的通常是南部人⋯⋯,藉此來將人類語言轉換為電腦世界中的數字。

透過語言特徵,將人類語言轉化為電腦語言,並賦予標注答案

依據上圖,我們將「哪有人尬賽的時候開ㄋㄥˇ氣的啦」表示成「 101 」送入電腦,讓電腦看懂人類的語言。

注意第一個句子「哪有人尬賽的時候開ㄋㄥˇ氣的啦」中,同時存在北部人的語言特徵「尬賽」和南部人的語言特徵「ㄋㄥˇ氣」。我們所給予的標注答案是根據該句的發言者,也就是事實。我們訓練電腦辨識「 101 」跟「南部人」之間的關係。

同理可知,北部人也可以講ㄋㄥˇ氣、南部人也可以講尬賽,並不奇怪。我們希望電腦能從這些細微的語言特徵中,找出能精準判斷的方法。

因此,我們需要定義非常多的語言特徵,才能將人類語言精準的傳達給電腦。
意即,數字的部分會很長,每一位數就代表一個語言特徵。

看完這篇文章,你心中是否也浮現出許多好玩的南北用語差異呢?留言讓我們知道吧!

~也可以到這裡觀看原文喔~

相關文章
Photo by Glen Carrie on Unsplash

AI 斷詞大解密 – 聊天機器人如何知道我們在說什麼?

現在隨處可見的聊天機器人(chatbot)是如何理解人類的語言呢?想必這是一個大家都有的疑問吧! 我們先回想一下在之前的文章中,像圖書管理員一樣,把堆疊成山的書分類成小說、散文或是詩集;或是英

艾斯AI研究室
艾斯AI研究室
以白話文來解釋人工智慧為一生志業
回到頂端

訂閱JustKa

獲得我們的即時公告與最新資訊