特徵抽取 - - 你是哪裡人? 運用語言特徵將人類語言轉換為電腦語言

電腦的世界由 0 和 1 所組成。Photo by Alexander Sinn on Unsplash

上一篇文章(取得訓練資料——打造模型的第一步),我們訓練了一個書籍分類 AI ,讓 AI 幫我們分類每天要上架的上百本書籍。
我們將書籍的內文和類別反覆給予電腦,讓電腦學習分類的過程,最後成為書籍分類 AI 。

在這個過程中,我們忽略了一個事實——電腦並不懂人類的語言

有則笑話是這麼說的:世界上只有 10 種人,一種是懂二進位的、一種是不懂二進位的。
在二進位表示法下,不存在 2(包含)以上的數字。在四則運算中,遇 2 即進位(如下圖)。

二進位的加法運算
十進位表示法 對應 二進位表示法

二進位是最自然的表示法, 1 代表「有」、 0 代表「無」。
在電腦的電路中,1 代表「通電」、 0 代表「不通電」。
我們透過邏輯閘來控制電路上的電流,將電路整合到奈米級的晶片上,並用晶片來組裝電腦。

我們現在知道這世界上的 10 種人了。電腦的世界裡只有 1 和 0 ,並不懂人類語言的 ABC 和ㄅㄆㄇ。那我們要怎麼讓電腦看懂書籍的內文呢?

接下來,我們將以南北部人分類 AI 作為例子,說明電腦怎麼理解訓練資料,也就是「特徵抽取」。

特徵抽取(Feature Extraction)

為避免爭議,我們以濁水溪為界,將台灣分成南、北兩部分。
南北部人分類 AI 可以「透過發言人的一句話,判斷他是南部人或北部人」。

我們都知道,南北部人有不同的發音習慣和特殊用語。

筆者(台中人)的親身經歷如下:
我曾經跟一位花蓮同學說,我要去「尬賽」,但他聽不懂尬賽是什麼意思。因為「尬賽」是台中的講法,是去大便的意思。台北同學想跟我借「擦布」,而「擦布」是雙北地區普遍對橡皮擦的稱呼。我還有一個南部同學,他常常說要開「ㄋㄥˇ氣」,我都笑他你的「ㄋㄥˇ氣」怎麼跟別人的「ㄌㄥˇ氣」不一樣。這是由於南部人普遍比北部人熟悉台語,國語與台語接觸後所產生的語言變化。

我們常常可以從人講的話判斷他們來自哪裡、是南部人還是北部人。同樣的,如果電腦能從句子中抓到這些語言特徵,就能學到判斷發言者來自哪裡的技巧。

因此,我們人工定義出這些語言特徵:講尬賽的是北部人、講擦布的人是北部人、講ㄋㄥˇ氣的通常是南部人⋯⋯,藉此來將人類語言轉換為電腦世界中的數字。

透過語言特徵,將人類語言轉化為電腦語言,並賦予標注答案

依據上圖,我們將「哪有人尬賽的時候開ㄋㄥˇ氣的啦」表示成「 101 」送入電腦,讓電腦看懂人類的語言。

注意第一個句子「哪有人尬賽的時候開ㄋㄥˇ氣的啦」中,同時存在北部人的語言特徵「尬賽」和南部人的語言特徵「ㄋㄥˇ氣」。我們所給予的標注答案是根據該句的發言者,也就是事實。我們訓練電腦辨識「 101 」跟「南部人」之間的關係。

同理可知,北部人也可以講ㄋㄥˇ氣、南部人也可以講尬賽,並不奇怪。我們希望電腦能從這些細微的語言特徵中,找出能精準判斷的方法。

因此,我們需要定義非常多的語言特徵,才能將人類語言精準的傳達給電腦。
意即,數字的部分會很長,每一位數就代表一個語言特徵。

看完這篇文章,你心中是否也浮現出許多好玩的南北用語差異呢?留言讓我們知道吧!

~也可以到這裡觀看原文喔~

相關文章

機器人商城 方案選擇

客戶服務,總是一項很複雜又枯燥,卻又不可輕忽的重要工作… 客服做的好,產品才會好! 可是客戶要問的問題總是那些…能不能將這個重覆又枯燥的工作交給機器人呢? Justka 可以做到!只要好好的教

Photo by The Verge on Pinterest

AI 是位天才音樂家 — 你聽過 AI 所創作的音樂嗎?

傳言在今年初,蘋果公司收購了一家名為 AI Music 的新創公司,這家公司就如同它的名字,是利用人工智慧技術自動生成出音樂。這家公司的 AI 技術甚至可以根據使用者的心跳,創造出適合的音樂。

艾斯AI研究室
艾斯AI研究室
以白話文來解釋人工智慧為一生志業
返回頂端

訂閱JustKa

獲得我們的即時公告與最新資訊