詞彙與它們之間的關聯

聊天機器人如何抓取關鍵字

我們在討論聊天機器人是如何抓取關鍵字之前,得先來聊聊電腦是如何判斷詞彙之間的相關性。

還記得斷詞是什麼嗎?斷詞是電腦盡可能地正確辨識出最小且有意義的字詞。這時候我們就利用所謂的「詞向量」(word vector)評判各個詞彙之間的關聯性。

這時候我們就利用所謂的「詞向量」(word vector)評判各個詞彙之間的關聯性。講到詞向量,大家應該都很陌生吧?我們先來看一個簡單的二維圖示:

詞向量的二維示意圖

就像上圖一樣,以 (0,0) 為原點向外延伸,每個詞都有自己的位置。人類的語言太複雜抽象了,我們利用座標位置的方式來表達每個詞彙的意思,這樣電腦就可以輕鬆理解!

另外,意思相近的詞也會比較接近,例如,貓和狗都是動物,樹和花都是植物,所以它們各自都比較靠近與自己意思相近的字詞。

詞向量的三維示意圖

不過我們有千千萬萬個詞彙,當然不是只用一個二維空間就可以解決的,必須是一個多維度的空間,才塞得下所有詞彙各自的座標位置。

像是左圖,就是一個三維的詞向量空間。

電腦是如何知道詞彙之間的關聯性呢?在一個三維的詞向量空間中,如果我們將詞彙分為兩類,同樣為藍色的點就是關聯性較大的(例如狗、貓、兔子),同為紅色的點則是另一組關聯性較大的詞(例如:花、草、樹木、森林)。

可以藉由空間中每個詞之間的距離來判斷它們之間的關係,兩個詞彙的距離越遠,代表它們的關聯性比起距離近的詞來得小,反之亦然。

有了這些詞彙的關聯度後,只要有充分的數據,我們就可為電腦擷取出特定的資料,建構出一個數據模型,並應用在相關領域囉!

你也可以在這裡找到我們的文章!

相關文章
Photo by Glen Carrie on Unsplash

AI 斷詞大解密 – 聊天機器人如何知道我們在說什麼?

現在隨處可見的聊天機器人(chatbot)是如何理解人類的語言呢?想必這是一個大家都有的疑問吧! 我們先回想一下在之前的文章中,像圖書管理員一樣,把堆疊成山的書分類成小說、散文或是詩集;或是英

艾斯AI研究室
艾斯AI研究室
以白話文來解釋人工智慧為一生志業
回到頂端

訂閱JustKa

獲得我們的即時公告與最新資訊