聊天機器人如何抓取關鍵字
我們在討論聊天機器人是如何抓取關鍵字之前,得先來聊聊電腦是如何判斷詞彙之間的相關性。
還記得斷詞是什麼嗎?斷詞是電腦盡可能地正確辨識出最小且有意義的字詞。這時候我們就利用所謂的「詞向量」(word vector)評判各個詞彙之間的關聯性。
這時候我們就利用所謂的「詞向量」(word vector)評判各個詞彙之間的關聯性。講到詞向量,大家應該都很陌生吧?我們先來看一個簡單的二維圖示:

就像上圖一樣,以 (0,0) 為原點向外延伸,每個詞都有自己的位置。人類的語言太複雜抽象了,我們利用座標位置的方式來表達每個詞彙的意思,這樣電腦就可以輕鬆理解!
另外,意思相近的詞也會比較接近,例如,貓和狗都是動物,樹和花都是植物,所以它們各自都比較靠近與自己意思相近的字詞。

不過我們有千千萬萬個詞彙,當然不是只用一個二維空間就可以解決的,必須是一個多維度的空間,才塞得下所有詞彙各自的座標位置。
像是左圖,就是一個三維的詞向量空間。
電腦是如何知道詞彙之間的關聯性呢?在一個三維的詞向量空間中,如果我們將詞彙分為兩類,同樣為藍色的點就是關聯性較大的(例如狗、貓、兔子),同為紅色的點則是另一組關聯性較大的詞(例如:花、草、樹木、森林)。
可以藉由空間中每個詞之間的距離來判斷它們之間的關係,兩個詞彙的距離越遠,代表它們的關聯性比起距離近的詞來得小,反之亦然。
有了這些詞彙的關聯度後,只要有充分的數據,我們就可為電腦擷取出特定的資料,建構出一個數據模型,並應用在相關領域囉!
你也可以在這裡找到我們的文章!