Chatbot 擷取關鍵字的秘密 – 機器人知道我的秘密了!

Photo by OfirPeretz from iStock

前面了解過電腦如何初步處理語句,接下來我們要來談談,電腦是如何從眾多詞彙組成的句子中擷取出重要的詞彙,進而推斷出適當的回應。

有時候,句子中最重要的部分,不見得是最小單位的「詞」,而是「詞」與「詞」組合起來,能夠表達完整含義的更大單位。因此,我們會針對這些重要的詞彙單位,進行標記。

最小單位的詞與詞彙組合成的複合詞

可以參考之前我們談過的詞性標注 — — 給聊天機器人的訓練重點提示

如何幫機器人畫重點

在機器人應用中,最常見的重要詞彙標記,我們稱為「命名實體」(Named Entity)。

這些重要的詞彙標記一般指的是文本中具有特定意義,主要包括人名、地名、組織機構名、日期、時間、專有名詞等。一般來說,我們會把「人名」簡單標注成「PER」,「組織或公司名」標注為「ORG」,「地名」則標注成「LOC」⋯⋯。

命名實體的例子

命名實體的單位

舉例來說,「美國的哈佛大學是小明夢想中的學校」

斷詞的話可能會是「美國|的|哈佛|大學|是|小|明|夢想|中|的|學校」

而針對這句斷詞過後的語句,我們可以這樣思考並標注:

  • 「美國」:可以標注為一個「地名」
  • 「哈佛大學」:由於我們都知道這是一所學校,就可以標注上「組織」的標籤,而不把它切割成「哈佛」和「大學」
  • 「小明」:我們也可以判別為一個人名,所以把它合起來標注成「人名」

再重新把這句話切割一次,就變成「美國|的|哈佛大學|是|小明|夢想|中|的|學校」。

斷詞及實體識別的例子

命名實體識別的資料標注方式

命名實體識別是一種序列的標注,依照資料標注的方式,電腦從歷史訊息中抓取關鍵字來推測使用者想表達的內容。這邊我們介紹「BIO」的標注方式,以下是「BIO」的意義:

B (Begin),表示開始

I (Intermediate),表示中間

O (Other),表示其他,用於標記無關字元

所以我們再將「美國的哈佛大學是小明夢想中的學校」這一句話進行標注即為:

BIO 的標注方式

將語句標注完成,就可以利用各種機器學習演算法,讓機器去預測其他可能組成的語句。因此,命名實體識別是一個非常基礎,但也是十分重要的任務。

命名實體識別的實際應用

命名實體識別是自然語言處理中基本的環節之一,例如:文本摘要、問答系統、機器翻譯等,被廣泛運用在自然語言處理領域。

  • 文本摘要:在處理大篇幅文本時,可以利用命名實體識別標注出人物、地點、機構等,透過關鍵字之間的關係,從語義層面摘要出文本所描述的內容。
文本摘要
  • 問答系統:命名實體識別可以識別出語句的組成,判斷問題的相關領域,得出配對的答案。各個知名的問答機器人在判斷問題答案時,命名實體識別是預測答案的其中一項重要的環節。
問答系統
  • 機器翻譯:在翻譯文本時常常會遇到人名、專有名詞或公司、機構名等,準確識別出文本中的命名實體,可以提高機器翻譯的準確率。例如在AI 的應用:機器翻譯中所舉的例子:Google translate 將 『松下問童子』錯誤翻譯成『Panasonic asks the boy』,就是因為命名實體識別誤將『松下』識別為 ORG ,而非 LOC 。
機器翻譯

最後請試著標注看看下面這句話吧!

小明第一次去公館參觀臺灣大學

答案在下面,不要先偷看喔!

BIO 的標注方式

相關文章
Photo by The Verge on Pinterest

AI 是位天才音樂家 — 你聽過 AI 所創作的音樂嗎?

傳言在今年初,蘋果公司收購了一家名為 AI Music 的新創公司,這家公司就如同它的名字,是利用人工智慧技術自動生成出音樂。這家公司的 AI 技術甚至可以根據使用者的心跳,創造出適合的音樂。

艾斯AI研究室
艾斯AI研究室
以白話文來解釋人工智慧為一生志業
回到頂端

訂閱JustKa

獲得我們的即時公告與最新資訊