前面了解過電腦如何初步處理語句,接下來我們要來談談,電腦是如何從眾多詞彙組成的句子中擷取出重要的詞彙,進而推斷出適當的回應。
有時候,句子中最重要的部分,不見得是最小單位的「詞」,而是「詞」與「詞」組合起來,能夠表達完整含義的更大單位。因此,我們會針對這些重要的詞彙單位,進行標記。
可以參考之前我們談過的詞性標注 — — 給聊天機器人的訓練重點提示。
如何幫機器人畫重點
在機器人應用中,最常見的重要詞彙標記,我們稱為「命名實體」(Named Entity)。
這些重要的詞彙標記一般指的是文本中具有特定意義,主要包括人名、地名、組織機構名、日期、時間、專有名詞等。一般來說,我們會把「人名」簡單標注成「PER」,「組織或公司名」標注為「ORG」,「地名」則標注成「LOC」⋯⋯。
命名實體的單位
舉例來說,「美國的哈佛大學是小明夢想中的學校」
斷詞的話可能會是「美國|的|哈佛|大學|是|小|明|夢想|中|的|學校」
而針對這句斷詞過後的語句,我們可以這樣思考並標注:
- 「美國」:可以標注為一個「地名」
- 「哈佛大學」:由於我們都知道這是一所學校,就可以標注上「組織」的標籤,而不把它切割成「哈佛」和「大學」
- 「小明」:我們也可以判別為一個人名,所以把它合起來標注成「人名」
再重新把這句話切割一次,就變成「美國|的|哈佛大學|是|小明|夢想|中|的|學校」。
命名實體識別的資料標注方式
命名實體識別是一種序列的標注,依照資料標注的方式,電腦從歷史訊息中抓取關鍵字來推測使用者想表達的內容。這邊我們介紹「BIO」的標注方式,以下是「BIO」的意義:
B (Begin),表示開始
I (Intermediate),表示中間
O (Other),表示其他,用於標記無關字元
所以我們再將「美國的哈佛大學是小明夢想中的學校」這一句話進行標注即為:
將語句標注完成,就可以利用各種機器學習演算法,讓機器去預測其他可能組成的語句。因此,命名實體識別是一個非常基礎,但也是十分重要的任務。
命名實體識別的實際應用
命名實體識別是自然語言處理中基本的環節之一,例如:文本摘要、問答系統、機器翻譯等,被廣泛運用在自然語言處理領域。
- 文本摘要:在處理大篇幅文本時,可以利用命名實體識別標注出人物、地點、機構等,透過關鍵字之間的關係,從語義層面摘要出文本所描述的內容。
- 問答系統:命名實體識別可以識別出語句的組成,判斷問題的相關領域,得出配對的答案。各個知名的問答機器人在判斷問題答案時,命名實體識別是預測答案的其中一項重要的環節。
- 機器翻譯:在翻譯文本時常常會遇到人名、專有名詞或公司、機構名等,準確識別出文本中的命名實體,可以提高機器翻譯的準確率。例如在AI 的應用:機器翻譯中所舉的例子:Google translate 將 『松下問童子』錯誤翻譯成『Panasonic asks the boy』,就是因為命名實體識別誤將『松下』識別為 ORG ,而非 LOC 。
最後請試著標注看看下面這句話吧!
「小明第一次去公館參觀臺灣大學」
答案在下面,不要先偷看喔!
。
。
。