分詞時出現岐義,這是分詞系統處理的最大難點之一,目前主要有下面幾種處理方式:
一、詞頻統計法舉個例子說:“著作權和版權在我國是同一個概念,是法律賦予作品創作者的專有權利。”
在這句話中,“我國是” 這裡就是一個存在岐義的地方,它可以分為“我國 是”,也可以分為“我 國是”
像這種情況,可以用居於詞頻法,顯然“我國”比“國是”頻率要高得多,因為可以確定“我國 是”是正確的模式。
不過居於這種方式的分詞算法必須附帶一個詞頻的詞庫,這需要大量的語義庫。
二、最大詞優先法
在句子“電影的創作人大多數是比較豪氣的。 ”裡,出現岐義的地方是“創作人大多數”
它可分解為“創作 人大 多數”
在這種情況下用最大詞優先法是最適合的三、多元最大切分消岐法
多元最大切分消岐法嚴格來說,做的並不是消岐工作,因為上面一二實際上都是要利用到二元運算的。
多元最大切分消岐法是對岐義的結果進行最大切分,從而確保索引數據的有效性,這種方式其實是目前最流行,也是最適合的方式。
就“電影的創作人大多數是比較豪氣的。 ”這句話而言,它將被分為“電影 的 創作 創作人 人大 大多數 是 比較 豪氣 的 。”
因為目前沒有任何,實際上也不可能有什麼算法能保證100%正確的,因此在實際用途中,多元最大切分消岐法成了最實用,也使用最多的處理方法。