分詞消岐處理方式?

分詞時出現岐義,這是分詞系統處理的最大難點之一,目前主要有下面幾種處理方式:

一、詞頻統計法舉個例子說:“著作權和版權在我國是同一個概念,是法律賦予作品創作者的專有權利。”

在這句話中,“我國是” 這裡就是一個存在岐義的地方,它可以分為“我國 是”,也可以分為“我 國是”

像這種情況,可以用居於詞頻法,顯然“我國”比“國是”頻率要高得多,因為可以確定“我國 是”是正確的模式。

不過居於這種方式的分詞算法必須附帶一個詞頻的詞庫,這需要大量的語義庫。

二、最大詞優先法

在句子“電影的創作人大多數是比較豪氣的。 ”裡,出現岐義的地方是“創作人大多數”

它可分解為“創作 人大 多數”

在這種情況下用最大詞優先法是最適合的三、多元最大切分消岐法

多元最大切分消岐法嚴格來說,做的並不是消岐工作,因為上面一二實際上都是要利用到二元運算的。

多元最大切分消岐法是對岐義的結果進行最大切分,從而確保索引數據的有效性,這種方式其實是目前最流行,也是最適合的方式。

就“電影的創作人大多數是比較豪氣的。 ”這句話而言,它將被分為“電影 的 創作 創作人 人大 大多數 是 比較 豪氣 的 。”

因為目前沒有任何,實際上也不可能有什麼算法能保證100%正確的,因此在實際用途中,多元最大切分消岐法成了最實用,也使用最多的處理方法。

相關問題答案