分詞消岐處理方式?

分詞時出現岐義，這是分詞系統處理的最大難點之一，目前主要有下面幾種處理方式：

一、詞頻統計法舉個例子說：“著作權和版權在我國是同一個概念，是法律賦予作品創作者的專有權利。”

在這句話中，“我國是” 這裡就是一個存在岐義的地方，它可以分為“我國是”，也可以分為“我國是”

像這種情況，可以用居於詞頻法，顯然“我國”比“國是”頻率要高得多，因為可以確定“我國是”是正確的模式。

不過居於這種方式的分詞算法必須附帶一個詞頻的詞庫，這需要大量的語義庫。

二、最大詞優先法

在句子“電影的創作人大多數是比較豪氣的。 ”裡，出現岐義的地方是“創作人大多數”

它可分解為“創作人大多數”

在這種情況下用最大詞優先法是最適合的三、多元最大切分消岐法

多元最大切分消岐法嚴格來說，做的並不是消岐工作，因為上面一二實際上都是要利用到二元運算的。

多元最大切分消岐法是對岐義的結果進行最大切分，從而確保索引數據的有效性，這種方式其實是目前最流行，也是最適合的方式。

就“電影的創作人大多數是比較豪氣的。 ”這句話而言，它將被分為“電影的創作創作人人大大多數是比較豪氣的。”

因為目前沒有任何，實際上也不可能有什麼算法能保證100%正確的，因此在實際用途中，多元最大切分消岐法成了最實用，也使用最多的處理方法。

相關問題答案

Let us answer it!