solr下配置中文分詞mmseg4j?

Tags: 中文, 分詞,

中文分詞器有很多，網上一搜就是一大把，但mmseg4j是被廣泛應用的。關於分詞器mmseg4j的詳細介紹此處就略過了，網上的資料恆河沙數，不計其數。並且對於以後自己備查也不是很重要。以下具體敘述如何在自己新建的core中配置mmseg4j。（這裡把新建的core命名為daxue）

工具/原料

配置有solr的計算機。

mmseg4j分詞包。

需要java執行環境

方法/步驟

首先要下載mmseg4j.zip並解壓，筆者用的是mmseg4j-1.9.10版。解壓後得到的檔案（夾）如下：

開啟dist資料夾得到3個壓縮檔案：mmseg4j-analysis-1.9.1.jar、mmseg4j-core-1.9.1.jar、mmseg4j-solr-1.9.1.jar

在新建的core也就是daxue裡面新建一個資料夾，命名為lib。然後要在daxue的schema.xml裡面修改一下：

在合適的位置，加上一下一段程式碼：

如果要引用mmseg4j則需要在field的type裡面宣告才行，如：

進入solr/admin，就可以進行驗證了！

注意：剛剛開始配置的時候，我遇到許多問題，也走了不少的彎路，尤其是檔案的移動，很多資料都是說在Tomcat進行的配置，那麼就可以把3個.jar檔案移到solr-home下的lib資料夾裡面，然而在jetty下則不行。我移到example下的lib資料夾下有修改了solrconfig.xml的配置，但還是不行。最後是自己胡亂的嘗試才弄出來了，不得不感嘆一句：要步步為營啊！

另外在補一句，如果要配置solr自帶的中文分詞器smartcn，則需要把lucene-analyzers-smartcn-4.7.0.jar移到新建的lib資料夾裡面，並且在schema.xml裡面加上一句：

若要引用smartcn，跟上面引用mmseg4j一樣，把欄位的type修改為"text_smartcn"即可！

中文, 分詞, solr配置mmseg4j, solrmmseg4j, mmseg4jsolr5.3, mmseg4jsolr2.3.0, solr6mmseg4j, solr5mmseg4j, mmseg4j分詞器, 中文分詞mmseg4j, solrmmseg4j詞庫,

相關問題答案

Have any Question?

Let us answer it!