中文分詞器有很多,網上一搜就是一大把,但mmseg4j是被廣泛應用的。關於分詞器mmseg4j的詳細介紹此處就略過了,網上的資料恆河沙數,不計其數。並且對於以後自己備查也不是很重要。以下具體敘述如何在自己新建的core中配置mmseg4j。(這裡把新建的core命名為daxue)
工具/原料
配置有solr的計算機。
mmseg4j分詞包。
需要java執行環境
方法/步驟
首先要下載mmseg4j.zip並解壓,筆者用的是mmseg4j-1.9.10版。解壓後得到的檔案(夾)如下:
開啟dist資料夾得到3個壓縮檔案:mmseg4j-analysis-1.9.1.jar、mmseg4j-core-1.9.1.jar、mmseg4j-solr-1.9.1.jar
在新建的core也就是daxue裡面新建一個資料夾,命名為lib。然後要在daxue的schema.xml裡面修改一下:
在合適的位置,加上一下一段程式碼:
如果要引用mmseg4j則需要在field的type裡面宣告才行,如:
進入solr/admin,就可以進行驗證了!
注意:剛剛開始配置的時候,我遇到許多問題,也走了不少的彎路,尤其是檔案的移動,很多資料都是說在Tomcat進行的配置,那麼就可以把3個.jar檔案移到solr-home下的lib資料夾裡面,然而在jetty下則不行。我移到example下的lib資料夾下有修改了solrconfig.xml的配置,但還是不行。最後是自己胡亂的嘗試才弄出來了,不得不感嘆一句:要步步為營啊!
另外在補一句,如果要配置solr自帶的中文分詞器smartcn,則需要把lucene-analyzers-smartcn-4.7.0.jar移到新建的lib資料夾裡面,並且在schema.xml裡面加上一句:
若要引用smartcn,跟上面引用mmseg4j一樣,把欄位的type修改為"text_smartcn"即可!