前期在我中看到“帝國cms採集基本流程”,那麼帝國cms如何採集內容分頁呢?不少的同學在採集過程中,列表頁和內容頁都能可以很好地設定正則,但往往失敗在內容分頁正則上,主要是對內容分頁正則不瞭解。帝國的內容分頁形式有兩種:(1)全部列出式(2)上下頁導航式,但是這兩種內容分頁形式有什麼區別,採集內容分頁時該用哪種,官方說得比較模糊,對此有些同學感到很頭大,我在這裡分享給大家!
工具/原料
帝國cms、檢視原始碼
步驟/方法
全部列出式
全部列表式只需看第一頁的頁面HTML程式碼,這一頁的所有分頁連結都列出來了。
1、我們以“下面圖片頁面為例”為例:
可以看到這條新聞總共有3條分頁。
2、檢視原始碼:
這一頁裡除了已經採集到的第1條分頁外,還包括了第2條和第3條分頁,所有的分頁都列出來了。
3、取得 分頁區域正則([!--smallpageallzz--]):
4、取得 分頁連結正則([!--pageallzz--]):
5、為了方便教程顯示,newstext我採集了標題而不是採集內容,預覽結果:
上下頁導航式
上下頁導航式是分頁採集的難點,他需要所有頁面都符合分頁正則才行,在不熟悉的情況下,我們可以用第1頁和第2頁的程式碼來進行對比分析然後確定分頁正則。
1、我們以下網站的內容分頁為例:
可以看到這條新聞總共有20條分頁。
2、檢視原始碼:
這一頁裡除了已經採集到的第1條分頁外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁,但是第9到第19條分頁並沒有列出來,這時候我們拿用第1頁和第2頁的程式碼來進行對比分析,來確定分頁正則:
(1)第1頁程式碼:
(2)第2頁程式碼:
從這兩幅圖片可以看到他們有著相同的“分頁區域開始程式碼”,“分頁連結”格式,“分頁區域結束程式碼”,那麼就可以確定“分頁區域正則”,“分頁連結正則”。
3、取得 分頁區域正則([!--smallpageallzz--]):
4、取得 分頁連結正則([!--pageallzz--]):
5、為了方便教程顯示,newstext我採集了標題而不是採集內容,預覽結果:
注意事項
第一、在第一頁的頁面HTML程式碼裡,內容分頁連結全部列出來的情況下我們使用“全部列出式”。在第一頁的頁面HTML程式碼裡,內容分頁連結沒有全部列出來的情況下我們使用“上下頁導航式”。
第二、用全部列出式時,採集規則正確但是莫名其妙的出現重複的分頁,這時可以利用替換法把它過濾掉(下一講我們再說)。
第三、用上下頁導航式時,老是採到第1頁,其他頁連個影子都沒有見過,這是因為分頁區域正則([!--smallpagezz--])擷取錯誤。
第四、用上下頁導航式時,可以採集到前幾頁了,但是接下來這前幾頁全部重複迴圈到底,這也是因為分頁區域正則([!--smallpagezz--])擷取錯誤,擷取範圍過大,導致重複擷取前幾個分頁連結。