帝國cms採集圖文教程?

前期在我中看到“帝國cms採集基本流程”,那麼帝國cms如何採集內容分頁呢?不少的同學在採集過程中,列表頁和內容頁都能可以很好地設定正則,但往往失敗在內容分頁正則上,主要是對內容分頁正則不瞭解。帝國的內容分頁形式有兩種:(1)全部列出式(2)上下頁導航式,但是這兩種內容分頁形式有什麼區別,採集內容分頁時該用哪種,官方說得比較模糊,對此有些同學感到很頭大,我在這裡分享給大家!

工具/原料

帝國cms、檢視原始碼

步驟/方法

全部列出式

全部列表式只需看第一頁的頁面HTML程式碼,這一頁的所有分頁連結都列出來了。

1、我們以“下面圖片頁面為例”為例:

可以看到這條新聞總共有3條分頁。

2、檢視原始碼:

這一頁裡除了已經採集到的第1條分頁外,還包括了第2條和第3條分頁,所有的分頁都列出來了。

3、取得 分頁區域正則([!--smallpageallzz--]):

4、取得 分頁連結正則([!--pageallzz--]):

5、為了方便教程顯示,newstext我採集了標題而不是採集內容,預覽結果:

帝國cms採集圖文教程

帝國cms採集圖文教程

帝國cms採集圖文教程

帝國cms採集圖文教程

帝國cms採集圖文教程

上下頁導航式

上下頁導航式是分頁採集的難點,他需要所有頁面都符合分頁正則才行,在不熟悉的情況下,我們可以用第1頁和第2頁的程式碼來進行對比分析然後確定分頁正則。

1、我們以下網站的內容分頁為例:

可以看到這條新聞總共有20條分頁。

2、檢視原始碼:

這一頁裡除了已經採集到的第1條分頁外,還包括了第2,第3,第4,第5,第6,第7,第8,第20條分頁,但是第9到第19條分頁並沒有列出來,這時候我們拿用第1頁和第2頁的程式碼來進行對比分析,來確定分頁正則:

(1)第1頁程式碼:

(2)第2頁程式碼:

從這兩幅圖片可以看到他們有著相同的“分頁區域開始程式碼”,“分頁連結”格式,“分頁區域結束程式碼”,那麼就可以確定“分頁區域正則”,“分頁連結正則”。

3、取得 分頁區域正則([!--smallpageallzz--]):

4、取得 分頁連結正則([!--pageallzz--]):

5、為了方便教程顯示,newstext我採集了標題而不是採集內容,預覽結果:

帝國cms採集圖文教程

帝國cms採集圖文教程

帝國cms採集圖文教程

帝國cms採集圖文教程

帝國cms採集圖文教程

帝國cms採集圖文教程

帝國cms採集圖文教程

注意事項

第一、在第一頁的頁面HTML程式碼裡,內容分頁連結全部列出來的情況下我們使用“全部列出式”。在第一頁的頁面HTML程式碼裡,內容分頁連結沒有全部列出來的情況下我們使用“上下頁導航式”。

第二、用全部列出式時,採集規則正確但是莫名其妙的出現重複的分頁,這時可以利用替換法把它過濾掉(下一講我們再說)。

第三、用上下頁導航式時,老是採到第1頁,其他頁連個影子都沒有見過,這是因為分頁區域正則([!--smallpagezz--])擷取錯誤。

第四、用上下頁導航式時,可以採集到前幾頁了,但是接下來這前幾頁全部重複迴圈到底,這也是因為分頁區域正則([!--smallpagezz--])擷取錯誤,擷取範圍過大,導致重複擷取前幾個分頁連結。

教程, 圖文, 內容, 帝國, 正則,
相關問題答案