如何採集百度新聞中的文章?

Tags: 文章, 新聞,

本文主要講用火車採集器採集百度新聞中的文章,不講如何釋出到網站上,只講採集到本地。主要包括兩大步驟,一個是採集新聞列表,然後是採集具體內容。

新建分組和任務

在左側控制面板中點選右鍵,選擇新建分組,分組名為test

選擇test分組,右鍵,選擇新建任務,彈出如下對話方塊

採集網址規則

比如採集手機遊戲的文章,可以先在百度新聞裡面搜尋 “手機遊戲”

為了方便比較網址的規律,將網址複製到word中,點下一頁,複製網址到word中,多複製幾個,尋找規律從上圖可知,第一頁沒規律,從第2頁開始,&pn=是20遞增

點選新增網址,由於首頁網址規律不一樣,可以先新增首頁網址,如下:

按規律批量新增其他網址,有變化的地方用(*)代替,遞增的數列為20,如下:

檢視百度新聞列表的原始碼,發現這些新聞列表中新聞內容的網址規律如下:

新增採集內容網址規律

測試一下采集網址規則,看能採集到相關網址列表說明:如果測試結果中有很多無效網址的話,可以在寫內容網址規則的時候,寫排除哪些規則的網址

採集內容規則

雙擊下面的測試列表中的網址,寫內容規則

採集文章標題和內容,有需要的也可以採集文章時間等其他引數,先點開這個網址,檢視原始碼,可以瞭解到標題都是在標籤中,規則設定如下 :先測試一下,看看結果。發現後面有一些多餘的內容,可以選擇過濾掉,如果有其他不需要的也可以另外過濾

採集文章內容,新版本的火車採集工具,有一個正文提取功能,可以直接提取正文內容,這樣很方便,自己可以過濾掉一些不用的css,或其他html標籤

測試採集結果

測試好後儲存好規則

選擇百度新聞採集任務,然後右鍵,選擇採集。

提醒

採集內容中,採集新聞可以使用正文提取 ,如果正文提取不行的話,需要使用其他方式,如前後擷取,正則等。。

採集結果要多選幾個網址測試一下,過濾掉一些無用內容。

現在要商業版才能使用正文提取

本文謝絕轉載

文章, 新聞,
相關問題答案