本文主要講用火車採集器採集百度新聞中的文章,不講如何釋出到網站上,只講採集到本地。主要包括兩大步驟,一個是採集新聞列表,然後是採集具體內容。
新建分組和任務
在左側控制面板中點選右鍵,選擇新建分組,分組名為test
選擇test分組,右鍵,選擇新建任務,彈出如下對話方塊
採集網址規則
比如採集手機遊戲的文章,可以先在百度新聞裡面搜尋 “手機遊戲”
為了方便比較網址的規律,將網址複製到word中,點下一頁,複製網址到word中,多複製幾個,尋找規律從上圖可知,第一頁沒規律,從第2頁開始,&pn=是20遞增
點選新增網址,由於首頁網址規律不一樣,可以先新增首頁網址,如下:
按規律批量新增其他網址,有變化的地方用(*)代替,遞增的數列為20,如下:
檢視百度新聞列表的原始碼,發現這些新聞列表中新聞內容的網址規律如下:
新增採集內容網址規律
測試一下采集網址規則,看能採集到相關網址列表說明:如果測試結果中有很多無效網址的話,可以在寫內容網址規則的時候,寫排除哪些規則的網址
採集內容規則
雙擊下面的測試列表中的網址,寫內容規則
採集文章標題和內容,有需要的也可以採集文章時間等其他引數,先點開這個網址,檢視原始碼,可以瞭解到標題都是在
採集文章內容,新版本的火車採集工具,有一個正文提取功能,可以直接提取正文內容,這樣很方便,自己可以過濾掉一些不用的css,或其他html標籤
測試採集結果
測試好後儲存好規則
選擇百度新聞採集任務,然後右鍵,選擇採集。
提醒
採集內容中,採集新聞可以使用正文提取 ,如果正文提取不行的話,需要使用其他方式,如前後擷取,正則等。。
採集結果要多選幾個網址測試一下,過濾掉一些無用內容。
現在要商業版才能使用正文提取
本文謝絕轉載