搜尋引擎的工作原理 輸出結果前面還有3個步驟,如果網站需要被搜尋到,那麼必須知道你的站存在,抓取,——過濾,目前中國400萬個網站,以億計算的資料。百度認為有價值的建立索引,既收錄——當用戶搜尋關鍵詞時,就輸出結果。抓取——過濾——索引(收錄)——輸出。抓取的前提是知道連結的存在?2個方式:1主動提交 sitemap 網站地圖提交到站長平臺。2被動抓取 發外鏈引蜘蛛,很多人發的是首頁的連結。qq空間不能發外鏈,因為蜘蛛進不去。
工具/原料
看日誌,需要判斷真假蜘蛛,有些人對網站採集,也會產生假蜘蛛。
如果網站是動態程式,偽靜態,日誌記錄的路徑都是動態的,不會記錄偽靜態,純靜態的可以直接看。偽靜態很難分析路徑。
方法/步驟
這個域名曾經有問題 如果以前被k過,是需要經過一定考核期。即使知道存在,就還不會抓。考核期4-6周。上線一個頁面也不收錄。域名做個調查,先把域名在百度或谷歌查下,證明有人用過。
不是不抓,而是來不了。域名轉化成ip,轉化成相應的伺服器,dns解析,域名轉為ip,找到ip所在伺服器進行訪問,如果dns做了手腳,或者空間商做手腳,導致蜘蛛沒法抓。空間商遮蔽蜘蛛,是會產生壓力。20天或者十幾天新站開始收錄。驗證百度站長平臺。受到百度站長平臺資訊提醒。網站對搜尋引擎進行全站封禁。換個空間,馬上就收錄。
搜尋引擎對網站抓取的頻率 百度站長平臺裡面壓力反饋,抓取壓力即搜尋引擎在單位時間內對一個去都沒有去網站伺服器訪問的頻率和總次數。 如果0,證明沒去。壓力值716,只能證明搜尋引擎去,但是去哪些頁面不知道。如果去了,只去首頁,或你想被收錄的頁面都沒去,沒訪問到內頁。
伺服器日誌 看訪問哪些頁面。有獨立的伺服器,vps可以自己搞。(光年日誌分析)真假蜘蛛 蜘蛛不一定是真的。站長工具對網站查詢時,也會產生假蜘蛛。
看日誌,需要判斷真假蜘蛛,有些人對網站採集,也會產生假蜘蛛。
如果網站是動態程式,偽靜態,日誌記錄的路徑都是動態的,不會記錄偽靜態,純靜態的可以直接看。偽靜態很難分析路徑。
通過日誌,就能看到哪些頁面沒爬。
有些頁面爬,有些頁面沒爬?原因如下:
許可權設定 robots
結構問題 爬取困難
404也是去爬 nofollow 不傳遞權重,但是能爬 路徑深不影響爬取
信用度 供 求b2b 稽核 垃圾資訊太多 爬回的頁面過濾 分類整理 篩選 ,建立索引。怎樣過濾 ?第一剔除空頁面和無意義的頁面。整個頁面是flash 登陸頁面 註冊頁面 或產品頁面就是一張圖片,則有的是空頁面,無意義的。這樣的是沒有必要被收錄的;
判斷頁面價值得分。達到收錄標準 ,本身得分的高與低,1、這些取決於網站本身權重的高與低。信用度高。站內頁面要不要收錄,取決與本身權重高低。權重高,收錄很容易,標準也降低很多。2 頁面的質量得分 內容是否原創,還是複製。稀缺程度,SEO部落格 PAGE SPEED怎樣安裝的內容,放到部落格中,對網站的客戶有用。星火計劃鼓勵原創。原創會加分,並且很好排名。在原本內容上新增附加內容和價值。
注意事項
標題 優化來說 標題不匹配關鍵詞
轉化率頁面 引導 直接性需求