大家好,我是大連自媒體人姜文,今天為大家呈現的是robots.txt用法詳解。
方法/步驟
A. 禁止所有搜尋引擎訪問網站的任何部分:
User-agent: *
Disallow: /
B. 允許所有的robot 訪問
User-agent: *
Disallow:
或者也可以建一個空檔案 "/robots.txt" file
C. 禁止所有搜尋引擎訪問網站的幾個部分(下例中的cgi-bin、tmp、private 目錄)
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /private/
D. 禁止某個搜尋引擎的訪問(下例中的Baiduspider)
User-agent: Baiduspider
Disallow: /
E. 只允許某個搜尋引擎的訪問(下例中的Baiduspider)
User-agent: Baiduspider
Disallow:
User-agent: *
Disallow: /
F. 允許訪問特定目錄中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
G. 使用"*"限制訪問url
ser-agent: *
Disallow: /cgi-bin/*.htm
禁止訪問/cgi-bin/目錄下的所有以".htm"為字尾的URL(包含子目錄)。
H. 使用"$"限制訪問url
User-agent: *
Allow: .htm$
Disallow: /
僅允許訪問以".htm"為字尾的URL。
I. 禁止訪問網站中所有的動態頁面
User-agent: *
Disallow: /*?*
J. 禁止 Baiduspider 抓取網站上所有圖片
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
僅允許抓取網頁,禁止抓取任何圖片。
K. 僅允許Baiduspider 抓取網頁和.gif 格式圖片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$