其實Google在這部分說得滿清楚了。以下我整理出一些要點。
- robots.txt 必須存放在網域的根目錄。
- 語法:User-Agent 和 Disallow。意思就是「你不要誰(User-Agent)來存取哪些東西(Disallow)?」
- googlebot特有語法:Allow,讓google某些bot搜尋剛剛你有Disallow過的特定資料。
- 使用「*」來代表一串任意字元
- 使用「$」表示 URL 的結尾字元(副檔名)
範例:
所有robots無法檢索目錄folder1User-Agent:*
Disallow: /folder1/
所有robots無法檢索目錄folder1但可以檢索裡面的myfile.htmlUser-Agent:*
Disallow: /folder1/
Allow:/folder1/myfile.html
無法檢索特定檔案User-Agent:*
Disallow: /private_file.html
無法檢索特定檔案類型User-Agent:*
Disallow: /*.gif$
無法檢索動態產生的網頁User-Agent:*
Disallow: /*?
只讓google adsense檢索某網頁User-Agent:*
Disallow:/folder1/
User-Agent:MediaPartners-Google
Allow:/folder1/
攔截所有以 private 開頭之子目錄的存取User-Agent:Googlebot
Disallow:/private*/
常用User-Agent列表(Robots):
- Googlebot:Google 網頁索引及新聞索引
- MediaPartners-Google:Google Adsense 索引網頁以決定廣告內容
- Googlebot-Mobile:Google手機網頁索引
- Googlebot-Image:索引網站裡的圖片
- Adsbot-Google:索引廣告主的廣告網頁來看品質如何
- Feedfetcher-Google:Google的Feed/RSS索引
- MSNBot:MSN 索引機器人
- del.icio.us-thumbnails:del.icio.us的網站縮略圖擷圖robot
- Yahoo-Blogs:Yahoo部落格索引
- Yahoo-MMAudVid:Yahoo多媒體檔案索引
- YahooFeedSeeker:Yahoo的Feed/RSS索引
From: http://blog.nownews.com/hana/tbview.php?file=72638