1. 程式人生 > >遮蔽百度爬蟲的方法

遮蔽百度爬蟲的方法

在百度C2C產品“百度有啊”即將上線的時候,淘寶網站曾經遮蔽百度搜索爬蟲,禁止百度搜索引擎抓取淘寶網站的網頁內容,淘寶官方的解釋是“杜絕不良商家欺詐”。

在技術層面,淘寶遮蔽百度的方法是,在網站的robots.txt檔案中加上如下內容:

User-agent: Baiduspider
Disallow: /

但實際上這種方法並不能完全遮蔽百度的爬蟲,至今在百度上輸入site:taobao.com還是可以看到內容,要不要索引網站,還是由百度說了算,要是遵守robots協議,那才不會索引,因此要想完全遮蔽百度的爬蟲,需要在.htaccess中加入一些語句才可以,下面介紹兩種方法。

方法1:

RewriteEngine on
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [NC]
RewriteRule .* – [F]

方法2:

SetEnvIfNoCase User-Agent “^Baiduspider” bad_bot

<Limit GET POST>
Order Allow,Deny
Allow from all
Deny from env=bad_bot
</Limit>

當然,對於普通中文網站來說,還是不建議遮蔽百度的爬蟲,通常情況下做一些大型的英文網站,才有必要這麼做,以節省流量。