查看网站日志,发现MSNBot爬虫频繁爬取网站页面,几乎遍历网站所有页面,给服务器造成了不小的压力。那么我们如何屏蔽或者降低MSNBot爬取的次数呢。
通过查询得知,MSNBot是微软BING搜索引擎的爬虫,我们可以直接通过服务器IP黑名单直接屏蔽msnbot的IP段,这样服务器压力小了,但也影响了Bing搜索引擎的收录。
Bing搜索引擎
查看Bing官网,发现有个折中的办法,降低bing爬虫MSNBot到网站的访问次数。
Bing支持网站的robots.txt文件的REP指令,这个robots.txt文本文件应该放在网站的根文件夹下。
我们可以在robots.txt文件中设置爬虫的频率。修改robots.txt文件是设置MSNBot抓取延迟的唯一有效的方法。
如何设置抓取延迟参数
在robots.txt文件中的抓取延迟指令如下所示:
User-agent: *
Crawl-delay: 10
Crawl-delay就是抓取延迟指令,后面跟一个正整数值。Bing建议使用尽可能的最低值,建议不要高于10,因为这将严重影响Bing机器人的抓取效率。
Crawl-delay设置 | 索引更新速度 |
---|---|
不设置 | 正常 |
1 | 较慢 |
5 | 慢 |
10 | 很慢 |
声明:如需转载,请注明来源于www.webym.net并保留原文链接:http://www.webym.net/jiaocheng/1059.html