查看网站的日志,发现百度蜘蛛爬行了很多站内没有直接入口的地址。最多的是网站搜索结果页面,爬行的关键词很多,也没有规律。
这些被爬行的页面没有站内入口、没有锚文本外链、没有网站地图、没有主动提交网址给百度的情况下,仍然能让蜘蛛抓取,而有些已经被收录了。
难道百度蜘蛛已经智能到这种程度,可以自动匹配关键词做站内查询。
后来研究日志发现,被蜘蛛爬行这些关键词查询结果页面,很多是有用户主动搜索过的,有的是几天前的,也有十几天前的。
觉得百度可以记录这些用户行为,有可能是用户用的是百度浏览器,也有可能是我网站上百度产品。
继续研究日志后,可以排除客户端因素,应该是和我网站安装的百度统计有关。
进一步确认后,百度统计升级后,添加了一个功能:百度统计实时推送网页至搜索引擎功能,提升网页抓取速度!
这就解释了没有爬行入口,百度蜘蛛也能爬行抓取的问题了。
声明:如需转载,请注明来源于www.webym.net并保留原文链接:http://www.webym.net/jiaocheng/576.html