目前除了我们常见的搜索引擎如百度、Google、Sogou、360等搜索引擎之外,还存在其他非常多的搜索引擎,通常这些搜索引擎不仅不会带来流量,因为大量的抓取请求,还会造成主机的CPU和带宽资源浪费,屏蔽方法也很简单,按照下面步骤操作即可,原理就是分析指定UA然后屏蔽。
宝塔面板下使用方法如下:
1、找到文件目录/www/server/nginx/conf文件夹下面,新建一个文件命名:agent_deny.conf 你也可以随意起名,创建完文件后,点击编辑这个文件,把下面的代码放进去保存。(天辰重新收集整理,是为止目前也是最全的,最完善的代码)
如图:
2、找到【网站】-【设置】点击左侧 【配置文件】选项卡,在第7-8行左右 插入代码:
添加完毕后保存,重启nginx即可,这样这些蜘蛛或工具扫描网站的时候就会提示403禁止访问。
注意:如果你网站使用火车头采集发布,使用以上代码会返回403错误,发布不了的。如果想使用火车头采集发布,请使用下面的代码:
设置完了可以用模拟爬去来看看有没有误伤了好蜘蛛,说明:以上屏蔽的蜘蛛名不包括以下常见的6大蜘蛛名:
百度蜘蛛:Baiduspider
谷歌蜘蛛:Googlebot
必应蜘蛛:bingbot
搜狗蜘蛛:Sogou web spider
360蜘蛛:360Spider
神马蜘蛛:YisouSpider
爬虫常见的User-Agent如下: