是这样的,最近发现收录不理想,就查起了搜索引擎蜘蛛爬取情况,这不查不知道,一查吓一跳,某个IP段的蜘蛛短短5个小时就爬取了我的网站近2000次,什么概念,几个小时时间干了人家百度一个月,甚至干了搜狗360半年的工作量。关于这里大家都懂的撒,百度一般提交了就抓,搜狗360是看情况抓,说不定你提交了一年的域名都不一定能抓取并收录。
扯远了。当我发现了这一情况的时候,我萌生的第一想法,是特么谁在攻击我?还是说谁在采集我的网站内容?于是我收集了十几个IP地址去ip138查询了一下,显示都是Ahrefs蜘蛛。
到这里肯定有新手站长可能有一种想法,蜘蛛这种术语,不是搜索引擎吗?那么多蜘蛛爬取,难道不是收录更好?其实错了,Ahrefs蜘蛛。此蜘蛛非彼蜘蛛,AhrefsBot蜘蛛是一个比较常见的垃圾蜘蛛,它是Ahrefs网站的蜘蛛,而Ahrefs网站是国外一家比较有名的营销网站,也是大家做外贸网站SEO可能会用到的外链查询分析网站。它嘛去网站并不是为了收录你的网站,而是抓取你网站的数据以达到它营销的商业目的。而这里可能又有人会想,我都没有提交过网站给AhrefsBot,为什么AhrefsBot的蜘蛛还会来呢?这里有几种可能性:
当你自己或你的竞争对手使用Ahrefs网站来查询你的网站时,AhrefsBot蜘蛛就会出现。
网站域名有建站历史,并且被Ahrefs蜘蛛爬取过,被记录了。当你新建站的时候,它循着味道来了
AhrefsBot蜘蛛的抓取非常活跃,在国外可能是仅次于谷歌的存在,但是AhrefsBot蜘蛛对大多数网站来说就还是垃圾蜘蛛!AhrefsBot蜘蛛的抓取对你的网站基本是没有作用的,他们它抓取到的数据可以作为Ahrefs网站的分析基础,可以不断的强化Ahrefs网站的分析效果。如果你的网站用户是国外的,比如是外贸网站,那么这个蜘蛛放弃任它自己抓取也没事,反正影响又不大。
如果你的网站用户都是国内的,那么AhrefsBot蜘蛛对你没有任何作用,直接把它当垃圾蜘蛛处理吧。一般情况下任何蜘蛛程序对你的网站基本都是没什么影响的,除非它们的抓以量非常大。大多数企业网站一般是感觉不到AhrefsBot蜘蛛的存在的,所以我们不管它也是可以的。个人网站的话,看站长心情,禁不禁用都不是很大问题,
但是如果你觉得AhrefsBot蜘蛛对你的网站产生了影响,那么可以尝试屏蔽它。
AhrefsBot蜘蛛屏蔽方法如下:
在你的网站robot.txt文件中添加如下内容
User-agent: AhrefsBot
Disallow: /
使用apache或者nginx来封禁
这个方法参考之前的文章:网站阻止特定机器人和爬虫访问的方法
如果使用的nginx的话,也可以单独添加下面这串代码到你虚拟机配置文件来实现屏蔽AhrefsBot
if ($http_user_agent ~* AhrefsBot) {
return 403;
}
禁用该蜘蛛的IP或者IP段
按照下图的方法配置,把下面这些ip段全部添加进去就行了。
标签: AhrefsBot蜘蛛 百度蜘蛛 搜索引擎 SEO 网站优化 站长知识 网站维护