MJ12bot、MauiBot、SemrushBot 如何屏蔽常见垃圾蜘蛛及方法

查看服务器日志时发现一些垃圾蜘蛛频繁抓紧网站页面,白白浪费服务器资源,屏蔽之!

image.png

垃圾蜘蛛定义

    垃圾蜘蛛定义为对网站的品牌和流量没有任何实质性的帮助,并且给网站资源带来一定损耗的蜘蛛。这种蜘蛛会频繁抓取网站内容,并且利用内容做一些数据分析来达到他们的商业目的。

垃圾蜘蛛列表

    SemrushBot,这是semrush下面的一个蜘蛛,是一家做搜索引擎优化的公司,因此它抓取网页的目的就很明显了。这种蜘蛛对网站没有任何用处,好在它还遵循robots协议,因此可以直接在robots屏蔽。

    DotBot, 这是moz旗下的,作用是提供seo服务的蜘蛛,但是对我们并没有什么用处。好在遵循robots协议,可以使用robots屏蔽

    AhrefsBot, 这是ahrefs旗下的蜘蛛,作用是提供seo服务,对我们没有任何用处,遵循robots协议。

    MJ12bot,这是英国的一个搜索引擎蜘蛛,但是对中文站站点就没有用处了,遵循robots协议。

    MauiBot,这个不太清楚是什么,但是有时候很疯狂,好在遵循robots协议。

    MegaIndex.ru,这是一个提供反向链接查询的网站的蜘蛛,因此它爬网站主要是分析链接,并没有什么作用。遵循robots协议。

    BLEXBot, 这个是webmeup下面的蜘蛛,作用是收集网站上面的链接,对我们来说并没有用处。遵循robots协议

    等待增加

蜘蛛汇总

mj12bot
“Mozilla/5.0 (compatible; MJ12bot/v1.4.8; http://mj12bot.com/)”

AhrefsBot
“Mozilla/5.0 (compatible; AhrefsBot/5.2; +http://ahrefs.com/robot/)”

seznambot
“Mozilla/5.0 (compatible; SeznamBot/3.2; +http://napoveda.seznam.cz/en/seznambot-intro/)”

SEOkicks-Robot
“Mozilla/5.0 (compatible; SEOkicks-Robot; +http://www.seokicks.de/robot.html)”

YandexBot
“Mozilla/5.0 (compatible; linkdexbot/2.0; +http://www.linkdex.com/bots/)”

DomainCrawler
“DomainCrawler/3.0 (info@domaincrawler.com; http://www.domaincrawler.com/linxiongxiong.com)”

常见蜘蛛:
googlebot
“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

bingbot
“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”

Baiduspider
“Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

Sogou web spider
“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”

360Spider
“Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36; 360Spider”

Yahoo! Slurp
“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”

屏蔽方法

    对于遵循robots协议的蜘蛛,可以直接在robots禁止。上面常见的无用蜘蛛禁止方法如下,将下面的内容加入到网站根目录下面的robots.txt就可以了

User-agent: SemrushBot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: MegaIndex.ru
Disallow: /
User-agent: MauiBot
Disallow: /
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: BLEXBot
Disallow: /


© 版权声明
THE END