曾经有段时间,我的网站每天都在消耗巨大的流量,然而一查日志,发现都是一些垃圾蜘蛛

这些垃圾蜘蛛除了消耗服务器资源不对给我们带来任何好处,最好直接屏蔽。

我写了一份 robots.txt 来屏蔽常见的垃圾指数,分享给大家,建议收藏。

User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: XoviBot
Disallow: /
User-agent: MauiBot
Disallow: /

这份 robots.txt 规则能屏蔽哪些爬虫?

User-agent所属公司/项目主要用途被禁止的原因
AhrefsBotAhrefs用于收集网页数据以进行SEO分析和反向链接检查。可能消耗大量服务器资源,影响网站性能。
MJ12botMajestic-12爬取网页以建立链接索引,支持Majestic搜索引擎的链接分析功能。高频爬取可能导致服务器负载过高。
DotBotDotNetDotCom.org为SEO工具提供数据支持,收集网页信息。爬取行为可能过于频繁,影响正常访问。
SemrushBotSemrush收集数据以支持SEO竞争分析、关键词研究等营销工具。大量爬取可能导致资源占用过高。
ZoominfoBotZoomInfo收集企业联系信息和公开数据,用于商业数据库。可能抓取非公开信息或导致隐私问题。
BLEXBotContent ad爬取网页内容以生成广告或内容推荐。可能抓取敏感内容或消耗过多带宽。
aiHitBotaiHit为aiHit公司收集企业数据,用于商业数据库。爬取频率高或目标数据可能涉及隐私。
Mail.RU_BotMail.RU (俄罗斯邮件服务)为Mail.ru搜索引擎索引内容。可能因爬取策略激进被网站屏蔽。
XoviBotXovi (SEO工具)支持Xovi的SEO分析工具,爬取网页数据。高频请求可能干扰正常服务。

完整规则如下(建议直接复制使用):

如何应用这份规则?

  1. 登录服务器,找到网站根目录。
  2. 创建或修改 robots.txt,粘贴上述规则。

相关推荐

发表回复

Please Login to Comment
联系我们