曾经有段时间,我的网站每天都在消耗巨大的流量,然而一查日志,发现都是一些垃圾蜘蛛。
这些垃圾蜘蛛除了消耗服务器资源不对给我们带来任何好处,最好直接屏蔽。
我写了一份 robots.txt 来屏蔽常见的垃圾指数,分享给大家,建议收藏。
User-agent: AhrefsBot
Disallow: /
User-agent: MJ12bot
Disallow: /
User-agent: DotBot
Disallow: /
User-agent: SemrushBot
Disallow: /
User-agent: ZoominfoBot
Disallow: /
User-agent: BLEXBot
Disallow: /
User-agent: aiHitBot
Disallow: /
User-agent: Mail.RU_Bot
Disallow: /
User-agent: XoviBot
Disallow: /
User-agent: MauiBot
Disallow: /
这份 robots.txt 规则能屏蔽哪些爬虫?
| User-agent | 所属公司/项目 | 主要用途 | 被禁止的原因 |
|---|---|---|---|
| AhrefsBot | Ahrefs | 用于收集网页数据以进行SEO分析和反向链接检查。 | 可能消耗大量服务器资源,影响网站性能。 |
| MJ12bot | Majestic-12 | 爬取网页以建立链接索引,支持Majestic搜索引擎的链接分析功能。 | 高频爬取可能导致服务器负载过高。 |
| DotBot | DotNetDotCom.org | 为SEO工具提供数据支持,收集网页信息。 | 爬取行为可能过于频繁,影响正常访问。 |
| SemrushBot | Semrush | 收集数据以支持SEO竞争分析、关键词研究等营销工具。 | 大量爬取可能导致资源占用过高。 |
| ZoominfoBot | ZoomInfo | 收集企业联系信息和公开数据,用于商业数据库。 | 可能抓取非公开信息或导致隐私问题。 |
| BLEXBot | Content ad | 爬取网页内容以生成广告或内容推荐。 | 可能抓取敏感内容或消耗过多带宽。 |
| aiHitBot | aiHit | 为aiHit公司收集企业数据,用于商业数据库。 | 爬取频率高或目标数据可能涉及隐私。 |
| Mail.RU_Bot | Mail.RU (俄罗斯邮件服务) | 为Mail.ru搜索引擎索引内容。 | 可能因爬取策略激进被网站屏蔽。 |
| XoviBot | Xovi (SEO工具) | 支持Xovi的SEO分析工具,爬取网页数据。 | 高频请求可能干扰正常服务。 |
完整规则如下(建议直接复制使用):
如何应用这份规则?
- 登录服务器,找到网站根目录。
- 创建或修改
robots.txt,粘贴上述规则。
