日志尾随的美学:服务器上穿梭的机器人世界

黑色终端屏幕上倾泻而下的白色文字,系统管理员或后端开发者都能感同身受的瞬间。那就是输入 tail -f access.log 命令后,盯着日志无声流动的时刻。

看到不断上升的日志,仿佛获得了一种奇妙的安定感。可以说是“数字冥想”吗?但在这份宁静中,仍会浮现好奇心——“现在敲门的到底是谁?”

细看日志,你会发现,真正的用户远不如在互联网上游荡的无数“机器人(Bot)”占据主导。本文将整理在日志尾随时遇到的各种爬虫机器人的身份与特点。


机器人(Bot),服务器的无请客人还是客人?



被称为网络爬虫(Web Crawler)或蜘蛛(Spider)的它们,使用自动化脚本访问网站,以收集互联网上的信息。

1. 礼貌型机器人(Polite Bots)

它们会明确声明自己的身份(User-Agent),遵守 robots.txt 协议,并以适当的频率访问,避免给服务器造成过载。它们是为我们带来搜索引擎曝光等好处的可贵存在。

2. 无礼型机器人(Bad Bots)

它们会将 User-Agent 换成常见浏览器(Spoofing),或隐藏身份直接访问。甚至会忽视 robots.txt,以接近 DDoS 攻击的速度请求,耗尽服务器资源。此类机器人是防火墙拦截的首要目标。


主要机器人(Bot)全攻略

在日志尾随时经常看到的主要机器人列表。基于 User-Agent 字符串,了解它们的身份与目的。

机器人名称(User-Agent) 运营主体 目的与特点 IP 范围特点(参考)
Googlebot Google 主要用于 Google 搜索索引的爬虫。最受欢迎的客人。 66.249.x.x 等(需 DNS 查询确认)
Mediapartners-Google Google 用于 Google AdSense(AdSense)上下文分析的机器人。通过分析页面内容进行广告投放。 66.249.x.x
Google-InspectionTool Google Search Console 的 URL 检测工具。用户直接请求索引时触发。 66.249.x.x
Bingbot Microsoft Bing 搜索引擎爬虫。次于 Google 的重要搜索机器人。 157.55.x.x40.77.x.x
Yeti Naver Naver 搜索引擎爬虫。对韩国网站来说是必访客人。 210.117.x.x114.111.x.x
DuckDuckBot DuckDuckGo 注重隐私的 DuckDuckGo 搜索爬虫。 20.191.x.x(使用 MS Azure 资源)
YandexBot Yandex 俄罗斯最大搜索引擎。若无俄罗斯流量,主要消耗资源。 5.255.x.x77.88.x.x
Baiduspider Baidu 中国最大搜索引擎。以极具攻击性的爬取闻名,若非中国服务则常被阻止。 116.179.x.x220.181.x.x
GPTBot OpenAI 用于收集 ChatGPT 等 AI 模型训练数据的机器人。 20.15.x.x(Azure 资源)
ChatGPT-User OpenAI 当 ChatGPT 用户通过浏览功能引用链接时产生的流量。 -
Bytespider ByteDance TikTok(抖音)母公司 ByteDance 的机器人。近期 极具攻击性收集,声名狼藉。 47.128.x.x 等多种
PetalBot Huawei 华为的搜索引擎(Petal Search)机器人。以移动端为主,收集频率高。 114.119.x.x
AhrefsBot Ahrefs SEO 分析工具。用于网站声誉分析,往往给服务器带来较大负载。 54.36.x.x
SemrushBot Semrush SEO 营销与分析工具。与 Ahrefs 类似。 46.229.x.x
DotBot Moz Moz 的 SEO 分析工具。用于链接数据构建。 216.244.x.x
Amazonbot Amazon Alexa 与 Amazon 服务改进的爬虫。 52.95.x.x 等 AWS 资源
FreshRSS / Reeder 开源 个人使用的 RSS 阅读器。并非机器人,而是用户订阅更新的请求。 用户 IP
python-requests / curl - 脚本工具。开发者用于测试,也可能是自动化攻击机器人的来源。 -
peer39_crawler Peer39 广告上下文分析工具。用于判断广告适配性。 -

我自定义的机器人等级



在日志中感受到的主观机器人等级。特别是运营者的哲学与流量目标不同,等级随时可能变化。

🏆 1组:VIP 客人(欢迎光临!)

"为我带来流量的珍贵存在,也是服务器存在的理由。最重要的客人。"

  • 成员GooglebotBingbotYetiDuckDuckBotMediapartners-GoogleYandexBotFreshRSSReeder
  • 原因
  • 搜索引擎(GooglebotYetiBingbot:没有它们,网站就像无人岛。
  • YandexBot:若关注俄罗斯与东欧流量,它们与 Google 同等重要。个人经验显示,它们相当礼貌(Polite),若追求全球流量,必须关注。
  • 订阅者(FreshRSSReeder:非搜索流量,但直接订阅 RSS 的“真粉丝”,比流量扩散更重要,值得 VIP 对待。

😐 2组:普通市民(请通过,没坏处)

"虽然即时收益不明显,但潜力或无害。"

  • 成员BaiduspiderChatGPT-UserGoogle-InspectionToolAmazonbot
  • 原因
  • Baiduspider:中国庞大人口,潜在市场不可忽视。虽有“传闻”被阻,但作为中国代表搜索引擎,除非有理由,否则不应阻止。
  • 其他ChatGPT-UserAmazonbot 等不造成伤害,且表明有人在引用我的内容,心情不坏,轻松容忍。

😤 3组:不请自来者(别来……求求你……)

"名字(UA)虽好,但根本不想来。只消耗资源,毫无礼貌,也不帮我。"

  • 成员BytespiderPetalBotAhrefsBotSemrushBotDotBotpython-requestscurl
  • 原因
  • 攻击性收集者(BytespiderPetalBot:最近最头疼的。像 DDoS 一样粗暴抓取,令服务器管理员疲惫。
  • SEO 商人(AhrefsSemrush:拿走我的数据,用于付费服务分析,却不回流量,极其讨厌。

  • 身份不明脚本python-requestscurl 等无伪装请求,往往是无授权抓取或漏洞扫描。最让人不爽。为精神健康,常用 fail2ban 处理。

image


结语

日志尾随不仅是简单监控,更是展示服务器与全球网络互动的窗口。

即使像 Bytespider 这样的机器人粗暴抓取,也会想用 iptables 阻止,但若它们至少诚实地声明 UA,至少算是“最低礼貌”,我会忍一笑。

今天,我仍在盯着无声流动的日志,思考。

"好吧,至少说了名字,我会让它们进来。但请适度抓取!"