日志尾随的美学:服务器上巡航的机器人世界

在黑色终端屏幕上,白色文字如雨般倾泻。系统管理员或后端开发者都能感同身受的瞬间,就是输入 tail -f access.log,静静注视日志的那一刻。

看到不断上升的日志,仿佛获得了一种奇妙的安定感。或许可以称之为“数字冥想”?但在这份宁静中,仍会浮现好奇:

“此刻敲击我服务器之门的到底是谁?”

细读日志后,你会发现,真正的访客远不如在互联网上游荡的无数“机器人(Bot)”。本文将整理在日志尾随时遇到的各种爬虫机器人的身份与特征。


机器人:服务器的无请客人还是客人?



被称为网络爬虫(Web Crawler)或蜘蛛(Spider)的它们,利用自动化脚本访问网站,以收集互联网上的信息。

1. 礼貌型机器人(Polite Bots)

它们会清晰地声明自己的身份(User-Agent),遵守 robots.txt 协议,并以适当的频率访问,避免给服务器造成过大负荷。这些机器人是搜索引擎曝光等方面为我们带来收益的可贵存在。

2. 无礼型机器人(Bad Bots)

它们会伪装成普通浏览器(User-Agent Spoofing),隐藏身份,甚至无视 robots.txt,以接近 DDoS 攻击的速度请求,耗尽服务器资源。此类机器人是防火墙拦截的首要目标。


主要机器人全攻略

在日志尾随时经常看到的主要机器人列表,基于 User-Agent 字符串来识别它们的身份与目的。

机器人名称(User-Agent) 运营主体 目的与特点 IP 范围特征(参考)
Googlebot Google 主要用于 Google 搜索索引,最受欢迎的客人。 66.249.x.x 等(需 DNS 查询确认)
Mediapartners-Google Google 用于 Google AdSense 上下文分析的机器人。 66.249.x.x
Google-InspectionTool Google Search Console 的 URL 检测工具。 66.249.x.x
Bingbot Microsoft Bing 搜索引擎爬虫,次于 Google 的重要搜索机器人。 157.55.x.x40.77.x.x
Yeti Naver Naver 搜索引擎爬虫,韩国网站必访。 210.117.x.x114.111.x.x
DuckDuckBot DuckDuckGo 注重隐私的 DuckDuckGo 搜索爬虫。 20.191.x.x(使用 MS Azure 资源)
YandexBot Yandex 俄罗斯最大搜索引擎。若无俄罗斯流量,主要是资源消耗。 5.255.x.x77.88.x.x
Baiduspider Baidu 中国最大搜索引擎,以极具攻击性的爬取闻名。 116.179.x.x220.181.x.x
GPTBot OpenAI 用于收集 ChatGPT 等 AI 模型训练数据的机器人。 20.15.x.x(Azure 资源)
ChatGPT-User OpenAI ChatGPT 用户通过浏览功能引用链接时产生的流量。 -
Bytespider ByteDance TikTok 母公司 ByteDance 的机器人,近期极具攻击性。 47.128.x.x 等多种
PetalBot Huawei 华为 Petal Search 搜索引擎机器人,移动端为主,采集频繁。 114.119.x.x
AhrefsBot Ahrefs SEO 分析工具,主要用于网站声誉分析,负载较大。 54.36.x.x
SemrushBot Semrush SEO 营销与分析工具,类似 Ahrefs。 46.229.x.x
DotBot Moz Moz SEO 分析工具,用于链接数据构建。 216.244.x.x
Amazonbot Amazon Alexa 与 Amazon 服务改进的爬虫。 52.95.x.x 等 AWS 资源
FreshRSS / Reeder Open Source 个人 RSS 阅读器,非机器人,用户订阅请求。 用户 IP
python-requests / curl - 脚本工具,开发者测试或自动化攻击机器人。 -
peer39_crawler Peer39 广告上下文分析工具,用于判断广告适配性。 -

我自定义的机器人等级



通过日志观察,我主观地为机器人划分了等级。根据运营者的理念与流量目标,这些等级随时可能变化。

🏆 1 组:VIP 客人(欢迎光临!)

“为我带来流量的珍贵访客,也是我服务器存在的理由。最重要的客人。”

  • 成员GooglebotBingbotYetiDuckDuckBotMediapartners-GoogleYandexBotFreshRSSReeder
  • 原因
  • 搜索引擎(GooglebotYetiBingbot:没有它们,网站就像无人岛。
  • YandexBot:若关注俄罗斯与东欧流量,它们与 Google 同等重要,且相对礼貌。
  • 订阅者(FreshRSSReeder:非搜索流量,但是真正的“忠实粉丝”,值得 VVIP 对待。

😐 2 组:普通市民(请慢走,没坏事)

“虽然即时收益不明显,但潜力或无害。”

  • 成员BaiduspiderChatGPT-UserGoogle-InspectionToolAmazonbot
  • 原因
  • Baiduspider:中国庞大人口,潜在市场不可忽视。
  • 其他ChatGPT-UserAmazonbot 等无害,且表明有人在引用我的内容。

😤 3 组:不速之客(别来……)

“名字虽好,但无礼且只消耗资源。”

  • 成员BytespiderPetalBotAhrefsBotSemrushBotDotBotpython-requestscurl
  • 原因
  • 攻击性采集者(BytespiderPetalBot:频繁无节制抓取,像 DDoS。
  • SEO 商人(AhrefsSemrush:拿走数据却不回流。
  • 无身份脚本(python-requestscurl:大多为无授权抓取或漏洞扫描,最令人不快。

image


结语

日志尾随不仅是监控,更是展示服务器与全球网络互动的窗口。

即使像 Bytespider 这样粗暴抓取的访客,我也会在 iptables 里设防,但若其 UA 诚实披露,我仍会以“至少有礼貌”为理由,给它一点宽容。

今天,我再次注视着无声流动的日志,心里默念:

“好吧,至少你说了名字,我会让你进来。只要别抓得太猛!”