日志尾随的美学:服务器上穿梭的机器人世界
黑色终端屏幕上倾泻而下的白色文字,系统管理员或后端开发者都能感同身受的瞬间。那就是输入 tail -f access.log 命令后,盯着日志无声流动的时刻。
看到不断上升的日志,仿佛获得了一种奇妙的安定感。可以说是“数字冥想”吗?但在这份宁静中,仍会浮现好奇心——“现在敲门的到底是谁?”
细看日志,你会发现,真正的用户远不如在互联网上游荡的无数“机器人(Bot)”占据主导。本文将整理在日志尾随时遇到的各种爬虫机器人的身份与特点。
机器人(Bot),服务器的无请客人还是客人?
被称为网络爬虫(Web Crawler)或蜘蛛(Spider)的它们,使用自动化脚本访问网站,以收集互联网上的信息。
1. 礼貌型机器人(Polite Bots)
它们会明确声明自己的身份(User-Agent),遵守 robots.txt 协议,并以适当的频率访问,避免给服务器造成过载。它们是为我们带来搜索引擎曝光等好处的可贵存在。
2. 无礼型机器人(Bad Bots)
它们会将 User-Agent 换成常见浏览器(Spoofing),或隐藏身份直接访问。甚至会忽视 robots.txt,以接近 DDoS 攻击的速度请求,耗尽服务器资源。此类机器人是防火墙拦截的首要目标。
主要机器人(Bot)全攻略
在日志尾随时经常看到的主要机器人列表。基于 User-Agent 字符串,了解它们的身份与目的。
| 机器人名称(User-Agent) | 运营主体 | 目的与特点 | IP 范围特点(参考) |
|---|---|---|---|
| Googlebot | 主要用于 Google 搜索索引的爬虫。最受欢迎的客人。 | 66.249.x.x 等(需 DNS 查询确认) |
|
| Mediapartners-Google | 用于 Google AdSense(AdSense)上下文分析的机器人。通过分析页面内容进行广告投放。 | 66.249.x.x |
|
| Google-InspectionTool | Search Console 的 URL 检测工具。用户直接请求索引时触发。 | 66.249.x.x |
|
| Bingbot | Microsoft | Bing 搜索引擎爬虫。次于 Google 的重要搜索机器人。 | 157.55.x.x、40.77.x.x |
| Yeti | Naver | Naver 搜索引擎爬虫。对韩国网站来说是必访客人。 | 210.117.x.x、114.111.x.x |
| DuckDuckBot | DuckDuckGo | 注重隐私的 DuckDuckGo 搜索爬虫。 | 20.191.x.x(使用 MS Azure 资源) |
| YandexBot | Yandex | 俄罗斯最大搜索引擎。若无俄罗斯流量,主要消耗资源。 | 5.255.x.x、77.88.x.x |
| Baiduspider | Baidu | 中国最大搜索引擎。以极具攻击性的爬取闻名,若非中国服务则常被阻止。 | 116.179.x.x、220.181.x.x |
| GPTBot | OpenAI | 用于收集 ChatGPT 等 AI 模型训练数据的机器人。 | 20.15.x.x(Azure 资源) |
| ChatGPT-User | OpenAI | 当 ChatGPT 用户通过浏览功能引用链接时产生的流量。 | - |
| Bytespider | ByteDance | TikTok(抖音)母公司 ByteDance 的机器人。近期 极具攻击性收集,声名狼藉。 | 47.128.x.x 等多种 |
| PetalBot | Huawei | 华为的搜索引擎(Petal Search)机器人。以移动端为主,收集频率高。 | 114.119.x.x |
| AhrefsBot | Ahrefs | SEO 分析工具。用于网站声誉分析,往往给服务器带来较大负载。 | 54.36.x.x 等 |
| SemrushBot | Semrush | SEO 营销与分析工具。与 Ahrefs 类似。 | 46.229.x.x |
| DotBot | Moz | Moz 的 SEO 分析工具。用于链接数据构建。 | 216.244.x.x |
| Amazonbot | Amazon | Alexa 与 Amazon 服务改进的爬虫。 | 52.95.x.x 等 AWS 资源 |
| FreshRSS / Reeder | 开源 | 个人使用的 RSS 阅读器。并非机器人,而是用户订阅更新的请求。 | 用户 IP |
| python-requests / curl | - | 脚本工具。开发者用于测试,也可能是自动化攻击机器人的来源。 | - |
| peer39_crawler | Peer39 | 广告上下文分析工具。用于判断广告适配性。 | - |
我自定义的机器人等级
在日志中感受到的主观机器人等级。特别是运营者的哲学与流量目标不同,等级随时可能变化。
🏆 1组:VIP 客人(欢迎光临!)
"为我带来流量的珍贵存在,也是服务器存在的理由。最重要的客人。"
- 成员:
Googlebot、Bingbot、Yeti、DuckDuckBot、Mediapartners-Google、YandexBot、FreshRSS、Reeder - 原因:
- 搜索引擎(
Googlebot、Yeti、Bingbot):没有它们,网站就像无人岛。 - YandexBot:若关注俄罗斯与东欧流量,它们与 Google 同等重要。个人经验显示,它们相当礼貌(Polite),若追求全球流量,必须关注。
- 订阅者(
FreshRSS、Reeder):非搜索流量,但直接订阅 RSS 的“真粉丝”,比流量扩散更重要,值得 VIP 对待。
😐 2组:普通市民(请通过,没坏处)
"虽然即时收益不明显,但潜力或无害。"
- 成员:
Baiduspider、ChatGPT-User、Google-InspectionTool、Amazonbot - 原因:
- Baiduspider:中国庞大人口,潜在市场不可忽视。虽有“传闻”被阻,但作为中国代表搜索引擎,除非有理由,否则不应阻止。
- 其他:
ChatGPT-User、Amazonbot等不造成伤害,且表明有人在引用我的内容,心情不坏,轻松容忍。
😤 3组:不请自来者(别来……求求你……)
"名字(UA)虽好,但根本不想来。只消耗资源,毫无礼貌,也不帮我。"
- 成员:
Bytespider、PetalBot、AhrefsBot、SemrushBot、DotBot、python-requests、curl - 原因:
- 攻击性收集者(
Bytespider、PetalBot):最近最头疼的。像 DDoS 一样粗暴抓取,令服务器管理员疲惫。 -
SEO 商人(
Ahrefs、Semrush):拿走我的数据,用于付费服务分析,却不回流量,极其讨厌。 -
身份不明脚本:
python-requests、curl等无伪装请求,往往是无授权抓取或漏洞扫描。最让人不爽。为精神健康,常用 fail2ban 处理。

结语
日志尾随不仅是简单监控,更是展示服务器与全球网络互动的窗口。
即使像 Bytespider 这样的机器人粗暴抓取,也会想用 iptables 阻止,但若它们至少诚实地声明 UA,至少算是“最低礼貌”,我会忍一笑。
今天,我仍在盯着无声流动的日志,思考。
"好吧,至少说了名字,我会让它们进来。但请适度抓取!"
目前沒有評論。