Эстетика лог‑тейлинга: мир ботов, скользящих по серверу
Черный терминал, белый поток текста. Любой системный администратор или бекенд‑разработчик знает, каково это – ввести команду tail -f access.log и смотреть, как строки приходят без остановки.
Смотря, как лог растёт, ощущается странное спокойствие. Можно назвать это «цифровым медитацией». Но даже в этом спокойствии возникает любопытство: «Кто сейчас стучит в дверь моего сервера?»
Если внимательно разглядеть логи, то большинство запросов не от реальных пользователей, а от бесчисленных «ботов», плывущих по интернет‑океану. В этой статье мы разберём, кто такие эти кроулеры и чем они отличаются.
Боты: нежеланные гости или полезные посетители?
Веб‑кроулеры (или спайдеры) – это автоматизированные скрипты, которые посещают сайты, чтобы собирать информацию.
1. Вежливые боты (Polite Bots)
Они явно указывают свой User‑Agent, соблюдают правила robots.txt и делают запросы с разумной частотой, не перегружая сервер. Это благодарные существа, которые помогают нам в поисковой индексации и других задачах.
2. Невежливые боты (Bad Bots)
Они маскируют свой User‑Agent под обычный браузер (Spoofing) или скрывают свою личность. Некоторые игнорируют robots.txt и рассылают запросы почти как DDoS‑атаку, истощая ресурсы сервера. Такие боты – приоритет для блокировки.
Полный список основных ботов
Ниже приведён список ботов, которые чаще всего встречаются в логах. По строке User‑Agent можно определить их цель и владельца.
| Имя бота (User‑Agent) | Владелец | Цель и особенности | IP‑диапазон (для справки) |
|---|---|---|---|
| Googlebot | Основной кроулер для индексации поисковой системы. Самый желанный посетитель. | 66.249.x.x и др. |
|
| Mediapartners-Google | Кроулер для контекстной рекламы AdSense. Анализирует контент страниц. | 66.249.x.x |
|
| Google-InspectionTool | Инструмент проверки URL в Search Console. Запускается при ручном запросе. | 66.249.x.x |
|
| Bingbot | Microsoft | Кроулер поисковой системы Bing. Второй по важности после Google. | 157.55.x.x, 40.77.x.x |
| Yeti | Naver | Кроулер поисковой системы Naver. Необходим для сайтов на корейском. | 210.117.x.x, 114.111.x.x |
| DuckDuckBot | DuckDuckGo | Кроулер поисковой системы DuckDuckGo, ориентированный на конфиденциальность. | 20.191.x.x (Azure) |
| YandexBot | Yandex | Крупнейший российский поисковик. Если нет трафика из России, то это просто расход ресурсов. | 5.255.x.x, 77.88.x.x |
| Baiduspider | Baidu | Крупнейший китайский поисковик. Агрессивно кроулит, иногда блокируется. | 116.179.x.x, 220.181.x.x |
| GPTBot | OpenAI | Собирает данные для обучения моделей ChatGPT. | 20.15.x.x (Azure) |
| ChatGPT-User | OpenAI | Трафик от пользователей ChatGPT, использующих функцию просмотра ссылок. | — |
| Bytespider | ByteDance | Кроулер компании TikTok. Недавно стал известен своей агрессивной сборкой. | 47.128.x.x и др. |
| PetalBot | Huawei | Кроулер поисковой системы Petal Search от Huawei. Мобильный фокус. | 114.119.x.x |
| AhrefsBot | Ahrefs | Инструмент SEO‑анализа. Часто создает нагрузку на сервер. | 54.36.x.x и др. |
| SemrushBot | Semrush | Аналог Ahrefs, но от Semrush. | 46.229.x.x |
| DotBot | Moz | Кроулер Moz для сбора ссылочных данных. | 216.244.x.x |
| Amazonbot | Amazon | Кроулер для Alexa и других сервисов Amazon. | 52.95.x.x и др. |
| FreshRSS / Reeder | Open Source | RSS‑ридеры, которые обновляют подписки. | IP‑адрес пользователя |
| python‑requests / curl | — | Скриптовые инструменты. Могут использоваться для тестов или атак. | — |
| peer39_crawler | Peer39 | Инструмент анализа контекстной рекламы. | — |
Личная система классификации ботов
Ниже – субъективная оценка ботов, которую можно менять в зависимости от ваших целей и философии.
🏆 1‑группа: VIP‑гости (добро пожаловать!)
«Вы приносите трафик, вы – причина существования моего сервера. Самые дорогие гости.»
- Участники:
Googlebot,Bingbot,Yeti,DuckDuckBot,Mediapartners-Google,YandexBot,FreshRSS,Reeder - Причина:
- Поисковые системы (
Googlebot,Yeti,Bingbot): без них сайт – как необитаемый остров. - YandexBot: важен, если интересует русскоязычный трафик.
- RSS‑подписчики (
FreshRSS,Reeder): настоящие фанаты, которые читают ваш контент.
😐 2‑группа: обычные граждане (проходите, но не навязывайтесь)
«Пока выгода не видна, но потенциально полезны и безвредны.»
- Участники:
Baiduspider,ChatGPT-User,Google-InspectionTool,Amazonbot - Причина:
- Baiduspider: огромный китайский рынок, но иногда блокируется.
- ChatGPT‑User и Amazonbot: не вредят, просто используют ваш контент.
😤 3‑группа: нежеланные гости (не приходите, пожалуйста)
«Имя в User‑Agent звучит красиво, но они просто тратят ресурсы и не приносят пользы.»
- Участники:
Bytespider,PetalBot,AhrefsBot,SemrushBot,DotBot,python-requests,curl - Причина:
- Агрессивные кроулеры (
Bytespider,PetalBot): часто создают нагрузку. - SEO‑инструменты (
Ahrefs,Semrush,DotBot): используют данные, но не возвращают трафик. - Скрипты (
python-requests,curl): часто являются сканерами уязвимостей.

Итоги
Лог‑тейлинг – это не просто мониторинг, а окно в то, как ваш сервер взаимодействует с глобальной сетью. Хотя иногда хочется блокировать агрессивных ботов, честный User‑Agent – это минимум вежливости. Смотрим логи, думаем и, при необходимости, блокируем.
«Если вы хотя бы назовёте своё имя, я позволю вам войти. Но, пожалуйста, не злоупотребляйте.»
Комментариев нет.