Эстетика лог‑тейлинга: мир ботов, скользящих по серверу

Черный терминал, белый поток текста. Любой системный администратор или бекенд‑разработчик знает, каково это – ввести команду tail -f access.log и смотреть, как строки приходят без остановки.

Смотря, как лог растёт, ощущается странное спокойствие. Можно назвать это «цифровым медитацией». Но даже в этом спокойствии возникает любопытство: «Кто сейчас стучит в дверь моего сервера?»

Если внимательно разглядеть логи, то большинство запросов не от реальных пользователей, а от бесчисленных «ботов», плывущих по интернет‑океану. В этой статье мы разберём, кто такие эти кроулеры и чем они отличаются.


Боты: нежеланные гости или полезные посетители?



Веб‑кроулеры (или спайдеры) – это автоматизированные скрипты, которые посещают сайты, чтобы собирать информацию.

1. Вежливые боты (Polite Bots)

Они явно указывают свой User‑Agent, соблюдают правила robots.txt и делают запросы с разумной частотой, не перегружая сервер. Это благодарные существа, которые помогают нам в поисковой индексации и других задачах.

2. Невежливые боты (Bad Bots)

Они маскируют свой User‑Agent под обычный браузер (Spoofing) или скрывают свою личность. Некоторые игнорируют robots.txt и рассылают запросы почти как DDoS‑атаку, истощая ресурсы сервера. Такие боты – приоритет для блокировки.


Полный список основных ботов

Ниже приведён список ботов, которые чаще всего встречаются в логах. По строке User‑Agent можно определить их цель и владельца.

Имя бота (User‑Agent) Владелец Цель и особенности IP‑диапазон (для справки)
Googlebot Google Основной кроулер для индексации поисковой системы. Самый желанный посетитель. 66.249.x.x и др.
Mediapartners-Google Google Кроулер для контекстной рекламы AdSense. Анализирует контент страниц. 66.249.x.x
Google-InspectionTool Google Инструмент проверки URL в Search Console. Запускается при ручном запросе. 66.249.x.x
Bingbot Microsoft Кроулер поисковой системы Bing. Второй по важности после Google. 157.55.x.x, 40.77.x.x
Yeti Naver Кроулер поисковой системы Naver. Необходим для сайтов на корейском. 210.117.x.x, 114.111.x.x
DuckDuckBot DuckDuckGo Кроулер поисковой системы DuckDuckGo, ориентированный на конфиденциальность. 20.191.x.x (Azure)
YandexBot Yandex Крупнейший российский поисковик. Если нет трафика из России, то это просто расход ресурсов. 5.255.x.x, 77.88.x.x
Baiduspider Baidu Крупнейший китайский поисковик. Агрессивно кроулит, иногда блокируется. 116.179.x.x, 220.181.x.x
GPTBot OpenAI Собирает данные для обучения моделей ChatGPT. 20.15.x.x (Azure)
ChatGPT-User OpenAI Трафик от пользователей ChatGPT, использующих функцию просмотра ссылок.
Bytespider ByteDance Кроулер компании TikTok. Недавно стал известен своей агрессивной сборкой. 47.128.x.x и др.
PetalBot Huawei Кроулер поисковой системы Petal Search от Huawei. Мобильный фокус. 114.119.x.x
AhrefsBot Ahrefs Инструмент SEO‑анализа. Часто создает нагрузку на сервер. 54.36.x.x и др.
SemrushBot Semrush Аналог Ahrefs, но от Semrush. 46.229.x.x
DotBot Moz Кроулер Moz для сбора ссылочных данных. 216.244.x.x
Amazonbot Amazon Кроулер для Alexa и других сервисов Amazon. 52.95.x.x и др.
FreshRSS / Reeder Open Source RSS‑ридеры, которые обновляют подписки. IP‑адрес пользователя
python‑requests / curl Скриптовые инструменты. Могут использоваться для тестов или атак.
peer39_crawler Peer39 Инструмент анализа контекстной рекламы.

Личная система классификации ботов



Ниже – субъективная оценка ботов, которую можно менять в зависимости от ваших целей и философии.

🏆 1‑группа: VIP‑гости (добро пожаловать!)

«Вы приносите трафик, вы – причина существования моего сервера. Самые дорогие гости.»

  • Участники: Googlebot, Bingbot, Yeti, DuckDuckBot, Mediapartners-Google, YandexBot, FreshRSS, Reeder
  • Причина:
  • Поисковые системы (Googlebot, Yeti, Bingbot): без них сайт – как необитаемый остров.
  • YandexBot: важен, если интересует русскоязычный трафик.
  • RSS‑подписчики (FreshRSS, Reeder): настоящие фанаты, которые читают ваш контент.

😐 2‑группа: обычные граждане (проходите, но не навязывайтесь)

«Пока выгода не видна, но потенциально полезны и безвредны.»

  • Участники: Baiduspider, ChatGPT-User, Google-InspectionTool, Amazonbot
  • Причина:
  • Baiduspider: огромный китайский рынок, но иногда блокируется.
  • ChatGPT‑User и Amazonbot: не вредят, просто используют ваш контент.

😤 3‑группа: нежеланные гости (не приходите, пожалуйста)

«Имя в User‑Agent звучит красиво, но они просто тратят ресурсы и не приносят пользы.»

  • Участники: Bytespider, PetalBot, AhrefsBot, SemrushBot, DotBot, python-requests, curl
  • Причина:
  • Агрессивные кроулеры (Bytespider, PetalBot): часто создают нагрузку.
  • SEO‑инструменты (Ahrefs, Semrush, DotBot): используют данные, но не возвращают трафик.
  • Скрипты (python-requests, curl): часто являются сканерами уязвимостей.

image


Итоги

Лог‑тейлинг – это не просто мониторинг, а окно в то, как ваш сервер взаимодействует с глобальной сетью. Хотя иногда хочется блокировать агрессивных ботов, честный User‑Agent – это минимум вежливости. Смотрим логи, думаем и, при необходимости, блокируем.

«Если вы хотя бы назовёте своё имя, я позволю вам войти. Но, пожалуйста, не злоупотребляйте.»