La estética del tail de logs: el mundo de los bots que cruzan tu servidor

La estética del tail de logs: el mundo de los bots que cruzan tu servidor

Una lluvia de texto blanco sobre la pantalla negra del terminal. Es un momento que cualquier sysadmin o desarrollador backend reconocerá. Cuando escribes tail -f access.log y observas los logs sin hacer nada más.

Mirar cómo los logs se acumulan sin cesar genera una extraña sensación de estabilidad. ¿Un tipo de “digital chill”? Pero incluso en esa calma, la curiosidad se despierta. "¿Quién está tocando la puerta de mi servidor ahora?"

Al analizar los logs con más detalle, descubres que la mayoría de las solicitudes no provienen de usuarios reales, sino de innumerables bots que navegan por la red. En esta publicación, clasificaremos los diferentes crawlers que aparecen mientras tailas los logs y describiremos sus características.

Bots: ¿invitados no deseados o visitantes útiles?

Los web crawlers, también llamados spiders, visitan sitios web con scripts automatizados para recopilar información.

1. Bots corteses (Polite Bots)

Bots que revelan su identidad (User‑Agent), respetan la normativa de robots.txt y visitan el servidor a intervalos razonables sin sobrecargarlo. Son aliados que traen beneficios como la aparición en motores de búsqueda.

2. Bots groseros (Bad Bots)

Ocultan su identidad disfrazándose de navegadores comunes (spoofing) o permanecen anónimos. Ignoran robots.txt y pueden lanzar peticiones a velocidades que se asemejan a un ataque DDoS, agotando recursos del servidor. Son la primera prioridad para bloquear en firewalls.

Dominando los bots principales

A continuación, una lista de los bots más frecuentes que aparecen en los logs, identificados por su cadena de User‑Agent. Analizaremos su propósito y características.

Bot (User‑Agent)	Operador	Propósito y características	Rango de IP (referencia)
Googlebot	Google	Crawler principal para indexación de Google. El visitante más querido.	`66.249.x.x` (ver DNS)
Mediapartners‑Google	Google	Bot de AdSense que analiza el contexto de la página para la entrega de anuncios.	`66.249.x.x`
Google‑InspectionTool	Google	Herramienta de Search Console para inspección de URLs. Se activa cuando un usuario solicita indexación manual.	`66.249.x.x`
Bingbot	Microsoft	Crawler de Bing, el segundo motor de búsqueda más importante.	`157.55.x.x`, `40.77.x.x`
Yeti	Naver	Crawler de Naver, imprescindible para sitios coreanos.	`210.117.x.x`, `114.111.x.x`
DuckDuckBot	DuckDuckGo	Crawler de DuckDuckGo, enfocado en la privacidad.	`20.191.x.x` (Azure)
YandexBot	Yandex	Crawler de Yandex, el mayor motor de búsqueda ruso.	`5.255.x.x`, `77.88.x.x`
Baiduspider	Baidu	Crawler de Baidu, el motor de búsqueda chino. Conocido por su agresividad.	`116.179.x.x`, `220.181.x.x`
GPTBot	OpenAI	Bot que recopila datos para entrenar modelos como ChatGPT.	`20.15.x.x` (Azure)
ChatGPT‑User	OpenAI	Tráfico generado cuando un usuario de ChatGPT accede a enlaces externos.	-
Bytespider	ByteDance	Bot de la empresa matriz de TikTok. Recientemente muy agresivo.	`47.128.x.x` y otros
PetalBot	Huawei	Crawler de Petal Search, centrado en móviles.	`114.119.x.x`
AhrefsBot	Ahrefs	Herramienta de análisis SEO que puede generar carga significativa.	`54.36.x.x`
SemrushBot	Semrush	Herramienta de marketing SEO similar a Ahrefs.	`46.229.x.x`
DotBot	Moz	Herramienta de Moz para construcción de datos de enlaces.	`216.244.x.x`
Amazonbot	Amazon	Crawler de Alexa y otros servicios de Amazon.	`52.95.x.x` (AWS)
FreshRSS / Reeder	Open Source	Lectores de RSS que actualizan sus suscripciones.	IP del usuario
python‑requests / curl	-	Herramientas de scripting; pueden usarse para pruebas o ataques automatizados.	-
peer39_crawler	Peer39	Herramienta de análisis de publicidad contextual.	-

Clasificación subjetiva de los bots

Al observar los logs, he creado una clasificación personal de los bots. Esta jerarquía puede cambiar según la filosofía del operador y el objetivo del tráfico.

🏆 Grupo 1: Invitados VIP (¡Bienvenidos!)

"Son los que traen tráfico y son la razón de ser de mi servidor. Los más valiosos."

Miembros: Googlebot, Bingbot, Yeti, DuckDuckBot, Mediapartners‑Google, YandexBot, FreshRSS, Reeder
Motivo:
Motores de búsqueda (Googlebot, Yeti, Bingbot): Sin ellos, el sitio sería un archipiélago.
YandexBot: Importante si te interesa el tráfico ruso y de Europa del Este.
Suscriptores de RSS (FreshRSS, Reeder): Usuarios que realmente quieren leer tu contenido.

😐 Grupo 2: Ciudadanos comunes (Pasa, no es malo)

"No aportan mucho de inmediato, pero tienen potencial o son inofensivos."

Miembros: Baiduspider, ChatGPT‑User, Google‑InspectionTool, Amazonbot
Motivo:
Baiduspider: Gran mercado potencial en China.
Otros: No causan daño y son señales de que alguien está consultando tu contenido.

😤 Grupo 3: Invitados no deseados (No vengan…)

"Tienen un nombre, pero no aportan nada y solo consumen recursos."

Miembros: Bytespider, PetalBot, AhrefsBot, SemrushBot, DotBot, python‑requests, curl
Motivo:
Crawlers agresivos (Bytespider, PetalBot): Recopilan de forma descontrolada.
Herramientas SEO (Ahrefs, Semrush): Usan tus datos sin devolver tráfico.
Scripting sin identidad (python‑requests, curl): Probablemente scraping no autorizado o escaneo de vulnerabilidades.

Conclusión

El tail de logs va más allá de la simple monitorización; es una ventana que muestra cómo tu servidor interactúa con la red global.

Aunque a veces quieras bloquear a bots como Bytespider con iptables, la honestidad de su User‑Agent y su presencia constante me hacen pensar que, al menos, es un mínimo de respeto. Reflexiono mientras observo los logs fluir.

"Si al menos dicen quiénes son, los dejo entrar. Pero que no se excedan."

La estética del tail de logs: el mundo de los bots que cruzan tu servidor

Bots: ¿invitados no deseados o visitantes útiles?

1. Bots corteses (Polite Bots)

2. Bots groseros (Bad Bots)

Dominando los bots principales

Clasificación subjetiva de los bots

🏆 Grupo 1: Invitados VIP (¡Bienvenidos!)

😐 Grupo 2: Ciudadanos comunes (Pasa, no es malo)

😤 Grupo 3: Invitados no deseados (No vengan…)

Conclusión

Publicaciones similares

Solo permite los métodos HTTP autorizados: bloquea las peticiones ruidosas con 405/444 en Nginx

open(), verify() y load() en Pillow: una lectura desde la perspectiva de la seguridad

Configurar Nginx para que entregue archivos con X-Accel-Redirect en Django

Guía de seguridad para subir imágenes en Django: cómo manejarlo sin que el servidor se caiga

Deja un comentario

Añadir un Nuevo Comentario