ログテイリングの美学:サーバーを横切るボットの世界

黒いターミナル画面に白い文字が流れ込む光景。システム管理者やバックエンド開発者なら誰もが共感できる瞬間です。まさに tail -f access.log を入力し、ただログを眺めるときです。

絶えず増えていくログを見ていると、奇妙な安定感が湧きます。いわゆる「デジタル瞑想」でしょうか?しかしその平穏の中で好奇心は芽生えます。「今、私のサーバーのドアを叩いているのは誰だろう?」

ログを詳しく見ると、純粋な実際のユーザーよりも、インターネットの海を泳ぐ数多くの「ボット」が大多数であることが分かります。今回の投稿では、ログテイリング中に遭遇するさまざまなクローラボットの正体と特徴を整理します。


ボット、サーバーの未招待客か客か



ウェブクローラ(Web Crawler)またはスパイダー(Spider)と呼ばれるこれらは、インターネット上の情報を収集するために自動化されたスクリプトでウェブサイトを訪れます。

1. 礼儀正しいボット(Polite Bots)

自分の身元(User-Agent)を明確に示し、robots.txt の規約を守り、サーバーに過負荷をかけない適切な周期で訪問するボットです。彼らは検索エンジンの露出など、私たちに利益をもたらすありがたい存在です。

2. 無礼なボット(Bad Bots)

User-Agent を一般ブラウザに偽装(Spoofing)したり、身元を隠したりしてアクセスします。さらに robots.txt を無視し、DDoS 攻撃に近い速度でリクエストを投げ、サーバー資源を枯渇させることもあります。こうした者はファイアウォールでブロック対象の第一位です。


主なボットを完全攻略

ログテイリング中に頻繁に目にする主なボットのリストをまとめました。User-Agent 文字列を基に彼らの正体と目的を把握してみましょう。

ボット名(User-Agent) 運営主体 目的と特徴 IP帯特徴(参考)
Googlebot Google グーグル検索インデックス用メインクローラ。最も歓迎される客。 66.249.x.x 等(DNS で確認)
Mediapartners-Google Google グーグルアドセンス(AdSense)文脈解析用ボット。広告配信のためページ内容を把握。 66.249.x.x
Google-InspectionTool Google サーチコンソールの URL 検査ツール。ユーザーが直接インデックスリクエスト時に発生。 66.249.x.x
Bingbot Microsoft ビング検索エンジンクローラ。グーグル次第に重要な検索ボット。 157.55.x.x40.77.x.x
Yeti Naver ネイバー検索エンジンクローラ。韓国ウェブサイトなら必須の訪問者。 210.117.x.x114.111.x.x
DuckDuckBot DuckDuckGo プライバシー重視のドゥクドゥクゴー検索クローラ。 20.191.x.x(MS Azure 帯)
YandexBot Yandex ロシア最大検索エンジン。ロシア圏トラフィックが無ければリソースだけ消費。 5.255.x.x77.88.x.x
Baiduspider Baidu 中国最大検索エンジン。非常に攻撃的なクローリングで有名。中国サービスでない場合はブロックも。 116.179.x.x220.181.x.x
GPTBot OpenAI ChatGPT 等 AI モデル学習用データ収集ボット。 20.15.x.x(Azure 帯)
ChatGPT-User OpenAI ChatGPT ユーザーがブラウジング機能でリンクを参照すると発生するトラフィック。 -
Bytespider ByteDance ティックトック(TikTok)親会社のボット。最近 非常に攻撃的な収集で悪名高い。 47.128.x.x 等多様
PetalBot Huawei ファーウェイの検索エンジン(Petal Search)ボット。モバイル中心で収集頻度も高い。 114.119.x.x
AhrefsBot Ahrefs SEO 分析ツール。サイト評判分析用。サーバー負荷がかなり高い。 54.36.x.x
SemrushBot Semrush SEO マーケティング・分析ツール。Ahrefs と似た性格。 46.229.x.x
DotBot Moz Moz の SEO 分析ツール。リンクデータ構築用。 216.244.x.x
Amazonbot Amazon アレクサ(Alexa)やアマゾンサービス改善用クローラ。 52.95.x.x 等 AWS 帯
FreshRSS / Reeder Open Source 個人が使用する RSS リーダー。ボットというよりユーザーが購読更新リクエスト。 ユーザー IP
python-requests / curl - スクリプトツール。開発者がテスト用に使用することもあるが、攻撃ボットの可能性も高い。 -
peer39_crawler Peer39 文脈広告解析ツール。広告適合性判断目的。 -

私の好きなボットランク



ログを見ながら感じる主観的なボットのランクを整理しました。特に運営者の哲学とトラフィックターゲットによってこのランクはいつでも変わり得ることを明記します。

🏆 1グループ:VIP 客(ようこそ!)

"トラフィックをもたらす貴重な存在で、私のサーバーの存在理由です。最も大切な客です。"

  • メンバーGooglebotBingbotYetiDuckDuckBotMediapartners-GoogleYandexBotFreshRSSReeder
  • 理由
  • 検索エンジン(GooglebotYetiBingbot:これらがいなければウェブサービスは無人島のようです。
  • YandexBot:ロシア・東欧圏トラフィックに関心があるなら、グーグルと同じくらい重要です。個人的経験上、かなり礼儀正しく(Polite)接近し、グローバルトラフィックを夢見るなら必ず拾うべき 1位市民です。
  • 購読者(FreshRSSReeder:検索流入ではないが、私の投稿を受け取るために直接 RSS を登録した 「真の購読者」 のリクエストです。トラフィック拡散よりも重要な「真のファン」なので VVIP 対応が相応です。

😐 2グループ:一般市民(通り過ぎてください〜悪くはない)

"すぐに大きな利益が見えなくても、潜在力があるか無害な存在です。"

  • メンバーBaiduspiderChatGPT-UserGoogle-InspectionToolAmazonbot
  • 理由
  • Baiduspider:中国の巨大人口を考えると無視できない潜在市場です。(中国内アクセスブロック等の「噂」があるため少し気になるが)それでも中国代表検索エンジンという名の下、ブロックする理由はありません。
  • その他ChatGPT-UserAmazonbot 等は特に害を及ぼさず、誰かが私の投稿を参照しているサインなので気分が悪くありません。軽く許容します。

😤 3グループ:未招待客(来ないで…お願い…)

"名前札(User-Agent)は付いているが、差し止めるのは難しい。正直来てほしくない。リソースだけ消費し、礼儀もなく、私に全く役立たない者です。"

  • メンバーBytespiderPetalBotAhrefsBotSemrushBotDotBotpython-requestscurl
  • 理由
  • 攻撃的収集家(BytespiderPetalBot:最近最も頭痛の種です。DDoS 攻撃のように無知にスクレイピング頻度が高く、サーバー管理者を疲弊させます。
  • SEO 商人(AhrefsSemrush:私のデータを取り出し、彼らの有料サービス分析資料に使用します。実際にトラフィックを返してくれないので苛立ちが募ります。

  • 身元不明スクリプトpython-requestscurl 等で偽装せずに来るリクエストは、ほとんどが無断スクレイピングか脆弱性スキャンの可能性が高いです。最も気分が悪い。精神健康のため、頻繁に現れる IP は fail2ban で処理します。

image


まとめ

ログテイリングは単なるモニタリングを超え、私のサーバーが世界中のネットワークとどのように相互作用しているかを示す窓です。

Bytespider のような者が無知にスクレイピングするときは iptables で遮断したくなる衝動が湧きますが、名前(UA)を正直に明示してくれるなら、少なくとも「最低限の礼儀」として受け入れ、笑みを浮かべます。

今日もまた、流れるログを眺めながら思います。

"そう、名前でも明示してくれれば入れてあげる。だけど適度にスクレイプしてくれ!」