LLM AIスクレイパーの台頭:ボット管理における、その意味とは
目次
近年、大規模言語モデル(LLM)と生成AI(GenAI)がビジネスに関する会話を席巻してきました。議論の中心となっているのは、それらの仕組み、データの入手場所、ユースケース、考え得る倫理的な問題、企業や個人への潜在的な影響です。
LLMは、テキストを理解して生成できる強力なAIモデルです。現在の市場には、新興企業が提供する数多くの新しいモデルに加えて、ChatGPT、Llama、Claude、Copilot、Grok、より新しいものではDeepSeekなど、いくつかの有名なLLMがあり、重要なベンチマークでライバルを上回るための競争が激化しています。毎週のように、異なるLLMが自らの優位を主張しているようです。
大規模言語モデルとWebスクレイピング
人間のような文章を正しく作成するために、LLMはまず、膨大なデータセットでトレーニングを受ける必要があります。トレーニング素材の多くは、Webページ、コードリポジトリ、ソーシャルメディア、その他のオンラインソースからスクレイピングによって取得されたデータで構成されています。
LLMは、自動化されたデータ抽出プロセス(Webスクレイピング)を通じて、このWebデータを取得します。このプロセスを実行するために、組織はFirecrawl、Beautiful Soup、ScrapeGraphAIなどの特別なオープンソースWebスクレイピングツールや市販のWebスクレイピングツールを使用して、Webサイトからデータを抽出し、解析し、LLMのトレーニングに使用できる構造化データへフォーマットします。
Webスクレイパー・ボット・トラフィックの現状:Akamaiのデータから明らかになった主なトレンドと調査結果
LLMはデータ収集においてインターネットの隅々までカバーし、モデルを可能な限り知見に満ちたものにするために可能な限りあらゆるコンテンツをスクレイピングします。
AIを利用したWebスクレイピングのほとんどは予測可能なタイミングで比較的低い頻度で行われるトレーニング中にのみ発生するため、Akamaiのチームは当初、Akamaiのネットワークで発生するスクレイパーボットのトラフィックの急増は予測可能かつ低頻度になるはずであると考えていました。
しかし、調査結果は意外なものでした。
Akamaiのボット管理チームは、2024年11月にAkamaiの顧客のネットワークにおけるAI Webスクレイピング活動の追跡と管理を開始し、共有すべき調査結果を得ました。
Akamaiネットワークにおける1日のトラフィックのうち、AIスクレイピングが占める割合は0.1%です(図1)。つまり、ネットワークは毎日10億件以上のリクエストを受信し、そのうち6億件以上がAkamaiのアプリケーションセキュリティ(AppSec)保護によって処理されています。この割合だけだと小さく見えるかもしれませんが、6億という総量は新たに定義されたボットカテゴリーにしては驚異的です。
Webスクレイパーのトラフィックは増加し続けている
Akamaiネットワーク上の企業数の増加を考慮しても、LLMスクレイパーの活動は増え続けています。図2は、2025年3月9日から2025年4月6日の間にトラフィックが着実に増加したことを示しています。
Webスクレイパーの自己識別方法とその重要性
Mozilla/5.0 AppleWebKit/537.36(GeckoなどのKHTML、互換性あり、PerplexityBot/1.0、+https://perplexity.ai/perplexitybot) Mozilla/5.0 AppleWebKit/537.36(GeckoなどのKHTML、互換性あり、ClaudeBot/1.0、+claudebot@anthropic.com) Mozilla/5.0(互換性あり、WARDBot/1.0、http://ward.ai/robot) Mozilla/5.0 AppleWebKit/537.36(GeckoなどのKHTML、互換性あり、GPTBot/1.0、+https://openai.com/gptbot) Mozilla/5.0(Linux、Android 6.0.1、Nexus 5X Build/MMB29P)AppleWebKit/537.36(GeckoなどのKHTML) Chrome/133.0.6943.53 Mobile Safari/537.36(互換性あり、Google-CloudVertexBot、+https://cloud.google.com/enterprise-search) Mozilla/5.0 AppleWebKit/537.36(GeckoなどのKHTML、互換性あり、WRTNBot/1.0、+https://wrtn.ai/WRTNBot) Mozilla/5.0(互換性あり、KunatoCrawler/1.0、+http://kunato.ai/bot.html) meta-externalagent/1.1(+https://developers.facebook.com/docs/sharing/webmaster/crawler)|LANG:en,COUNTRY:ie,CITY:clonee,CLIENTIP:0.0.0.0 Mozilla/5.0 AppleWebKit/605.1.15(GeckoなどのKHTML、互換性あり、iAskBot/1.0、+https://iask.ai/) Chrome/124.0.6367.171 Safari/605.1.15 |
予想通り、OpenAI(ChatGPT)、Meta(Llama)、Anthropic、Google(Gemini)は、図4に示すようにスクレイパー活動の増加を促進しています。
AkamaiはLLMのなりすましの事例をいくつか観測しました。これは、悪人がボット検知を回避するためにUser-Agentを既知のLLMに設定する行為です。幸いにも、Akamaiのボット検知は他のシグナルも利用しており、偽装AIエージェントやLLMを簡単に排除できます。
業界別のAI Webスクレイピングの動向
それでは、AkamaiがWebアプリ、ネイティブ・モバイル・アプリ、APIを保護しているアプリケーションセキュリティの顧客に注目して、データを詳しく見ていきましょう。
コマースがWebスクレイピングの初期の成長を牽引
最初の大幅なリクエストの増加は、コマース(小売、旅行&ホテル)業界の顧客を標的にしました。
コマース業界の顧客がAI Webスクレイピングの最初の衝撃に見舞われたことは理にかなっています。なぜなら、在庫と価格(広範な製品カタログは言うまでもありません)が絶えず変化しているため、LLMは正確な最新の情報を取得するために繰り返し頻繁にそれらにアクセスする必要があるからです。しかし、このレベルの活動は、Akamaiが当初想定していた「トレーニング中のみ」のスクレイピングではありませんでした。
図5は、数か月の間に観測された業界別のスクレイパートラフィックの図です。ご覧のとおり、トラフィックは主にコマース業界から始まりますが、時間の経過とともに他の業界でも増加しています。
AI Webスクレイパートラフィックはさまざまな業界で増加している
コマース業界の顧客を標的としたAIスクレイピングが勢いよくスタートを切ったため、Akamaiは2025年初頭以降の変化に驚きました。現在では、ビジネスサービス、ギャンブル、ヘルスケアなどの業界の顧客がコマース業界の成長をはるかに上回っています。
図6は、AIスクレイピングにおいて当初はコマース業界の顧客がリードしていたかもしれませんが、現在ではAIスクレイピングの成長率が最も低いことを示しています(それでも年初来2.6倍のペースで成長しています)。
Webスクレイピングにおけるその他のプレーヤー:AIエージェントとRAGの台頭
AIエージェントと検索拡張生成(RAG)対応LLMの人気が高まっていることも、Webスクレイピング・ボット・トラフィックを促進しています。
RAGは、リアルタイムで収集された外部情報を利用して、LLMやAIエージェント自体の知識を補完する手法です。RAGは多くの場合、カスタマーサポートの自動化などのワークフローに統合されているため、チャットボットは企業の製品カタログやFAQから正確な情報をすばやく取得できます。
AIエージェント(IBM WatsonX、OpenAI Operator、Copilot Agent)とRAG対応LLM(Google Gemini、Llama)は、日常的なタスクを自動化して効率を高めることができるため、最近人気が高まっています。しかし、LLMとは異なり、エージェント型AIは多くの場合、外部ソースを使用してトレーニングデータをリアルタイムで増強する必要があります。そのため、これらのエージェントへのクエリーによってボットリクエストが増加します。
Akamaiは、エージェント型AIの継続的なスクレイピングにより、ボットトラフィックが飛躍的に増加すると予想しています。
Googleやその他の検索エンジンを使用している人間とは異なり、エージェントは複数のクエリーを並行して実行しているため、リクエストの大幅な増加につながります。RAG LLMやAIエージェントへのたった1つの質問によって、インターネット上で多数のリクエストが生成される可能性があります。
LLMの研究者によると、各ユーザーリクエストまたはエージェントリクエストが100以上のスクレイピングリクエストを発生させる可能性があり、LLMやそのエージェントが頻繁に参照するサイトへのトラフィックが大幅に増加する可能性が生じます。人々は自分がAIを使用していることに気づいていないことも多いです。
AIエージェントの情報収集方法:実例
トレーニングデータセットの域を超えたクエリーに対してAIエージェントがどのようにふるまうかを示すために、AkamaiはGoogleのGeminiの新しいLLM推論機能と説明機能を使用しました。Geminiは最初の質問に回答するだけでなく、どのような情報源を発見したか、それらにどのように優先順位を付けたか、どのような重要情報を見つけたか、どのようにその情報の検証と重み付けを行ったかを教えてくれました(図7)。
ご覧の通り、AIエージェントは、推論について尋ねられると、質問への回答手順を示しました。つまり、さまざまな情報源からどのように情報を抽出して合成し、結論に至ったかを説明しました。広大なインターネットと接続してリアルタイムでやり取りするこのような機能は、LLMと従来のWeb検索の境界をあいまいにしています。
AIスクレイパーの急増に対処する方法:ヒントと戦略
AI Webスクレイパーを良性ボットと見なしていて、ブロックしたくない場合でも、ボットトラフィックの量が多いと、パフォーマンスの低下、CDNやクラウドのコストの増加などの多くの問題が発生し、サイトやアプリケーションにアクセスする人間にとってのユーザー体験が粗末になることがあります。ボットトラフィックの量が増加すると、これらの問題は悪化する一方です。
以下の対策を講じることで、ボットの増加が組織に悪影響を及ぼすのを防ぐことができます。
強力なボット管理ツールとプロトコルを実装して、AIスクレイパーのトラフィックを可視化し、新たなボットリクエスト対応戦略を生み出します。
サイトに受け入れるAIスクレイパーを決めます。有名なスクレイパー、または自社と関係のある企業に属するスクレイパーは許可し、他のスクレイパーは制限するのが一般的です。
各スクレイピングベンダーに関する自社の決定に基づいて、AIカテゴリー内に条件付きアクションを作成します。たとえば、有名なLLMによる自社サイトのスクレイピングを許可することはすでに決定しているかもしれませんが、その他のLLMについてはどうでしょうか?それらは完全にブロックすることも、スローダウンさせることも、人間のユーザートラフィックが少ない時間帯のみ許可することも、上記のアクションを組み合わせて実行することもできます。
AkamaiのWeb Security Analyticsなどのレポート作成ツールから得られる知見を利用し、AIスクレイパー活動の変化への対応方法に関する将来の意思決定に役立つパターンやトレンドを見つけます。
Webスクレイパートラフィックを管理することで、コンテンツを保護し、サイトパフォーマンスを最適化
Akamaiの一連のボットおよび不正利用防止ソリューションは、LLM WebスクレイパーがWebサイトやアプリケーションとどのようにインタラクションを行うかを可視化して制御します。高度なボット検知とカスタマイズ可能な管理ツールにより、サイトのパフォーマンスとユーザー体験を維持しながら、不要なスクレイパーからコンテンツを保護するための支援をします。