Webスクレイピングの問題:第1部
Webスクレイピングとは
オンラインでは多くの情報とデータを入手できます。デジタル・コマース・サイトや旅行サイトを利用することで、買い物客はカタログ全体を年中いつでも閲覧できます。メディアサイトでは、さまざまなトピックについて何千もの記事が掲載されています。ソーシャル・メディア・プラットフォームでは、個人やその人の関心、意見をオンデマンドで把握できます。
これは、悪用され、収益化される可能性のある膨大な情報源です。しかし、情報を悪用するためには、その前に収集する必要があります。そして、 ボットネットを使用するよりも優れた情報収集方法はありません。インターネット上で自由に入手できる情報を収集するボットネットは、スクレイパーと呼ばれます。
Webスクレイピングは複雑な問題です。スクレイピング活動の中には、Webサイトの成功に不可欠なものもあれば、活動の価値を見極めることやスクレイピングを開始するエンティティの目的を見極めることが困難なものもあります。
この3部構成のブログシリーズでは、インターネット上のボットトラフィックを定量化し、続いてWebスクレイピングのさまざまな側面と、それらがさまざまな業界にどのような影響を及ぼすのかについて説明します。最後に、ボットネットの特性を確認し、効果的に管理する方法を示します。
WebスクレイパーがWebサイトに影響を与える3つの方法
スクレイピング活動は、製品詳細ページ、価格、在庫(またはこれらすべて)を標的とし、少なくとも3つの方法で標的のWebサイトに影響を与える可能性があります。
Webスクレイピングは適切に調整されていない場合があり、標的のWebサイトにパフォーマンス、安定性、可用性の問題を引き起こす可能性があります。これは分散型サービス妨害(DDoS)とみなされ、収益損失を引き起こす可能性があります。
スクレイピング活動はサイトの指標に影響しますWebサイト所有者が注視している指標の1つとして、コンバージョン率、すなわちページ訪問総数に対する購買総数の比率があります。過剰なスクレイピングトラフィックは、このデータを大幅に歪め、企業のマーケティング戦略や製品ポジショニング戦略の有効性を分かりづらくします。
また、抽出されたインテリジェンスを使用して、標的のサイトからうまくオーディエンスをハイジャックするマーケティングキャンペーンを考案する場合、スクレイピングは長期的な収益損失につながる可能性があります。
Webスクレイピングによって引き起こされるインターネットトラフィックの量
ボットが関与するすべてのユースケースのうち、Webスクレイピングはトラフィック量が多く、群を抜いています。そのため、スクレイピング活動を定量化することで、ボットからのインターネットトラフィックの量を評価することができます。
誰に聞くかによって、全体に占めるボットトラフィックの比率は異なります。実際には、誰もインターネット全体を監視してボット検知を実行することはできないため、誰も正確な数値を知りません。たとえ検知が可能であり、Webセキュリティ業界が最善を尽くしたとしても、100%正確ではないでしょう。
ボット活動には波があります。今日のWebスクレイピングトラフィックは、明日のトラフィックと同じではない場合があります。しかし、Akamaiはインターネットトラフィックの最大30%を伝送し、次世代のスクレイパー検知の開発に取り組んでいるため、最も関連性の高い統計を提供することができます。
Webスクレイピングの比率について調査するために、過去数か月間にAkamaiの新しいスクレイパー検知技術を評価してきた顧客の代表的なサンプルから1週間分のトラフィックを抽出しました。これには、グローバル・ファッション・ブランド、米国の大手小売企業、国際航空会社、ホテルチェーンが含まれます。この調査に使用するサンプルは、11億6千万件のHTMLページとAPIリクエストで構成されています。画像、スタイルシート、JavaScript、動画、フォントなどの静的コンテンツのリクエストは無視されました。
この調査から、明らかになった事実は次のとおりです。サイトが受けるボット活動のレベルは、ブランドの製品やサービスの人気度と市場におけるランキングによって大きく異なります。図1は、米国市場向けのスポーツウェアブランドの例を示しています。製品ページのトラフィックのわずか17.7%が実際の人間由来のものであり、82.3%以上がボット由来のものです。その82.3%のうち、Web検索エンジン、SEO、ソーシャルメディアなどの良性ボットに由来するものはごくわずかです。残りはスクレイパーに由来します。
図1:米国のスポーツウェア企業のトラフィック分布
対照的に、図2は自動車部品をオンラインで販売している小売企業のトラフィック分布を示しており、ボットの問題は軽度です。このケースでは、トラフィックの15%強がボットによるもので、その3分の2は良性ボットに由来します。
図2:米国の自動車部品小売企業のトラフィック分布
図3は米国市場向けの住宅改修企業を示しており、スクレイパー、人間、良性ボットに均一に分散しています。しかし、全体的には、ボット活動は製品ページへの総トラフィックの60%を占めています。
図3:米国の住宅改修企業のトラフィック分布
すべてのサンプル顧客を見ると、図4に示すように、ボットと人間の平均トラフィック比率は約70:30です。調査に使用されたサンプルは、インターネットの70%がボットトラフィックで構成されていると結論付けるには十分な量ではありませんが、インターネット上のトラフィックの大部分がボットから発生していると判断して問題ありません。
図4:平均的なWebサイトトラフィック分布
業界別のWebスクレイピングの影響
ボットネットがWebサイトをスクレイピングすると、公開されている情報が収集されます。ボットネット運用者は定期的にスクレイピング活動をトリガーし、製品の詳細、価格、在庫といった目的の情報を収集します。Webスクレイピングは迷惑な行為であり、多くのWebサイトの利用規定(AUP)に違反しています。しかし、それは違法なのでしょうか?
多くの法的な問題と同様に、答えは「場合による」です。 この課題に関する新しい法的規制はほとんどありません。さらに、スクレイピング活動は、サイトがホストされている国とは異なる規制を持つ国(または米国の州)から行われる可能性があるため、AUPを適用することや、どの法的規制が適用されるかを判断することは困難です。最後に、スクレイピング活動を検知することはできますが、ボット運用者は形跡を隠すことに長けているため、その活動の原因である特定の人物やエンティティを割り出すことは困難です。
Webスクレイピングにはさまざまなユースケースがあり、必ずしも悪影響を及ぼすわけではなく、状況によります。最も影響を受けるのは、Eコマース、旅行&ホテル、メディア業界です。図5は、業界と意図に基づいたスクレイピングの影響を示しています。
図5:業界別のWebスクレイピング活動の影響
すべての業界で、Web検索エンジン、SEO、ソーシャル・メディア・ボットにコンテンツを提供するというニーズが共通しています。それらは、サイトをスクレイプして、コンテンツを目につきやすくし、顧客を呼び込みます。また、サイト監視サービスはサイトからコンテンツを定期的に取得して、世界中の応答時間と可用性を評価します。
GooglebotやBingbotなどの既知のボットからのトラフィックは、偽装者へのコンテンツ提供を防ぐために正確に識別する必要があります。一般的に、ほとんどのWebサイト所有者は、特定のエンティティによるものであることを割り出すことが困難であるスクレイピング活動を回避したいと考えています。
旅行&ホテル
トラベルアグリゲーターと予約エンジンは、旅行&ホテル企業のWebサイトをスクレイピングします。これらのサイトで、旅行者はフライト、ホテルの客室、レンタカー、さらには目的地のエンターテイメントまで簡単に見つけることができます。予約エンジンは、消費者の航空券や宿泊施設に加え、自社の製品やサービスを販売することができます。
アカウントアグリゲーターがコンテンツをすぐに利用できるようにするために、航空会社やホテルはAPIを介してデータにアクセスできるようにすることや、アグリゲーターがサイトをスクレイピングできるようにすることがあります。通常、両当事者間で相互に利益のある合意が成立しています。
しかし、一部の航空会社やホテルブランドは、特定の予約エンジンパートナーとのみ提携したいと考えています。アグリゲーターは、ブランドの同意を得ず、AUPに違反してこれらのサイトを直接スクレイピングし、航空運賃やホテルの客室を宣伝、再販することがあります。Webサイトのアーキテクチャによっては、スクレイピング活動によって航空券や客室の在庫が数分間ロックされ、正規ユーザーが確保できなくなる場合があります。
Eコマース
Eコマースサイトは、イベント中に販売されている商品を求めてサイトをスクレイピングするボットオペレーターから大量の活動を受けます。これは、一般にスキャルピングと呼ばれる活動です。この活動は通常、定時的かつ散発的に行われます。
ほとんどのトラフィックの背後にあるWebスクレイピング活動は通常、ビジネスインテリジェンスを抽出するためにデータを収集するエンティティによるものです。これは、データ抽出を専門とする十分な資金のある企業や、競合他社を監視したいと考えている個々の企業によって行われる可能性があります。どのような場合でも、企業は一般的に、データを使用してマーケティングおよび製品戦略を定めます。
デジタルメディア
デジタルメディアWebサイトは、そのサイトが制作するコンテンツに関心を持つ可能性のあるユーザーをできるだけ多く呼び込みたいと考えています。報道機関は一般的に、新しいアグリゲーターやより大きな報道機関がスクレイピング活動を行うことを歓迎します。自社のコンテンツが参照され、認知度が高まる可能性があるからです。読者や視聴者が増えると、サブスクリプションや広告インプレッションが増え、収益の増加につながります。
Wall Street Journalのようなプレミアム・メディア・サービスの場合、有料加入者のみがコンテンツを閲覧できます。Web検索エンジンやソーシャル・メディア・ボットは、ペイウォールの背後にあるコンテンツをインデックス化して参照できることが不可欠です。しかし、GooglebotやFacebookなどの正当なボットになりすまそうとするスクレイパーから全コンテンツを安全に保護するためには、そのような良性ボットを特定する必要があります。
ソーシャルメディア
消費者は長い間、X(旧Twitter)、Instagram、Facebookなどのソーシャルメディアを使って意見を共有してきました。これらのプラットフォームは、マーケティング担当者が製品、企業、さらには社会的な問題に対するユーザーのセンチメントを推測するために使用できる膨大な情報源となっています。
また、ビジネスインテリジェンスや製品マーケティングを専門とする企業は、ソーシャル・メディア・サイトをスクレイピングし、複雑な機械学習アルゴリズムを通じてデータを収集して処理し、製品戦略の最適化に使用できる貴重な知見を抽出します。ソーシャル・メディア・サイトは、そのデータを販売する場合や、スクレイピング活動を制限する場合があります。
ソーシャルメディアや出会い系サイトには、個々のユーザーに関する膨大な個人データが蓄積されているため、ユーザー・プロフィール・スクレイピングがプライバシー上の重大な懸念事項となっています。企業がLinkedInでプロフェッショナルを探して雇用することはサイトの目的に沿っており、完全に認められていますが、企業や個人がすべてのプロフィールをスクレイピングし、営利目的で販売できる個人情報データベースを構築することは認められていません。
悪性のスクレイピング活動からの保護
ボットネットは複雑で予測不能です。業界や背景にかかわらず、Webスクレイパーからデータを保護し、その過程でより効率的かつ生産的なトラフィックを促進することが賢明です。
そこで役立つのが、Akamai Content Protectorです。攻撃戦略は進化していますが、次世代のスクレイパー保護としてほとんどのスクレイピング活動を検知し、緩和するように設計されています。さらに、このツールは主要なオンラインブランド(大きなWebスクレイピングの課題を抱えているブランドを含む)がテスト済みです。
急速に変化する今日のサイバー環境では、適切なツールがかつてないほど重要になっています。Akamaiを利用することでそれを手に入れ、さらには長期的に成功を収めるために必要な自信を得ることができます。