SOTI 安全洞察系列：应对 AI 爬虫程序时代

此 SOTI 报告分析了 AI 爬虫程序如何冲击出版业的认知度、权威性与变现能力三大核心支柱，并提出相应策略，以保障其未来的经济发展。

重要信息

与传统训练用爬虫程序相比，AI 抓取程序的实时数据抓取能更快地让内容贬值。训练用爬虫程序批量采集数据，用于长期的模型研发，而 AI 抓取程序则通过向用户提供实时摘要，窃取内容的即时价值。这种直接竞争绕过了原网站，导致推荐流量下降 96%，传统的广告营收模式也随之瓦解。

不受管控的网络内容抓取会给出版业基础设施带来沉重的技术与财务负担。自动化爬虫程序消耗大量服务器和 CDN 资源，却未带来任何用户互动，这不仅增加运营成本，还会降低面向真实用户的网站性能。Akamai 的一位客户通过采用“tarpitting”技术成功收回了 97% 的请求量，该技术可帮助出版商有效干扰这类爬虫程序。

AI 生成的响应中缺乏恰当的来源标注，会削弱品牌权威性与受众信任度。AI 平台频繁擅自挪用专有内容却不进行明确标注，导致用户仅在 1% 的情况下会点击访问原始来源。创作者与读者之间的这种关系断裂，使得采用 Really Simple Licensing (RSL) 等框架成为必要，以确保内容使用透明且获得授权。

全面限制 AI 爬虫程序，可能会在无意中扼杀未来的变现与增长机遇。全然拒绝所有自动化流量，可能会阻碍与愿意为优质数据付费的 AI 公司达成有利的合作或许可协议。出版商应转而采用精细监测手段，识别并允许授权代理，同时对恶意抓取程序选择性实施访问管控。

新兴的信任与商务层，将未经授权的抓取行为转化为可持续的收入来源。通过集成 Know Your Agent (KYA) 等身份验证工具，出版商能够核实每一类爬虫程序的使用意图，并推行按使用付费的商业模式。这种转变将自动化流量需求转化为可追责的交易，确保媒体机构凭借支撑 AI 经济的知识产权获得公平回报。

不幸的是，您访问此页面的浏览器/操作系统不支持此功能。您可以访问 PDF here

常见问题 (FAQ)

2025 年下半年，在 Akamai 分类统计的 AI 爬虫活动中，媒体行业位列第二，占全球总量的 12.8%。

AI 抓取程序风险更高，因为它们会实时抓取网页内容以响应用户查询。由于在线发布的内容往往价值衰减极快，这种即时抓取会直接替代用户对网站的访问。

OpenAI 是顶级供应商，其 40% 的媒体相关请求通过 GPTBot、ChatGPT-User 等爬虫程序，专门针对出版公司发起。

Denying 会立即拦截并驳回请求以节约资源，而 tarpitting 则以极慢的速度无限延长连接，耗尽爬虫程序自身资源直至其超时。

研究表明，AI 聊天机器人为出版商带来的推荐流量要少得多，截至 2024 年第四季度，其推荐率比传统 Google 搜索结果低约 96%。

KYA 是一套身份识别基础体系，可提供可验证、可迁移的标识信息，用于识别爬虫程序的所有者及其访问意图，使出版商能够做出选择性的访问管控决策，而非依赖爬虫程序所有者自行声明的信息。

TollBit 充当交易层，将已识别的爬虫程序重定向至付费墙，在此处对其请求进行验证、定价并完成支付处理后，再授予访问权限。

RSL 旨在构建一套标准化框架，使 AI 公司能够依据内容所有者制定的清晰、可执行条款，负责任地采集和使用数字内容。

Akamai Cloud

Akamai Security

我们的全球基础架构

SOTI 安全洞察系列：应对 AI 爬虫程序时代

重要信息

常见问题 (FAQ)

常见问题 (FAQ)

常见问题 (FAQ)

2025 年末，媒体行业在 AI 爬虫活动相关排名中位列第几？

为何 AI 抓取程序对出版商的风险高于训练用爬虫程序？

哪家 AI 爬虫程序运营方负责了出版领域的大部分流量？

“tarpitting”和“denying”爬虫程序请求的区别是什么？

与传统搜索引擎相比，AI 聊天机器人带来的推荐流量有多少？

什么是 Know Your Agent (KYA)，它对出版商有何帮助？

TollBit 平台是如何助力内容变现的？

Really Simple Licensing (RSL) 框架的主要目标是什么？