Cloudflare 推出 /crawl API：一次请求即可抓取整个网站内容

一次 API 调用即可抓取整个网站

新的 /crawl endpoint 允许开发者仅提交 一个起始 URL，Cloudflare 的系统便会：

自动发现网站内部链接
使用无头浏览器（Headless Browser）渲染页面
抓取并返回页面内容

抓取结果可以输出为多种格式：

HTML
Markdown
结构化 JSON

开发者无需自己构建爬虫系统，就可以快速获取完整的网站数据。

支持 AI 与数据管道场景

Cloudflare 表示，这个 API 的典型用途包括：

AI 相关应用

构建 RAG（检索增强生成）知识库
收集训练数据
研究网站内容结构

自动化数据分析

网站内容监控
文档抓取
自动化数据采集

随着 AI 应用对网页数据需求增加，这种 “一键爬站”接口可以显著降低开发成本。

异步任务执行机制

为了应对大量页面抓取，/crawl API 使用 异步任务模型：

提交爬取请求
API 返回一个 Job ID
开发者轮询任务状态
页面抓取完成后获取结果

示例请求：

curl -X POST https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl \ -H "Authorization: Bearer <apiToken>" \ -H "Content-Type: application/json" \ -d '{ "url": "https://example.com" }'

这种方式适合处理 大型网站抓取任务。

默认遵守 robots.txt 与 AI Crawl Control

Cloudflare 特别强调，该爬虫 API 是一个 “signed-agent” 爬虫，默认遵循网站规则：

自动遵守 robots.txt
遵循 Cloudflare 的 AI Crawl Control 管理策略

这意味着网站管理员仍然可以通过配置控制爬虫访问权限，避免未经授权的数据抓取。

与 AI 爬虫治理体系结合

近年来 Cloudflare 正在构建一整套 AI 爬虫管理体系，包括：

AI 爬虫访问控制
AI Crawl Control 分析工具
Pay-Per-Crawl（按爬取付费）机制

这些工具旨在帮助网站在 开放数据访问与内容保护之间取得平衡。

小结

Cloudflare 新推出的 /crawl API，可以看作是一个 “云端网站爬虫服务”：

一次 API 调用即可抓取整个网站
自动发现页面并渲染
支持 HTML / Markdown / JSON 输出
默认遵守 robots.txt 与 AI 爬虫规则

对于开发者来说，这项功能可以显著简化 AI 数据采集与网站内容分析的技术门槛。