一次 API 调用即可抓取整个网站
新的 /crawl endpoint 允许开发者仅提交 一个起始 URL,Cloudflare 的系统便会:
- 自动发现网站内部链接
- 使用 无头浏览器(Headless Browser) 渲染页面
- 抓取并返回页面内容
抓取结果可以输出为多种格式:
- HTML
- Markdown
- 结构化 JSON
开发者无需自己构建爬虫系统,就可以快速获取完整的网站数据。
支持 AI 与数据管道场景
Cloudflare 表示,这个 API 的典型用途包括:
AI 相关应用
- 构建 RAG(检索增强生成)知识库
- 收集训练数据
- 研究网站内容结构
自动化数据分析
- 网站内容监控
- 文档抓取
- 自动化数据采集
随着 AI 应用对网页数据需求增加,这种 “一键爬站”接口可以显著降低开发成本。
异步任务执行机制
为了应对大量页面抓取,/crawl API 使用 异步任务模型:
- 提交爬取请求
- API 返回一个 Job ID
- 开发者轮询任务状态
- 页面抓取完成后获取结果
示例请求:
curl -X POST https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl \ -H "Authorization: Bearer <apiToken>" \ -H "Content-Type: application/json" \ -d '{ "url": "https://example.com" }'这种方式适合处理 大型网站抓取任务。
默认遵守 robots.txt 与 AI Crawl Control
Cloudflare 特别强调,该爬虫 API 是一个 “signed-agent” 爬虫,默认遵循网站规则:
- 自动遵守 robots.txt
- 遵循 Cloudflare 的 AI Crawl Control 管理策略
这意味着网站管理员仍然可以通过配置控制爬虫访问权限,避免未经授权的数据抓取。
与 AI 爬虫治理体系结合
近年来 Cloudflare 正在构建一整套 AI 爬虫管理体系,包括:
- AI 爬虫访问控制
- AI Crawl Control 分析工具
- Pay-Per-Crawl(按爬取付费)机制
这些工具旨在帮助网站在 开放数据访问与内容保护之间取得平衡。
小结
Cloudflare 新推出的 /crawl API,可以看作是一个 “云端网站爬虫服务”:
- 一次 API 调用即可抓取整个网站
- 自动发现页面并渲染
- 支持 HTML / Markdown / JSON 输出
- 默认遵守 robots.txt 与 AI 爬虫规则
对于开发者来说,这项功能可以显著简化 AI 数据采集与网站内容分析的技术门槛。