一次 API 调用即可抓取整个网站

新的 /crawl endpoint 允许开发者仅提交 一个起始 URL,Cloudflare 的系统便会:

  • 自动发现网站内部链接
  • 使用 无头浏览器(Headless Browser) 渲染页面
  • 抓取并返回页面内容

抓取结果可以输出为多种格式:

  • HTML
  • Markdown
  • 结构化 JSON

开发者无需自己构建爬虫系统,就可以快速获取完整的网站数据。  

支持 AI 与数据管道场景

Cloudflare 表示,这个 API 的典型用途包括:

AI 相关应用

  • 构建 RAG(检索增强生成)知识库
  • 收集训练数据
  • 研究网站内容结构

自动化数据分析

  • 网站内容监控
  • 文档抓取
  • 自动化数据采集

随着 AI 应用对网页数据需求增加,这种 “一键爬站”接口可以显著降低开发成本。  

异步任务执行机制

为了应对大量页面抓取,/crawl API 使用 异步任务模型

  1. 提交爬取请求
  2. API 返回一个 Job ID
  3. 开发者轮询任务状态
  4. 页面抓取完成后获取结果

示例请求:

curl -X POST https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl \ -H "Authorization: Bearer <apiToken>" \ -H "Content-Type: application/json" \ -d '{ "url": "https://example.com" }'

这种方式适合处理 大型网站抓取任务。  

默认遵守 robots.txt 与 AI Crawl Control

Cloudflare 特别强调,该爬虫 API 是一个 “signed-agent” 爬虫,默认遵循网站规则:

  • 自动遵守 robots.txt
  • 遵循 Cloudflare 的 AI Crawl Control 管理策略

这意味着网站管理员仍然可以通过配置控制爬虫访问权限,避免未经授权的数据抓取。  

与 AI 爬虫治理体系结合

近年来 Cloudflare 正在构建一整套 AI 爬虫管理体系,包括:

  • AI 爬虫访问控制
  • AI Crawl Control 分析工具
  • Pay-Per-Crawl(按爬取付费)机制

这些工具旨在帮助网站在 开放数据访问与内容保护之间取得平衡。  

小结

Cloudflare 新推出的 /crawl API,可以看作是一个 “云端网站爬虫服务”

  • 一次 API 调用即可抓取整个网站
  • 自动发现页面并渲染
  • 支持 HTML / Markdown / JSON 输出
  • 默认遵守 robots.txt 与 AI 爬虫规则

对于开发者来说,这项功能可以显著简化 AI 数据采集与网站内容分析的技术门槛