Firecrawl
OpenClaw 可以将 Firecrawl 用作web_fetch 的后备提取器。它是一项托管的内容提取服务,支持规避机器人检测和内容缓存,有助于处理 JavaScript 重度加载的网站或会阻止普通 HTTP 请求的页面。
获取 API 密钥
- 创建一个 Firecrawl 账户并生成 API 密钥。
- 将其存储在配置中,或在网关环境中设置
FIRECRAWL_API_KEY。
配置 Firecrawl
- 当存在 API 密钥时,
firecrawl.enabled默认为 true。 maxAgeMs控制缓存结果的最旧时间(以毫秒为单位)。默认值为 2 天。
隐蔽模式/规避机器人检测
Firecrawl 提供了一个用于规避机器人检测的 代理模式 参数(basic、stealth 或 auto)。
对于 Firecrawl 请求,OpenClaw 始终使用 proxy: "auto" 加上 storeInCache: true。
如果未指定代理,Firecrawl 默认使用 auto。如果基本请求失败,auto 会使用隐蔽代理进行重试,而这可能会比仅使用基本模式抓取消耗更多额度。
web_fetch 如何使用 Firecrawl
web_fetch 的提取顺序如下:
- Readability(本地)
- Firecrawl(如果已配置)
- 基本 HTML 清理(最后的后备方案)