桃子桃子 AI 快讯
返回首页
工具

AgentCrawl:面向 AI Agent 的轻量自托管爬虫

AgentCrawl 是一个为 AI Agent 设计的自托管网页爬虫,可将网页转为 Markdown,支持 CLI、P…

2026.06.29 · 周一3 分钟阅读评分 33
评分细项加权总分 33
重要性
30
新颖性
30
影响面
25
可信度
55
实质性
40

AgentCrawl 是一个面向 AI Agent 的轻量级自托管网页爬虫,可将普通网页与本地文档转化为干净的 Markdown、文本、链接、元数据和 JSON-LD 等结构化结果。它提供 CLI、Python、HTTP API 和 MCP 四种调用方式,目前已在 GitHub 开源,处于早期但持续迭代阶段。

项目定位

AgentCrawl 的核心目标是解决一个常见痛点:AI Agent 在获取网页上下文时,往往只能拿到夹杂导航、Cookie 提示、页脚、脚本等大量噪声的原始 HTML。该项目将自己定位为"本地、可信、可控"的网页读取层,让 Agent 通过一个 URL 就能拿到可读的清洗内容,缓存、任务状态与失败记录全部保留在用户自己的环境中。

主要能力

  • 默认走 HTTP 快速提取,无需启动浏览器即可处理大多数可达页面;
  • 提取主内容区域,输出 Markdown、表格、代码块、链接与元数据;
  • 内置 SQLite 任务管理,支持检查点、分页、取消、事件流、选择性重试与失败检查;
  • 提供只读本地仪表盘,可从 SQLite 生成静态 HTML 或通过 /dashboard 访问;
  • API 默认携带 Bearer 鉴权、robots.txt 支持、SSRF 防护、私网控制与不安全重定向拦截。

面向 Agent 的接口

AgentCrawl 把 MCP 作为一等公民。安装 agentcrawl-ai[browser] 后运行 agentcrawl mcp 即可暴露 stdio MCP 工具,涵盖 scrape_urlmap_sitecrawl_site、任务状态查询、取消、事件历史、失败检查、选择性重试、使用统计与缓存控制。Python 与 CLI 接口则适合脚本化使用,Docker 镜像和 Compose 文件已发布到 GitHub Container Registry,便于自托管部署。

适用边界

作者明确将项目分为 Community 与未来规划的 Enhanced/Hosted 两条线。Community 版本专注于可公开访问的 HTML、API 文档、参考页面与本地文档;遇到 Cloudflare 等反爬挑战时,会如实返回 client_challenge 错误,而不是把挑战页 DOM 当作内容返回。托管浏览器、代理池、定时调度、Webhook、团队协作与计费等能力被刻意划到付费/增强层级,避免 Community 演变成免费托管爬虫平台。

现阶段评价

项目尚处早期,作者强调"诚实的失败"优先于炫目的能力宣称。目前没有公开的 benchmark、抽取准确率或与 Firecrawl 等同类工具的对比数据。对于需要为本地 Agent 增加网页读取能力的开发者,它提供了一个可自托管、可审计的轻量选项;但在功能完备度和生态成熟度上,仍需后续迭代验证。

信源