AgentCrawl：面向 AI Agent 的轻量自托管爬虫

AgentCrawl 是一个面向 AI Agent 的轻量级自托管网页爬虫，可将普通网页与本地文档转化为干净的 Markdown、文本、链接、元数据和 JSON-LD 等结构化结果。它提供 CLI、Python、HTTP API 和 MCP 四种调用方式，目前已在 GitHub 开源，处于早期但持续迭代阶段。

项目定位

AgentCrawl 的核心目标是解决一个常见痛点：AI Agent 在获取网页上下文时，往往只能拿到夹杂导航、Cookie 提示、页脚、脚本等大量噪声的原始 HTML。该项目将自己定位为"本地、可信、可控"的网页读取层，让 Agent 通过一个 URL 就能拿到可读的清洗内容，缓存、任务状态与失败记录全部保留在用户自己的环境中。

主要能力

默认走 HTTP 快速提取，无需启动浏览器即可处理大多数可达页面；
提取主内容区域，输出 Markdown、表格、代码块、链接与元数据；
内置 SQLite 任务管理，支持检查点、分页、取消、事件流、选择性重试与失败检查；
提供只读本地仪表盘，可从 SQLite 生成静态 HTML 或通过 /dashboard 访问；
API 默认携带 Bearer 鉴权、robots.txt 支持、SSRF 防护、私网控制与不安全重定向拦截。

面向 Agent 的接口

AgentCrawl 把 MCP 作为一等公民。安装 agentcrawl-ai[browser] 后运行 agentcrawl mcp 即可暴露 stdio MCP 工具，涵盖 scrape_url、map_site、crawl_site、任务状态查询、取消、事件历史、失败检查、选择性重试、使用统计与缓存控制。Python 与 CLI 接口则适合脚本化使用，Docker 镜像和 Compose 文件已发布到 GitHub Container Registry，便于自托管部署。

适用边界

作者明确将项目分为 Community 与未来规划的 Enhanced/Hosted 两条线。Community 版本专注于可公开访问的 HTML、API 文档、参考页面与本地文档；遇到 Cloudflare 等反爬挑战时，会如实返回 client_challenge 错误，而不是把挑战页 DOM 当作内容返回。托管浏览器、代理池、定时调度、Webhook、团队协作与计费等能力被刻意划到付费/增强层级，避免 Community 演变成免费托管爬虫平台。

现阶段评价

项目尚处早期，作者强调"诚实的失败"优先于炫目的能力宣称。目前没有公开的 benchmark、抽取准确率或与 Firecrawl 等同类工具的对比数据。对于需要为本地 Agent 增加网页读取能力的开发者，它提供了一个可自托管、可审计的轻量选项；但在功能完备度和生态成熟度上，仍需后续迭代验证。