pxpipe:把代码转图片让模型 OCR,Claude Code 输入成本砍六成
开源代理工具 pxpipe 将系统提示、工具文档、历史等密集文本转为紧凑 PNG 再送入 Claude Code,号称在…
把一段几千字的系统提示、工具定义、对话历史「截图」成图片,再让模型用 OCR 读回来——这是开源项目 pxpipe 的核心思路。作者在 Hacker News 上发布这一工具时给出的数据是:在其默认调优的 Fable 5 模型上,Claude Code 端到端账单下降约 59%–70%,输入 token 数则下降至原先的约十分之一。
核心机制:图片 token 更「便宜」
pxpipe 是一个本地 HTTP 代理(npx pxpipe-proxy),运行在 127.0.0.1:47821。它在请求离开本机前,把请求里 token 密集但视觉可读的部分——系统提示、工具文档、较早的历史——渲染成紧凑的 PNG,然后用 ANTHROPIC_BASE_URL 把 Claude Code 指过来即可。
之所以可行,是因为图片的 token 计费由像素尺寸决定,与内部文字量无关。在 Claude Code 的真实流量中,密集内容(代码、JSON、工具输出)在图片里可达约 3.1 字符/token,而纯文本仅约 1 字符/token。作者给出了一个示例:约 48k 字符、文本形式约 25k tokens 的系统提示,被压成一张图后只占约 2.7k image tokens。
基准与节省幅度
节省幅度是「工作负载敏感」的:token 密集内容收益大,稀疏英文散文反而可能更贵。工具内置了一个门控,只对收益为正的内容做转图,校准数据来自 N=391 条生产请求。
- 在 Fable 5 演示中,pxpipe 侧会话总计 6.06 美元、上下文占用 73.5k/1M;纯文本侧为 42.21 美元、上下文 964.5k/1M(已接近强制压缩)。
- SWE-bench Lite 简单子集 10 个实例,两侧均 10/10 通过,pxpipe 侧 27 美元 vs 关闭侧 54 美元(token 等价)。
- SWE-bench Pro 长任务 19 对,pxpipe ON 14/19、OFF 15/19,单请求节省约 60%;19 对中 18 对结论一致,1 例差异归因于智能体运行方差而非压缩。
- 针-草堆测试中,密集图片内的精确 12 字符十六进制字符串,Opus 4.8 上 0/15 召回、Fable 5 上 13/15 召回。
损耗与适用范围
pxpipe 自承是「有损层」,不是无损仓库。失败模式是「静默编造」:模型会返回一个看起来合理但其实错误的值,而不是报错。任何需要逐字节取回的内容——ID、哈希、密钥、精确数字——都必须保留为文本。目前该项目尚未内置「精确值风险」自动守卫。
精确召回的兜底方案是:只对 Fable 请求启用转图(PXPIPE_MODELS=claude-fable-5),子智能体若指定为非 Fable 模型(如 Sonnet 4.6),则直接以文本透传,从源文件/JSONL 读取,不经过图片历史。
使用方式
- 启动代理:
npx pxpipe-proxy - 指向 Claude Code:
ANTHROPIC_BASE_URL=http://localhost:47821 claude - 访问
http://127.0.0.1:47821/可看实时仪表盘:节省 token、各会话统计、文本→图片对照、全局开关,以及 GPT 5.6 / GPT 5.5 等运行时模型切换。
响应流不变,pxpipe 只压缩上行请求;最近几轮对话保持文本,只把系统提示、工具文档和较老的历史转图。
