桃子桃子快讯
返回首页
工具

pxpipe:把代码转图片让模型 OCR,Claude Code 输入成本砍六成

开源代理工具 pxpipe 将系统提示、工具文档、历史等密集文本转为紧凑 PNG 再送入 Claude Code,号称在…

2026.07.03 · 周五4 分钟阅读

把一段几千字的系统提示、工具定义、对话历史「截图」成图片,再让模型用 OCR 读回来——这是开源项目 pxpipe 的核心思路。作者在 Hacker News 上发布这一工具时给出的数据是:在其默认调优的 Fable 5 模型上,Claude Code 端到端账单下降约 59%–70%,输入 token 数则下降至原先的约十分之一。

核心机制:图片 token 更「便宜」

pxpipe 是一个本地 HTTP 代理(npx pxpipe-proxy),运行在 127.0.0.1:47821。它在请求离开本机前,把请求里 token 密集但视觉可读的部分——系统提示、工具文档、较早的历史——渲染成紧凑的 PNG,然后用 ANTHROPIC_BASE_URL 把 Claude Code 指过来即可。

之所以可行,是因为图片的 token 计费由像素尺寸决定,与内部文字量无关。在 Claude Code 的真实流量中,密集内容(代码、JSON、工具输出)在图片里可达约 3.1 字符/token,而纯文本仅约 1 字符/token。作者给出了一个示例:约 48k 字符、文本形式约 25k tokens 的系统提示,被压成一张图后只占约 2.7k image tokens。

基准与节省幅度

节省幅度是「工作负载敏感」的:token 密集内容收益大,稀疏英文散文反而可能更贵。工具内置了一个门控,只对收益为正的内容做转图,校准数据来自 N=391 条生产请求。

  • 在 Fable 5 演示中,pxpipe 侧会话总计 6.06 美元、上下文占用 73.5k/1M;纯文本侧为 42.21 美元、上下文 964.5k/1M(已接近强制压缩)。
  • SWE-bench Lite 简单子集 10 个实例,两侧均 10/10 通过,pxpipe 侧 27 美元 vs 关闭侧 54 美元(token 等价)。
  • SWE-bench Pro 长任务 19 对,pxpipe ON 14/19、OFF 15/19,单请求节省约 60%;19 对中 18 对结论一致,1 例差异归因于智能体运行方差而非压缩。
  • 针-草堆测试中,密集图片内的精确 12 字符十六进制字符串,Opus 4.8 上 0/15 召回、Fable 5 上 13/15 召回。

损耗与适用范围

pxpipe 自承是「有损层」,不是无损仓库。失败模式是「静默编造」:模型会返回一个看起来合理但其实错误的值,而不是报错。任何需要逐字节取回的内容——ID、哈希、密钥、精确数字——都必须保留为文本。目前该项目尚未内置「精确值风险」自动守卫。

精确召回的兜底方案是:只对 Fable 请求启用转图(PXPIPE_MODELS=claude-fable-5),子智能体若指定为非 Fable 模型(如 Sonnet 4.6),则直接以文本透传,从源文件/JSONL 读取,不经过图片历史。

使用方式

  • 启动代理:npx pxpipe-proxy
  • 指向 Claude Code:ANTHROPIC_BASE_URL=http://localhost:47821 claude
  • 访问 http://127.0.0.1:47821/ 可看实时仪表盘:节省 token、各会话统计、文本→图片对照、全局开关,以及 GPT 5.6 / GPT 5.5 等运行时模型切换。

响应流不变,pxpipe 只压缩上行请求;最近几轮对话保持文本,只把系统提示、工具文档和较老的历史转图。

信源