工具
开发者推出本地版 Recall 替代品 Screenmind,基于 Gemma 端侧视觉分析
独立开发者推出开源工具 Screenmind,在本机运行视觉模型,实现截图时间线追踪、语义搜索与对话查询,数据全程不离开…
2026.06.29 · 周一约 2 分钟阅读评分 28
评分细项加权总分 28
- 重要性
- 25
- 新颖性
- 30
- 影响面
- 20
- 可信度
- 40
- 实质性
- 35
Screenmind 是一款主打隐私优先的屏幕活动记录工具,定位为微软 Recall 的本地化替代方案。与 Recall 不同的是,它将所有截图分析完全放在本机完成,数据不上传云端。底层使用的是作者所述的 Gemma 系列视觉模型(支持视觉、音频与推理能力),这也是项目得以纯本地运行的关键。
核心功能
Screenmind 的能力围绕「屏幕历史」展开。它会持续截取屏幕内容,并据此构建用户的时间线,统计在每个应用或网页上的停留时长。主要特性包括:
- 用任意文本搜索历史截图中出现过的内容
- 用自然语言与屏幕历史对话,例如「Alex 在 Discord 上跟我说了什么」「我今天有没有收到 Microsoft 的邮件」
- 设置自动化任务,例如每天结束时把日报发到 Slack;既支持自然语言配置,也开放 Python 接口供开发者深度定制
- 通过全局热键保存附带截图的语音备忘录
- 自动检测并转写会议内容,生成摘要
技术实现
持续运行本地模型对算力是严峻挑战。作者为此设计了一套三层感知哈希缓存系统,对相似截图跳过重复推理,使平均推理量降低约 40%。在响应模式上提供 fast / balanced / accurate 三档,以速度换精度。作者本人在 4GB 显存的 GTX 1650 上以 fast 模式日常使用,理论上在更高配置的机器上会有更佳表现。
此外,Screenmind 自带 MCP Server,可与 Claude Desktop、Cursor 等客户端联动,让用户直接通过大模型查询自己的屏幕历史。
平台与现状
工具支持 Windows、macOS 与 Linux。作者坦承目前 Mac 上的测试不够充分,安装流程也存在摩擦,正在开发一键安装包。多显示器支持是公开列出的下一步改进方向。
项目以开源形式发布在 GitHub(仓库:ayushh0110/ScreenMind),由开发者独立完成,目前仍处于个人项目阶段。
