桃子桃子 AI 快讯
返回首页
工具

开发者推出本地版 Recall 替代品 Screenmind,基于 Gemma 端侧视觉分析

独立开发者推出开源工具 Screenmind,在本机运行视觉模型,实现截图时间线追踪、语义搜索与对话查询,数据全程不离开…

2026.06.29 · 周一2 分钟阅读评分 28
评分细项加权总分 28
重要性
25
新颖性
30
影响面
20
可信度
40
实质性
35

Screenmind 是一款主打隐私优先的屏幕活动记录工具,定位为微软 Recall 的本地化替代方案。与 Recall 不同的是,它将所有截图分析完全放在本机完成,数据不上传云端。底层使用的是作者所述的 Gemma 系列视觉模型(支持视觉、音频与推理能力),这也是项目得以纯本地运行的关键。

核心功能

Screenmind 的能力围绕「屏幕历史」展开。它会持续截取屏幕内容,并据此构建用户的时间线,统计在每个应用或网页上的停留时长。主要特性包括:

  • 用任意文本搜索历史截图中出现过的内容
  • 用自然语言与屏幕历史对话,例如「Alex 在 Discord 上跟我说了什么」「我今天有没有收到 Microsoft 的邮件」
  • 设置自动化任务,例如每天结束时把日报发到 Slack;既支持自然语言配置,也开放 Python 接口供开发者深度定制
  • 通过全局热键保存附带截图的语音备忘录
  • 自动检测并转写会议内容,生成摘要

技术实现

持续运行本地模型对算力是严峻挑战。作者为此设计了一套三层感知哈希缓存系统,对相似截图跳过重复推理,使平均推理量降低约 40%。在响应模式上提供 fast / balanced / accurate 三档,以速度换精度。作者本人在 4GB 显存的 GTX 1650 上以 fast 模式日常使用,理论上在更高配置的机器上会有更佳表现。

此外,Screenmind 自带 MCP Server,可与 Claude Desktop、Cursor 等客户端联动,让用户直接通过大模型查询自己的屏幕历史。

平台与现状

工具支持 Windows、macOS 与 Linux。作者坦承目前 Mac 上的测试不够充分,安装流程也存在摩擦,正在开发一键安装包。多显示器支持是公开列出的下一步改进方向。

项目以开源形式发布在 GitHub(仓库:ayushh0110/ScreenMind),由开发者独立完成,目前仍处于个人项目阶段。

信源