Clipto.AI 创始人康洪文认为,Agent 时代被忽视的底层问题是「记忆」,其团队正构建端侧 Memory Lay…
在 ChatGPT 引爆生成式 AI 两年后,「Agent」成为新一轮热词。但在 Clipto.AI 创始人康洪文看来,整个行业陷入了一个危险的假设:只要模型足够聪明,就能成为合格的助手。他在接受 36 氪采访时反复强调,真正决定 Agent 是否聪明的,不是模型能力,而是底下是否拥有一套持续生长的 Memory Layer(记忆层)。这家成立于硅谷的端侧 AI 公司,近期凭借新版 Mac 端 App 登顶 Product Hunt 日榜,并已实现 1500 万美元年化经常性收入(ARR)。
过去一年,AI 基础设施几乎完成了一轮集体升级。英伟达 RTX Spark 把算力部署到桌面端,英特尔 Lunar Lake、高通骁龙 X Elite 分别将笔记本 NPU 算力推至 60 TOPS 和 45 TOPS;Llama 3、千问、Gemma、Phi 等开源模型不断缩小体积,llama.cpp、MLX 等推理框架让大模型首次稳定运行在个人设备上。芯片、模型、系统三层都已就位,但端侧 AI 至今仍未出现一款让普通用户每天打开的产品。
Rabbit R1、Humane AI Pin 的折戟印证了同一件事:单点技术堆叠并不等于产品成功。更关键的问题是,即便算力已经抵达用户身边,AI 大脑仍然「失忆」——它能存下你一生的数据,却无法在你需要时替你找回某个瞬间。康洪文两年前做出的反共识判断是:真正的新机会,将出现在端侧算力与大模型能力交汇之后催生的新一层基础设施。
Clipto 给出的答案是自研一套端侧 Memory Layer,由三层组成。
性能层面,Clipto 在最新 M5 MacBook Pro 上可在 24 小时左右完成 2 TB 本地视频的离线分析,若完全依赖云端处理同类任务,成本约需 400 美元。
Clipto 从音视频搜索切入,理由有二:文本、PPT 已有不错方案,而音视频重多模态、单位处理成本高;且音视频天然更多存在本地,完美贴合端侧优先场景。
用户结构上,约 1/3 为视频创作者、摄影师等内容生产者,2/3 为金融、法律、医疗等行业的知识工作者。康洪文认为,这一结构释放了明确信号——记忆管理是比内容创作空间更大、更刚性的需求:每个知识工作者每天都在产生音频、图片、会议记录、PDF,手机截图、播客收藏、培训视频不断堆积却难以被再次调用。
商业数据印证了这一判断。上线三个月即实现盈亏平衡,2025 年公司 ARR 达到 1500 万美元。对于一家仍处于产品早期、且坚持端侧部署路线的 AI 公司而言,这样的速度本身就是市场对「Memory」付费意愿的验证。
康洪文将未来 AI 架构概括为「Cloud Intelligence + Edge Memory」:云端负责世界知识,端侧负责个人记忆,Agent 只是连接两者的交互层。
他回顾互联网基础设施的演进:Google 建立了人类的公共记忆(Collective Memory),Meta 与微信构建了社交关系的基础设施,OpenAI 解决了「如何推理」的问题,而下一阶段的核心命题是「我自己经历了什么」。在他看来,模型可以随时切换,Agent 也可以重构,但用户长期积累的记忆一旦形成,迁移成本极高。过去十年,AI 公司争夺的是 Intelligence;未来十年,真正不可替代的将是 Memory。
这也是康洪文对自身团队护城河的定义:把底层模型研发、端侧推理、算力调度、多模态理解、数据组织、时空数据库、知识图谱、检索系统整合成一套长期运行、持续生长的系统——任何一个模块都无法单独构成真正的 Memory。