对话 Clipto.AI 创始人康洪文：AI 缺的不是模型，而是一层「记忆」

在 ChatGPT 引爆生成式 AI 两年后，「Agent」成为新一轮热词。但在 Clipto.AI 创始人康洪文看来，整个行业陷入了一个危险的假设：只要模型足够聪明，就能成为合格的助手。他在接受 36 氪采访时反复强调，真正决定 Agent 是否聪明的，不是模型能力，而是底下是否拥有一套持续生长的 Memory Layer（记忆层）。这家成立于硅谷的端侧 AI 公司，近期凭借新版 Mac 端 App 登顶 Product Hunt 日榜，并已实现 1500 万美元年化经常性收入（ARR）。

行业现状：硬件就位，软件缺位

过去一年，AI 基础设施几乎完成了一轮集体升级。英伟达 RTX Spark 把算力部署到桌面端，英特尔 Lunar Lake、高通骁龙 X Elite 分别将笔记本 NPU 算力推至 60 TOPS 和 45 TOPS；Llama 3、千问、Gemma、Phi 等开源模型不断缩小体积，llama.cpp、MLX 等推理框架让大模型首次稳定运行在个人设备上。芯片、模型、系统三层都已就位，但端侧 AI 至今仍未出现一款让普通用户每天打开的产品。

Rabbit R1、Humane AI Pin 的折戟印证了同一件事：单点技术堆叠并不等于产品成功。更关键的问题是，即便算力已经抵达用户身边，AI 大脑仍然「失忆」——它能存下你一生的数据，却无法在你需要时替你找回某个瞬间。康洪文两年前做出的反共识判断是：真正的新机会，将出现在端侧算力与大模型能力交汇之后催生的新一层基础设施。

技术架构：模型、算力、记忆三层堆叠

Clipto 给出的答案是自研一套端侧 Memory Layer，由三层组成。

模型层：围绕人物识别、语音理解、OCR、场景分析、事件理解等能力，自研十余个端侧 AI 模型，部分基于开源基础模型做后训练，部分完全自研，针对端侧算力重新设计而非直接迁移云端模型。
算力调度层：自建端侧推理框架和调度系统，让多个模型在 CPU、GPU、NPU、内存、带宽受限的环境中协同工作。架构可自动兼容不同配置设备，最低可在仅 8 GB 内存的 M1 MacBook 上运行。
记忆构建层：将多模态信息组织成时间、地点、人物、事件的结构化关系，并跨文件、跨时间、跨来源持续建立关联，最终形成可生长的个人记忆网络。

性能层面，Clipto 在最新 M5 MacBook Pro 上可在 24 小时左右完成 2 TB 本地视频的离线分析，若完全依赖云端处理同类任务，成本约需 400 美元。

商业化：上线三个月即盈亏平衡

Clipto 从音视频搜索切入，理由有二：文本、PPT 已有不错方案，而音视频重多模态、单位处理成本高；且音视频天然更多存在本地，完美贴合端侧优先场景。

用户结构上，约 1/3 为视频创作者、摄影师等内容生产者，2/3 为金融、法律、医疗等行业的知识工作者。康洪文认为，这一结构释放了明确信号——记忆管理是比内容创作空间更大、更刚性的需求：每个知识工作者每天都在产生音频、图片、会议记录、PDF，手机截图、播客收藏、培训视频不断堆积却难以被再次调用。

商业数据印证了这一判断。上线三个月即实现盈亏平衡，2025 年公司 ARR 达到 1500 万美元。对于一家仍处于产品早期、且坚持端侧部署路线的 AI 公司而言，这样的速度本身就是市场对「Memory」付费意愿的验证。

行业判断：未来十年拼的是 Memory

康洪文将未来 AI 架构概括为「Cloud Intelligence + Edge Memory」：云端负责世界知识，端侧负责个人记忆，Agent 只是连接两者的交互层。

他回顾互联网基础设施的演进：Google 建立了人类的公共记忆（Collective Memory），Meta 与微信构建了社交关系的基础设施，OpenAI 解决了「如何推理」的问题，而下一阶段的核心命题是「我自己经历了什么」。在他看来，模型可以随时切换，Agent 也可以重构，但用户长期积累的记忆一旦形成，迁移成本极高。过去十年，AI 公司争夺的是 Intelligence；未来十年，真正不可替代的将是 Memory。

这也是康洪文对自身团队护城河的定义：把底层模型研发、端侧推理、算力调度、多模态理解、数据组织、时空数据库、知识图谱、检索系统整合成一套长期运行、持续生长的系统——任何一个模块都无法单独构成真正的 Memory。