编辑部手记:桃子 AI 快讯是如何用 AI 流水线浇筑出来的
采集→筛选→分发三段式工作流全公开:RSS 优于爬虫、AI 初筛打分、关键节点人工核实修补幻觉。
鉴于很多读者对快讯的制作流程感兴趣,本文分享整个过程的细节。由于整条流水线仍在快速迭代,代码暂未开源,后续稳定后会考虑放出关键模块。本文的视频版后续也会同步发布到哔哩哔哩。
总的来说,快讯的制作主要由 信息采集、筛选处理、修饰分发 三个环节组成。在速度、成本和能力的限制下,目前快讯的制作尚未涉及 Agent,整体上是一个掺杂了人工处理环节的简单 Workflow。
一、信息采集
1. RSS 优于爬虫
在信息采集环节,我主要使用的是 RSS 收集资讯。相比于爬虫,RSS 具有以下显著优势:
- 很多网站本身原生支持 RSS,例如 LINUX DO 社区和 Reddit。
- 对于不支持 RSS 的主流网站,往往存在相对成熟的解决方案(如 RSSHub 等)。
- RSS 通过 XML 文件交换信息,数据已做结构化处理,且保留了正文的一定样式。
当然,手动采集信息的环节也是必不可少的,我安装了浏览器插件 Obsidian Web Clipper,用于手动提取页面元素,转化为带元信息的 Markdown 文本,再通过 AI 编写的插件发送至后台。
2. 核心信息来源
更多的人可能好奇的是,为什么快讯每天有如此丰富的资讯,这应该要归功于信息源的广度。
除了前面提及的 LINUX DO(AI 社区)和 Reddit(LocalLlaMA 板块,讨论开放权重 AI),X(社交媒体网站)更是全世界 AI 信息的前沿。
你能想到的几乎国内外所有 AI 公司或者大公司的 AI 相关部门都在上面设置了账号发布信息:
| 类别 | 账号 / 品牌(部分) |
|---|---|
| 国际厂商 | OpenAI、Google DeepMind、Anthropic、xAI、Meta |
| 国内大厂 | 阿里 Qwen、腾讯 Hunyuan、字节跳动、美团 LongCat、快手 KwaiKAT、小米 MiMo、小红书 hi lab 等 |
| 创新 / 独角兽 | DeepSeek、智谱 Z.ai、Kimi、MiniMax、阶跃 StepFun |
此外,节目也吸引了一批紧跟 AI 热点的读者和观众,评论区、私信和交流群也是我获取最新资讯的重要渠道。
3. 跨行业迁移的局限性
可能有读者想制作一个其他类型的「快讯」,但我认为 AI 快讯的优势在于其主要通过文字传达,而且大部分 AI 公司会积极在社交媒体发布相关信息。这意味着如果迁移到其他在互联网上缺乏足够文本信息的行业,需要额外的人力做信息采集,否则自动化效果会大打折扣。
二、信息筛选和处理
1. 自动化初筛与处理
采集到信息后,首先由 AI 进行初筛,剔除「与 AI 无关」或「无报道价值」的内容。随后,系统并行执行以下 4 项任务:
| 任务名称 | 任务描述 |
|---|---|
| 摘要生成 | AI 为每条信息制作 50 字摘要,辅助人工快速判断 |
| 关键词提取 | 提取如 Gemini 3 等关键词,将资讯归类到具体事件 |
| 旧闻排除 | 与上一次快讯及 72 小时 内的内容比对,排除重复 |
| 智能打分 | AI 对信息价值打分,低于阈值直接排除,分值供人工参考 |
在 AI 做完以上工作后,可以得到分类好的一系列信息,并且每条信息都附上了概要和打分。
2. 深度整合与人工介入
快讯不会直接将所有通过 AI 筛选的信息丢给 AI,而是通过人工只保留最官方、最准确或最早的信源。大部分时候,还会人工补充更多的官方信息。
随后,就是正式生成快讯内容的环节:
- 内容生成:每个分类下的信息合并后作为上下文,由 AI 生成标题、正文
- 人工调整:对生成内容进行校对,保留来源链接,并挑选合适的视频或图片素材
3. 全自动 vs 人工
虽然项目技术上可以实现全自动处理,但我选择加入「亿点点」人工。这种人工投入主要用于核查事件的真实性与准确性、努力做到最全最新并修补 AI 产生的 幻觉。
4. 推荐模型和平台
目前我主要接入的是 GMI Cloud 推理引擎平台上提供的模型:生成环节使用 Kimi K2 Thinking,其他任务主要使用 Qwen3 Next 80B A3B Instruct,整体上很好地权衡了效果、成本和速度。
三、信息的修饰与分发
目前快讯提供 文字版 和 视频版,并在 公众号、哔哩哔哩、知乎、YouTube、小红书 和 抖音 同步更新。
1. 文字版制作
对于文字版,我会将组合起来的正文发由 AI 进行 Markdown 格式优化排版。文字版快讯的每一个 加粗、行内代码块 和表格其实都是由 AI 决定并修改的。
而公众号文章的格式是一种受限的 HTML 格式(例如不能实现点击跳转)。Markdown 转公众号格式 HTML 可以靠第三方工具实现,例如 doocs/md 等工具可以自定义 CSS 样式,将 Markdown 转化为适合公众号排版的格式。
2. 视频版制作
视频的基本元素是画面和声音。
目前快讯的画面样式模仿了 NotebookLM 视频概览的卡片样式,Prompt 的核心规则有两条:渲染在 16:9 画布上、内容由卡片按规则排版。生成的 HTML 网页通过 Selenium 经 Chrome DevTools Protocol 截图。
更核心的部分是语音。AI 根据正文生成口播稿并按事件分段,合成语音时再 按标点拆分短句、逐句请求,通过计算每段音频时长确定整条视频的时间轴。有了时间轴,字幕、画面切换、转场音效、进度条都能一一对齐,最终用 ffmpeg 合成。
四、未来计划
- AI 快讯周报、月报系列
- RSS 分发文字版
- 快讯原文上传到 GitHub
- 新增竖屏视频版
- 公众号新增正文更简洁的版本
本文为桃子(TÁOZI)原创整理,首发于桃子 AI 快讯(taozi.news)。转载请注明出处。
