Ornith-1.0:DeepReinforce 开源自举式编程大模型
DeepReinforce 首个模型 Ornith-1.0 开源发布,提供 9B 至 397B 多规格,宣称编程基准达同…
- 重要性
- 58
- 新颖性
- 72
- 影响面
- 58
- 可信度
- 68
- 实质性
- 58
DeepReinforce 正式发布其首个开源大模型 Ornith-1.0,采用 MIT 许可证,覆盖从 9B 稠密到 397B MoE 的多个规格,定位为面向智能体编程(agentic coding)的自举式 LLM。模型在预训练的 Gemma 4 与 Qwen 3.5 之上继续训练,官方宣称在编程基准上达到同尺寸开源模型的当前最优水平。
模型规格与许可证
Ornith-1.0 提供四个主要变体:
- 9B Dense
- 31B Dense
- 35B MoE
- 397B MoE
权重以 MIT 协议开源。Simon Willison 在报道中特别指出,Gemma 4 现已采用 Apache 2.0 协议,且不再附带此前 Gemma 系列饱受诟病的额外使用条款;Qwen 3.5 同样为 Apache 2.0,因此将三者结合进行衍生发布在许可证层面是兼容的。
编程能力与基准宣称
官方称 Ornith-1.0 在同等规模的开源模型中,于编程类基准上达到了 state-of-the-art。不过截至 Simon Willison 发文时,公开渠道尚未见到完整的基准分数与对比表格,相关细节仍需以官方模型卡或论文为准。
本地实测初体验
Simon Willison 使用 LM Studio 加载 ornith-1.0-35b-Q4_K_M 量化版本(GGUF 格式,约 20GB),并接入 Pi 编程代理框架进行实测:
- 在多轮工具调用下,模型能够稳定驱动代理流程,整体表现「非常出色」。
- 针对一个 Datasette 代码库,他要求模型「找到解码 actor cookie 的代码」以及「找到点击按钮时打开插入对话框的代码」,模型均顺利完成。
- 让模型绘制「骑自行车的鹈鹕」时,生成速度约 103 tokens/秒,图像虽略有失真但主体可辨识。
关于 DeepReinforce
DeepReinforce 此前在公开渠道几乎没有存在感。可追溯到的最早论文为 2025 年 6 月发表的《CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning》,研究如何通过对比强化学习改进 CUDA 程序的自动优化。这表明团队在「用强化学习驱动代码与系统优化」这一方向上已有积累,也与 Ornith-1.0 强调的智能体编程定位形成呼应。对于关注本地代码模型与开源生态的开发者来说,Ornith-1.0 值得进一步评测与跟踪。
