Ornith-1.0：DeepReinforce 开源自举式编程大模型

DeepReinforce 正式发布其首个开源大模型 Ornith-1.0，采用 MIT 许可证，覆盖从 9B 稠密到 397B MoE 的多个规格，定位为面向智能体编程（agentic coding）的自举式 LLM。模型在预训练的 Gemma 4 与 Qwen 3.5 之上继续训练，官方宣称在编程基准上达到同尺寸开源模型的当前最优水平。

模型规格与许可证

Ornith-1.0 提供四个主要变体：

9B Dense
31B Dense
35B MoE
397B MoE

权重以 MIT 协议开源。Simon Willison 在报道中特别指出，Gemma 4 现已采用 Apache 2.0 协议，且不再附带此前 Gemma 系列饱受诟病的额外使用条款；Qwen 3.5 同样为 Apache 2.0，因此将三者结合进行衍生发布在许可证层面是兼容的。

编程能力与基准宣称

官方称 Ornith-1.0 在同等规模的开源模型中，于编程类基准上达到了 state-of-the-art。不过截至 Simon Willison 发文时，公开渠道尚未见到完整的基准分数与对比表格，相关细节仍需以官方模型卡或论文为准。

本地实测初体验

Simon Willison 使用 LM Studio 加载 ornith-1.0-35b-Q4_K_M 量化版本（GGUF 格式，约 20GB），并接入 Pi 编程代理框架进行实测：

在多轮工具调用下，模型能够稳定驱动代理流程，整体表现「非常出色」。
针对一个 Datasette 代码库，他要求模型「找到解码 actor cookie 的代码」以及「找到点击按钮时打开插入对话框的代码」，模型均顺利完成。
让模型绘制「骑自行车的鹈鹕」时，生成速度约 103 tokens/秒，图像虽略有失真但主体可辨识。

关于 DeepReinforce

DeepReinforce 此前在公开渠道几乎没有存在感。可追溯到的最早论文为 2025 年 6 月发表的《CUDA-L1: Improving CUDA Optimization via Contrastive Reinforcement Learning》，研究如何通过对比强化学习改进 CUDA 程序的自动优化。这表明团队在「用强化学习驱动代码与系统优化」这一方向上已有积累，也与 Ornith-1.0 强调的智能体编程定位形成呼应。对于关注本地代码模型与开源生态的开发者来说，Ornith-1.0 值得进一步评测与跟踪。