开发者用纯 C/CUDA 从零搭建 GPT-2 规模语言模型

一位对底层大语言模型实现感兴趣的开发者近日在 Hacker News 分享了名为 NanoEuler 的个人项目，目标是在不依赖 PyTorch、TensorFlow 等主流深度学习框架的前提下，用纯 C 与 CUDA 从零构建并训练一个 GPT-2 规模的语言模型。

项目背景与动机

作者表示，启动该项目的契机之一是 Anthropic 旗下 Fable 项目被关停，他希望借此更深入地理解大语言模型的工作原理。作者在原帖中提到，仅通过 API 与 LLM 交互并不能真正理解模型的内部构成；只有深入到参数规模、数据量与模型能力增长之间的对应关系，以及 GPU 的实际运算机制，才能形成系统性的认知。

因此，NanoEuler 被定位为一个偏研究性质的学习项目：模型规模从极小起步，每完成一步训练就观察行为，再决定是否进一步扩展。

从 2300 万参数起步，逐步扩展

训练起点是经典的小规模语料 Shakespeare.txt。作者描述，当模型参数量达到约 2300 万时，已经能够「理解」以 Name: 开头的行，并以符合上下文的方式续写内容。这一观察让作者相信，参数规模、数据与模型行为之间的关系可以被逐步实证捕捉。

在工具链选择上，作者刻意使用纯 C 与 CUDA 编写训练与推理代码，目的是消除模型与底层硬件之间的中间抽象层，从而更直接地观察每一层运算对结果的影响。

引入 SFT 等训练手段

项目后续还引入了监督微调（SFT）等步骤。作者认为，即便在小规模下，这些训练环节对于理解如何将一个文本生成模型转变为对话式 chatbot 也具有学习价值。整个流程被当作一条循序渐进的学习路径，而非追求在某一公开 benchmark 上的领先成绩。

现状与社区邀请

截至发帖时，作者尚未在原帖中公布完整的代码仓库地址、最终模型参数量、训练数据集规模或具体的 benchmark 数据，标题中「GPT-2 scale」的目标与原文中 2300 万参数这一已确认里程碑之间仍存在较大差距。作者公开征求反馈、建议与协作，表示欢迎任何对底层 LLM 实现感兴趣的开发者参与项目。