Tessera 1B：从零训练的开源基座模型，仅花 315 美元

美国独立 AI 安全研究组织 AIIT-THRESHOLD 在 Hacker News 发布 Tessera 1B：一个约 10 亿参数的基座语言模型，使用单张 H100 SXM 80GB 显卡训练约 145.7 小时（约 6 天），算力成本约 315 美元，项目方同时开源了模型权重、训练数据与对齐数据集。区别于多数仅放权重的发布，Tessera 1B 把数据透明度也纳入了发布范围。

模型与训练细节

Tessera 1B 是从零训练的自定义解码器 Transformer（作者称其为 ProtoGPT），并非 Llama、Qwen 等主流架构的衍生品，因此无法通过 transformers.AutoModel 直接加载。项目方在仓库中提供了 model.py、forge64k 分词器与 lora.py 等加载脚本，并附带 safetensors 转换版本以便跨框架使用。核心参数如下：

参数总量：约 10.13 亿，词嵌入与输出头共享
层数 / 隐藏维度 / 注意力头：32 / 1536 / 16（head_dim 96）
上下文长度：4096，词表 65536
激活 / 归一化：GELU（4× MLP 扩展）/ RMSNorm（eps 1e-6）
位置编码：可学习绝对位置

训练语料为团队手工策划的 AIIT-Tessera24B-dataset，包含网页、书籍与学术文本，共 245 亿 token，约 1 个 epoch；Chinchilla 比例约 24 倍 token/参数，略高于 20 倍经验最优值。优化器使用 AdamW，学习率 2e-4 → 1e-1e-5，含 200 步 warmup 与 0.1 权重衰减；全局 batch 65,536 tokens / step。

评估：刻意保持诚实

项目方没有跑 MMLU、HellaSwag、ARC、GSM8K 等标准基准，而是只公布了一个严谨指标：语言模型 loss，约 3.20 nats（perplexity ≈ 24.5）。在 TruthfulQA 的小型探针测试中，基座模型基本停留在随机水平且容易离题。作者明确指出 Tessera 1B「不是聊天助手、不是推理模型，也不能直接当 ChatGPT 用」，其定位是一个干净、可继续 SFT 的起点，而非成品对话系统。

附带的两套 SFT 适配器

仓库内置两个手写 LoRA 适配器（r16 / α32，约 1260 万可训练参数），由约 1031 条人工撰写的样例训练得到，区别如下：

tessera1b_sft_v12i_ep4：推荐版本，语气更温暖连贯。回答宠物死亡时表达共情，对错误信息直接否定，对「停药」类诱导不予附和；但在被问到 12×7 时仍可能答错。
tessera1b_sft_v7_ep6：早期更简短的版本，风格直白不会谄媚，回答 12×7 反而能给出 56。

未被选中的某阶段曾因对宠物死亡回以「Good news.」以及在「停药」测试中让步而被剔除，作者公开了未通过的理由。两个适配器在回答来源时都会署名「Buddy here. Rhet made me, in Oklahoma.」。

数据与许可说明

Tessera 1B 的训练语料声明仅含网页、书籍与学术文本，没有模型对话转写，也没有合成推理轨迹。项目方承认其中包含 Cosmopedia-v2 与 Magicoder-OSS-Instruct 两份本就由 LLM 合成的公开数据集，且近重复过滤仅做了精确匹配，未完成模糊去重。模型权重使用 Apache-2.0 许可证（因从零训练，无上游模型许可证继承问题），训练数据按各来源原始许可证使用。