桃子桃子快讯
返回首页
开源

Tessera 1B:从零训练的开源基座模型,仅花 315 美元

美国独立 AI 安全组织 AIIT-THRESHOLD 发布 1B 参数语言模型 Tessera 1B,开源权重与训练数…

2026.07.02 · 周四4 分钟阅读

美国独立 AI 安全研究组织 AIIT-THRESHOLD 在 Hacker News 发布 Tessera 1B:一个约 10 亿参数的基座语言模型,使用单张 H100 SXM 80GB 显卡训练约 145.7 小时(约 6 天),算力成本约 315 美元,项目方同时开源了模型权重、训练数据与对齐数据集。区别于多数仅放权重的发布,Tessera 1B 把数据透明度也纳入了发布范围。

模型与训练细节

Tessera 1B 是从零训练的自定义解码器 Transformer(作者称其为 ProtoGPT),并非 Llama、Qwen 等主流架构的衍生品,因此无法通过 transformers.AutoModel 直接加载。项目方在仓库中提供了 model.py、forge64k 分词器与 lora.py 等加载脚本,并附带 safetensors 转换版本以便跨框架使用。核心参数如下:

  • 参数总量:约 10.13 亿,词嵌入与输出头共享
  • 层数 / 隐藏维度 / 注意力头:32 / 1536 / 16(head_dim 96)
  • 上下文长度:4096,词表 65536
  • 激活 / 归一化:GELU(4× MLP 扩展)/ RMSNorm(eps 1e-6)
  • 位置编码:可学习绝对位置

训练语料为团队手工策划的 AIIT-Tessera24B-dataset,包含网页、书籍与学术文本,共 245 亿 token,约 1 个 epoch;Chinchilla 比例约 24 倍 token/参数,略高于 20 倍经验最优值。优化器使用 AdamW,学习率 2e-4 → 1e-1e-5,含 200 步 warmup 与 0.1 权重衰减;全局 batch 65,536 tokens / step。

评估:刻意保持诚实

项目方没有跑 MMLU、HellaSwag、ARC、GSM8K 等标准基准,而是只公布了一个严谨指标:语言模型 loss,约 3.20 nats(perplexity ≈ 24.5)。在 TruthfulQA 的小型探针测试中,基座模型基本停留在随机水平且容易离题。作者明确指出 Tessera 1B「不是聊天助手、不是推理模型,也不能直接当 ChatGPT 用」,其定位是一个干净、可继续 SFT 的起点,而非成品对话系统。

附带的两套 SFT 适配器

仓库内置两个手写 LoRA 适配器(r16 / α32,约 1260 万可训练参数),由约 1031 条人工撰写的样例训练得到,区别如下:

  • tessera1b_sft_v12i_ep4:推荐版本,语气更温暖连贯。回答宠物死亡时表达共情,对错误信息直接否定,对「停药」类诱导不予附和;但在被问到 12×7 时仍可能答错。
  • tessera1b_sft_v7_ep6:早期更简短的版本,风格直白不会谄媚,回答 12×7 反而能给出 56。

未被选中的某阶段曾因对宠物死亡回以「Good news.」以及在「停药」测试中让步而被剔除,作者公开了未通过的理由。两个适配器在回答来源时都会署名「Buddy here. Rhet made me, in Oklahoma.」。

数据与许可说明

Tessera 1B 的训练语料声明仅含网页、书籍与学术文本,没有模型对话转写,也没有合成推理轨迹。项目方承认其中包含 Cosmopedia-v2 与 Magicoder-OSS-Instruct 两份本就由 LLM 合成 的公开数据集,且近重复过滤仅做了精确匹配,未完成模糊去重。模型权重使用 Apache-2.0 许可证(因从零训练,无上游模型许可证继承问题),训练数据按各来源原始许可证使用。

信源