桃子桃子快讯
返回首页
开源

AMALIA 开源模型发布,主打欧洲葡萄牙语

欧洲葡萄牙语开源模型 AMALIA 上线 9B 文本与 10B 多模态版本,同步开源训练与评测数据集。

2026.07.02 · 周四3 分钟阅读

欧洲葡萄牙语开源大模型 AMALIA 在 Hugging Face 公布了 6 月版本,涵盖 9B 文本生成、10B 视觉语言模型、4B 内容审核模型以及配套训练与评估数据集,合计 9 个模型仓库和 81 个数据集,规模较此前 12 月版本有明显扩充。

模型阵容

本次更新主打 AMALIA LLM 0626 与 AMALIA VL 0626 两条产品线,并保留旧版本作为对照:

  • 文本生成方向:AMALIA-9B-0626-SFT 与 AMALIA-9B-0626-DPO 两个 9B 权重,分别对应监督微调(SFT)与直接偏好优化(DPO)阶段;另有 12 月发布的 AMALIA-9B-1225-SFT / DPO 两个 9B 旧版本。
  • 多模态方向:AMALIA-VL-SFT 与 AMALIA-VL-DPO 为 10B 参数的「图像-文本到文本」模型,可处理图像与文本联合输入。
  • 语音方向:AMALIA-SFT-FALA 自动语音识别模型,搭配 AMALIA-speech-encoder 语音编码器。
  • 内容安全:amaliaguard-4b 是 4B 参数的文本生成模型,可用于输入或输出审核。

数据集与训练语料

项目方同步开源了完整的训练与评测数据。文本方向 SFT 数据集包含 5.12M 样本,DPO 数据集 424k;视觉语言模型配套 4.75M SFT 样本与 231k DPO 样本,便于研究者复现训练流程。

在评测维度上,AMALIA 还发布了 81 个面向葡萄牙语的本地化基准,覆盖视觉问答、图表理解、文档 OCR 等多种任务:

  • 视觉问答类:OCRBench-PT(999 条)、TextVQA-PT(5k)、AI2D-PT(3.09k)、SEED-Bench-PT(18k)、RefCOCO-PT(5k)、RealWorldQA-PT(650)、POPE-PT(9k)。
  • 图表与文档理解:ChartQA-PT(2.5k)。
  • 通用语料:CARAVELA(13k)、persona_nemotron(102k)等资源。

定位与意义

AMALIA 是目前少有的明确以欧洲葡萄牙语(区别于巴西葡萄牙语)为目标的开源权重模型,覆盖文本、语音、视觉语言与安全审核多任务。其 9B 与 10B 的参数规模介于轻量级实验模型与主流大模型之间,便于学术团队与中小企业本地化部署。对于葡语 NLP 社区而言,AMALIA 提供了一组可直接下载的权重与配套基准,降低了欧洲葡萄牙语下游应用的开发门槛。

信源