AMALIA 开源模型发布，主打欧洲葡萄牙语

欧洲葡萄牙语开源大模型 AMALIA 在 Hugging Face 公布了 6 月版本，涵盖 9B 文本生成、10B 视觉语言模型、4B 内容审核模型以及配套训练与评估数据集，合计 9 个模型仓库和 81 个数据集，规模较此前 12 月版本有明显扩充。

模型阵容

本次更新主打 AMALIA LLM 0626 与 AMALIA VL 0626 两条产品线，并保留旧版本作为对照：

文本生成方向：AMALIA-9B-0626-SFT 与 AMALIA-9B-0626-DPO 两个 9B 权重，分别对应监督微调（SFT）与直接偏好优化（DPO）阶段；另有 12 月发布的 AMALIA-9B-1225-SFT / DPO 两个 9B 旧版本。
多模态方向：AMALIA-VL-SFT 与 AMALIA-VL-DPO 为 10B 参数的「图像-文本到文本」模型，可处理图像与文本联合输入。
语音方向：AMALIA-SFT-FALA 自动语音识别模型，搭配 AMALIA-speech-encoder 语音编码器。
内容安全：amaliaguard-4b 是 4B 参数的文本生成模型，可用于输入或输出审核。

数据集与训练语料

项目方同步开源了完整的训练与评测数据。文本方向 SFT 数据集包含 5.12M 样本，DPO 数据集 424k；视觉语言模型配套 4.75M SFT 样本与 231k DPO 样本，便于研究者复现训练流程。

在评测维度上，AMALIA 还发布了 81 个面向葡萄牙语的本地化基准，覆盖视觉问答、图表理解、文档 OCR 等多种任务：

视觉问答类：OCRBench-PT（999 条）、TextVQA-PT（5k）、AI2D-PT（3.09k）、SEED-Bench-PT（18k）、RefCOCO-PT（5k）、RealWorldQA-PT（650）、POPE-PT（9k）。
图表与文档理解：ChartQA-PT（2.5k）。
通用语料：CARAVELA（13k）、persona_nemotron（102k）等资源。

定位与意义

AMALIA 是目前少有的明确以欧洲葡萄牙语（区别于巴西葡萄牙语）为目标的开源权重模型，覆盖文本、语音、视觉语言与安全审核多任务。其 9B 与 10B 的参数规模介于轻量级实验模型与主流大模型之间，便于学术团队与中小企业本地化部署。对于葡语 NLP 社区而言，AMALIA 提供了一组可直接下载的权重与配套基准，降低了欧洲葡萄牙语下游应用的开发门槛。