突尼斯学生开源阿拉伯方言 Darija 机器翻译流水线与平行语料库

一位来自突尼斯的 18 岁独立研究者近日在 Reddit r/MachineLearning 发布了面向突尼斯阿拉伯语方言 Tunisian Darija（以 Arabizi 拉丁-数字混合形式书写）的开源机器翻译流水线与配套平行语料库。整套工作从零搭建，目标是补齐该方言在开源 NLP 生态中长期缺位的空白。

项目背景

Tunisian Darija 在日常书写中通常使用 Arabizi 体系，即用拉丁字母加上 3、7、9、5 等数字替代阿拉伯语特有音位。现有的通用阿拉伯语 NLP 工具往往将其路由到现代标准阿拉伯语（MSA）模型中处理，对这种非标准拼写方式的适配能力有限。作者在调研后表示，据其所知，此前并不存在专门针对该方言的开源平行语料库或从零训练的基线模型。

技术方案

整套工作全部开源，包含以下组件：

Arabizi 感知的 SentencePiece BPE 分词器：将 3、7、9、5 等数字作为受保护符号保留，共享词表规模约 16k。
约 15.6M 参数的 encoder-decoder Transformer：完全从零训练，没有依赖任何预训练语言模型；先在清洗后的摩洛哥 Darija 数据上做迁移学习，再在手工标注的突尼斯 Darija 句对上微调。
完整的数据清洗、训练与评估流水线。

当前结果与局限

作者坦承首版模型在小型锁定测试集上的 BLEU 仅为 3.89，并明确指出这一低分主要源于数据规模——当前手工整理的平行句对仅约 553 条，而非模型架构本身的问题。他将 3.89 视作「首个诚实的待超越基线」，随着语料扩充后续版本将持续迭代。

后续计划

作者计划将该项目扩展为一个规模更大、伦理合规的 Darija 语料库，具体措施包括：

现场采集过程中留存每位贡献者的知情同意记录；
为每条平行句对标注来源与授权信息（provenance tagging）；
建立贡献审核流程，以保证数据质量与合规性。

目前作者在 GitHub 与 Hugging Face 上已分别开源代码仓库与模型、数据集，并向社区征集技术反馈、方言数据贡献以及低资源/方言阿拉伯语机器翻译方向的协作。

资源链接

GitHub 仓库：https://github.com/Dhiadev-tn/darija-translator
Hugging Face 数据集：https://huggingface.co/datasets/Dhiadev-tn/tunisian-darija-english
Hugging Face 模型：https://huggingface.co/Dhiadev-tn/darija-translator