语料库创建指南
核心思想: 在评估翻译方法之前,你需要一个评估语料库。本指南涵盖从零开始构建语料库的全过程——数据来源、格式要求、质量标准、许可证和向 Arena 贡献。
:::info 这不是翻译方法 本指南是许多方法的前置条件。一个优质的评估语料库是使其他一切成为可能的基础。即使只有 50 个精心挑选的句对也足以开启一个新的排行榜赛道。 :::
何时使用本指南
- 你想要向 Arena 排行榜添加新的语言对
- 你是语言教师,想要对学生翻译进行基准测试
- 你是社区语言工作者,可以获得双语材料
- 你是研究人员,需要为你的语言对建立标准化评估集
语料库格式
该工具接受简单的 JSON 格式:
my-corpus.json
{
"metadata": {
"name": "Quechua Dev v1",
"version": "1.0.0",
"source_language": "eng",
"target_language": "que",
"entry_count": 75,
"license": "CC-BY-SA-4.0",
"author": "Your Name / Organization",
"description": "75 English-Quechua pairs from educational materials"
},
"entries": [
{
"id": 1,
"source": "Hello, how are you?",
"reference": "Allillanchu, imaynallan kashanki?"
},
{
"id": 2,
"source": "The sun is shining today",
"reference": "Kunan p'unchay inti k'anchashan"
}
]
}
数据来源
| 来源 | 质量 | 数量 | 许可证 |
|---|---|---|---|
| 教科书/教育材料 | 高(专家审核) | 低-中 | 与出版商确认 |
| 政府文件 | 中(正式文体) | 中-高 | 通常为公有领域 |
| 双语词典 | 高(已验证条目) | 中 | 各不相同 |
| 社区长者/使用者 | 最高(母语直觉) | 低(时间有限) | 社区管理 |
| 宗教文本 | 中(领域特定) | 高 | 通常开放 |
| 现有语料库(Hansard、FLORES) | 中-高 | 高 | 检查许可证 |
| 手工制作 | 最高 | 低 | 你拥有所有权 |
质量标准
优质的评估语料库应具备:
- 内容多样性 — 不仅仅是问候语或简单短语。包括问题、命令、复杂句子、领域特定术语
- 已验证的翻译 — 至少由一名流利使用者审核,理想情况下由两名审核
- 一致的正字法 — 整个语料库使用一种文字、一种拼写约定
- 独立来源 — 不源自翻译方法将用于训练的相同文本
- 明确的许可证 — 明确允许用于评估的许可证
:::danger 语料库污染 评估语料库必须独立于任何训练数据。如果某个方法使用来自评估语料库的数据进行训练或提示,该方法将被取消资格。从一开始就设计你的语料库为保留集。 :::
规模指南
| 规模 | 功能 |
|---|---|
| 50 条条目 | 最小可行评估 — 足以检测质量的显著差异 |
| 100–200 条条目 | 可靠排名 — 足以进行方法间的统计显著性检验 |
| 500+ 条条目 | 研究级别 — 稳健的复合分数、置信区间 |
| 1,000+ 条条目 | 黄金标准 — 相当于 FLORES devtest 覆盖范围 |
从小规模开始。50 条条目足以开启排行榜赛道。你可以稍后扩展。
向 Arena 贡献
- 创建你的语料库 — 采用上述 JSON 格式
- 为其授权 — 推荐使用 CC BY-SA 4.0 进行开放评估;CC BY-NC-SA 4.0 用于受限使用
- 提交 PR 到 eval harness 仓库,将你的语料库放在
data/ - 排行榜自动开启 — 一旦语料库被合并,你的语言对的排行榜就会自动开启
对于土著语言社区
语料库创建是语言主权的体现。你的语料库,你的条款:
- 你决定许可证和访问条件
- 你可以贡献一个公开开发集(用于方法开发),同时保留一个秘密测试集(用于官方评估)由社区控制
- 主权框架在每个层级保护你的数据
即使是一个小型语料库也是战略资产 — 它是决定你的语言"足够好"意味着什么的基准。