跳转到主要内容

语料库创建指南

核心思想: 在评估翻译方法之前,你需要一个评估语料库。本指南涵盖从零开始构建语料库的全过程——数据来源、格式要求、质量标准、许可证和向 Arena 贡献。

:::info 这不是翻译方法 本指南是许多方法的前置条件。一个优质的评估语料库是使其他一切成为可能的基础。即使只有 50 个精心挑选的句对也足以开启一个新的排行榜赛道。 :::

何时使用本指南

  • 你想要向 Arena 排行榜添加新的语言对
  • 你是语言教师,想要对学生翻译进行基准测试
  • 你是社区语言工作者,可以获得双语材料
  • 你是研究人员,需要为你的语言对建立标准化评估集

语料库格式

该工具接受简单的 JSON 格式:

my-corpus.json
{
"metadata": {
"name": "Quechua Dev v1",
"version": "1.0.0",
"source_language": "eng",
"target_language": "que",
"entry_count": 75,
"license": "CC-BY-SA-4.0",
"author": "Your Name / Organization",
"description": "75 English-Quechua pairs from educational materials"
},
"entries": [
{
"id": 1,
"source": "Hello, how are you?",
"reference": "Allillanchu, imaynallan kashanki?"
},
{
"id": 2,
"source": "The sun is shining today",
"reference": "Kunan p'unchay inti k'anchashan"
}
]
}

数据来源

来源质量数量许可证
教科书/教育材料高(专家审核)低-中与出版商确认
政府文件中(正式文体)中-高通常为公有领域
双语词典高(已验证条目)各不相同
社区长者/使用者最高(母语直觉)低(时间有限)社区管理
宗教文本中(领域特定)通常开放
现有语料库(Hansard、FLORES)中-高检查许可证
手工制作最高你拥有所有权

质量标准

优质的评估语料库应具备:

  1. 内容多样性 — 不仅仅是问候语或简单短语。包括问题、命令、复杂句子、领域特定术语
  2. 已验证的翻译 — 至少由一名流利使用者审核,理想情况下由两名审核
  3. 一致的正字法 — 整个语料库使用一种文字、一种拼写约定
  4. 独立来源 — 不源自翻译方法将用于训练的相同文本
  5. 明确的许可证 — 明确允许用于评估的许可证

:::danger 语料库污染 评估语料库必须独立于任何训练数据。如果某个方法使用来自评估语料库的数据进行训练或提示,该方法将被取消资格。从一开始就设计你的语料库为保留集。 :::

规模指南

规模功能
50 条条目最小可行评估 — 足以检测质量的显著差异
100–200 条条目可靠排名 — 足以进行方法间的统计显著性检验
500+ 条条目研究级别 — 稳健的复合分数、置信区间
1,000+ 条条目黄金标准 — 相当于 FLORES devtest 覆盖范围

从小规模开始。50 条条目足以开启排行榜赛道。你可以稍后扩展。

向 Arena 贡献

  1. 创建你的语料库 — 采用上述 JSON 格式
  2. 为其授权 — 推荐使用 CC BY-SA 4.0 进行开放评估;CC BY-NC-SA 4.0 用于受限使用
  3. 提交 PReval harness 仓库,将你的语料库放在 data/
  4. 排行榜自动开启 — 一旦语料库被合并,你的语言对的排行榜就会自动开启

对于土著语言社区

语料库创建是语言主权的体现。你的语料库,你的条款:

  • 你决定许可证和访问条件
  • 你可以贡献一个公开开发集(用于方法开发),同时保留一个秘密测试集(用于官方评估)由社区控制
  • 主权框架在每个层级保护你的数据

即使是一个小型语料库也是战略资产 — 它是决定你的语言"足够好"意味着什么的基准。

配合使用

  • 部分翻译 — 创建语料库就是人工翻译步骤
  • 回译 — 合成数据补充人工创建的语料库
  • 所有其他食谱 — 它们都需要评估语料库

另见