语料库合作战略:通过学术语言学系建立评估语料库
目的。 本文档提供了通过语言学系合作建立机器翻译评估语料库的完整工作流程。它涵盖了我们需要该系交付的内容、语料库必须具备的样子、它如何被密码学密封、沙箱评估如何工作,以及该系获得的回报。这是你带到与潜在学术合作伙伴的会议上的文档。
受众。 大学系主任、首席研究员、研究协调员和具有活跃语言文献记录或自然语言处理项目的大学的土著语言项目主任。
相关文档:
- 发言人验证协议 — 对双语发言人的要求,以标记现有翻译(质量评级、linter 验证、FST 审查)
- 基准规范 — 语料库、运行卡和评估协议的完整技术规范
- 数据主权 — OCAP®、CARE 以及为什么所有权转移很重要
最后更新:2026-06-07
1. 本合作产生的内容
一个密封的评估语料库:一组精选的平行文本对(源语言 → 目标语言),成为衡量机器翻译质量的基准真实。方法在沙箱中针对此语料库进行测试 — 开发者永远看不到测试数据。
该合作产生三个工件:
| 工件 | 它是什么 | 谁控制它 |
|---|---|---|
| 开发语料库 | 100–200+ 个公开平行文本对,用于方法开发 | 公开发布(CC BY-NC-SA 4.0 或等效许可) |
| 黄金标准测试集 | 50–150 个秘密平行文本对,用于官方评估 | 社区治理组织(密码学密封) |
| 诊断测试套件 | 10–50 个针对性对比对,测试特定语言现象 | 公开发布 |
开发语料库使任何人都能构建翻译方法。黄金标准集确保这些方法得到诚实的测试。诊断套件捕捉特定的失败模式(例如,"这个系统能处理显著性吗?")。
2. 该系需要做什么
阶段 1:语料库设计(2–4 周,研究人员时间)
负责人: 具有目标语言专业知识的 PI 或博士后。
-
选择源材料领域。 选择 4–6 个语言社区实际需要翻译的真实领域。我们的分类法支持 16 个领域(见基准规范 §2.7):
优先级 领域 原因 🔴 高 edu— 教育教科书、课程 — 直接社区需求 🔴 高 gov— 政府乐队委员会文件、政策 — 实际日常需求 🔴 高 medical— 卫生诊所登记表、卫生信息 — 安全关键 🟡 中 conv— 会话日常言语 — 建立基线流畅性 🟡 中 legal— 法律权利文件、条约 — 社区意义 🟢 低 literary— 文学/文化故事、口头历史 — 文化保护 -
起草语料库设计文档,指定:
- 每个分段的目标大小(开发、黄金标准、诊断)
- 难度等级分布(见 §3.3 下文)
- 寄存器和领域覆盖
- 源句子选择标准(无合成文本、无仅限圣经)
- 发言人招募计划
-
将设计提交给我们进行审查。 我们根据语料库模式(基准规范 §2)验证它,并在 1 周内返回反馈。
阶段 2:源句子创建(4–8 周,发言人时间)
负责人: 与双语发言人合作的研究协调员。
-
跨计划的领域和难度等级生成或选择源句子。源可以是:
- 现有已发布的双语材料(教科书、政府文件)
- 新引出的句子,旨在涵盖特定的语言现象
- 改编自真实文件(乐队委员会议程、诊所表格、教育材料)
-
每个源句子必须具有:
- 领域标签(来自 16 代码分类法)
- 寄存器标签(会话、正式、技术、仪式、教育)
- 上下文标签(问候、声明、问题、指令、叙述、标签、错误)
- 估计难度等级(1–5,见 §3.3)
- 来源标签(教科书、引出、语料库、黄金标准)
-
将每个源句子翻译成目标语言,由双语发言人执行。每个条目的多个参考翻译很有价值,但不是必需的。
-
可选地,为每个参考翻译添加形态分析:
- 行间注释(形态素逐个分解)
- FST 标签字符串(如果该语言存在 FST)
- 翻译者关于方言变体、歧义或文化背景的注释
阶段 3:质量保证(2–4 周)
负责人: 具有目标语言专业知识的语言学家。
-
交叉审查。 每个翻译应由至少一位未产生原始翻译的额外双语发言人审查。审查者检查:
- 翻译准确吗?
- 听起来自然吗?
- 难度评级正确吗?
- 是否有应该注明的可接受变体?
-
通过我们的模式验证器运行。 我们提供一个脚本,根据条目模式(基准规范 §2.2)验证语料库。它检查:
- 必需字段存在
- 领域代码有效
- 难度等级是整数 1–5
- 没有重复的 ID
- 字符编码(UTF-8 NFC 规范化)
-
如果该语言存在 FST, 通过它运行参考翻译。参考中的每个单词都应该是 FST 有效的。不是的单词(借词、新词、专有名词)应该在允许列表中记录。
阶段 4:分段和密封(1 周,我们的工程)
负责人: Champollion 团队,由系审查。
-
分层分割。 我们使用确定性随机抽样(种子已记录、可重现)将语料库分割成分段:
分段 目标大小 访问权限 development60% 的条目(最少 100) 公开 gold_standard30% 的条目(最少 50) 秘密、密封 held_out10% 的条目(最少 10) 秘密、密封、激活前永不使用 分割保留难度等级分布(分层抽样),以便每个分段在各等级中具有比例代表。
-
黄金标准和保留分段的密码学密封:
1. SHA-256 hash of each entry (source + reference + metadata)2. SHA-256 hash of the complete segment file3. Segment file encrypted with AES-256-GCM4. Encryption key split using Shamir Secret Sharing (2-of-3 threshold)5. Key shares distributed to:- Share 1: Community governance organization- Share 2: Academic department partner- Share 3: Champollion project (escrow)6. Hash manifest published to a public commit (proves the corpus existedat a specific time without revealing its contents) -
开发分段被提交到公开存储库并以完整许可发布。
-
诊断分段也是公开的 — 它测试特定的语言现象(见 §3.4)。
阶段 5:集成和启动(1–2 周,我们的工程)
-
工具配置。 我们将该语言添加到评估工具中:
- 创建或验证语言卡
- 在数据集注册表中注册语料库
- 配置 LYSS 指标(如果 FST 可用则为 LYSS-fst,如果 linter 规则存在则为 LYSS-eq)
- 选择默认评分配置文件(如果 FST 可用则为配置文件 A,否则为配置文件 B)
-
基线基准。 我们针对开发分段运行 12 模型扫描,以用初始分数填充排行榜。
-
公开宣布。 该语言出现在 Arena 排行榜上,具有实时开发分段基准。该系被列为语料库合作伙伴。
3. 语料库必须具备的样子
3.1 格式
每个语料库文件都是遵循基准规范 §2.1–§2.2 中模式的 JSON 文档:
{
"dataset": {
"id": "crk-ualberta-v1",
"version": "1.0",
"language_pair": "EN→CRK",
"source_language": "en",
"target_language": "crk",
"created": "2026-09-15",
"license": "CC-BY-NC-SA-4.0",
"provenance": ["textbook", "elicited", "gold_standard"]
},
"entries": [
{
"id": 1,
"source": "I see the dog",
"reference": "niwâpamâw atim",
"segment": "development",
"difficulty": 2,
"provenance": "textbook",
"register": "conversational",
"context": "declaration",
"domain": "edu",
"morphological_analysis": "ni-wâpam-âw atim | 1sg-see.TA-3sg.DIR dog.AN",
"notes": "Animate noun (atim); direct form because speaker is proximate"
}
]
}
3.2 最小大小要求
| 分段 | 最少条目数 | 推荐 |
|---|---|---|
development | 100 | 200–300 |
gold_standard | 50 | 100–150 |
diagnostic | 10 | 30–50 |
held_out | 10 | 20–30 |
| 总计 | 170 | 350–530 |
3.3 难度分布
语料库必须包括所有五个难度等级的条目,权重偏向等级 2–4:
| 等级 | 描述 | 目标分布 |
|---|---|---|
| 1 — 基础词汇 | 单个单词、常见问候、数字 | 10–15% |
| 2 — 简单句子 | SVO、现在时 | 25–30% |
| 3 — 中等复杂性 | 过去/未来时、所有格、生命性 | 30–35% |
| 4 — 复杂形态 | 显著性、被动、连接词顺序、相对从句 | 15–20% |
| 5 — 高级 | 多从句、正式寄存器、仪式、习语 | 5–10% |
3.4 诊断测试套件
诊断分段使用对比对测试特定的语言现象:一个正确的翻译和一个最小差异的不正确翻译。如果系统的指标对正确的翻译评分更高,测试通过。
对于多综合语言,诊断套件应针对:
| 现象 | 示例(Cree) | 它测试什么 |
|---|---|---|
| 生命性一致 | atim (AN) vs. maskisin (IN) — 不同的动词形式 | 系统知道哪些名词是有生命的吗? |
| 显著性 | 近称 vs. 远称第三人称 | 它追踪第三人称等级吗? |
| 反向标记 | 直接 vs. 反向动词形式 | 它处理患者优于施事者吗? |
| 连接词/独立 | 主句 vs. 从句动词顺序 | 它使用正确的动词范式吗? |
| 包含/排斥 | "我们(包括你)" vs. "我们(不包括你)" | 它区分第一人称复数形式吗? |
对于其他语言族,确定 3–5 个最具诊断性的现象,以区分有能力的翻译和无能力的翻译。该系的语言学专业知识在这里至关重要 — 这些是只有专家才会知道编写的测试。
3.5 我们不想要的
| 反模式 | 原因 |
|---|---|
| 仅限圣经文本 | 古老的寄存器、礼仪词汇、公式化结构。OMT-1600 以这种方式评估了 1,560 种语言 — 我们故意避免它。 |
| 合成评估对 | LLM 生成的参考违反了评估的目的。参考必须是人工编写的。 |
| 单一寄存器语料库 | 全部正式或全部会话。真实世界的翻译跨越多个寄存器。 |
| 仅难度 1 | 单个单词和问候不测试翻译 — 它们测试词汇查找。 |
| 机器翻译的参考 | 使用 Google Translate 输出作为"参考"是循环的。 |
| 没有上下文标签的句子 | 我们需要知道交际功能以进行诊断分析。 |
4. 密码学密封和沙箱测试
4.1 为什么密封测试集?
传统的 ML 基准公开发布测试集。一旦发布,前沿 LLM 最终会在它们上训练(有意或通过网络抓取),使分数不可靠。对于土著语言数据,还有一个额外的关注:已发布的语言学数据可以在没有社区同意的情况下使用。
密封确保:
- 测试集完整性: 方法不能过拟合它们从未见过的数据
- 数据主权: 社区控制谁针对他们的数据进行评估
- 永久新鲜性: 测试集永远不会被污染
4.2 沙箱测试如何工作
Developer workflow:
1. Developer builds a translation method using the PUBLIC development corpus
2. Developer tests locally against the development segment (unlimited, self-serve)
3. When ready, developer submits their complete method (code + config + coaching data)
4. Governance org installs the method in the evaluation sandbox
5. Sandbox runs the method against the SEALED gold-standard test set
6. Only scores are returned to the developer
7. Developer never sees the source sentences or reference translations
The sandbox:
- Runs on governance-controlled infrastructure
- Has selective network access (LLM APIs only, no exfiltration)
- Produces a tamper-proof run card (SHA-256 hash of all inputs and outputs)
- Logs all execution for audit purposes
- Can be inspected by the governance org at any time
4.3 密钥管理
密封测试集的加密密钥使用 Shamir 秘密共享分割,阈值为 2-of-3:
| 份额持有者 | 角色 | 撤销权 |
|---|---|---|
| 社区治理组织 | 主要保管人 | 可以单方面撤销评估访问权限 |
| 学术系合作伙伴 | 共同保管人 | 可以参与密钥重建 |
| Champollion 项目 | 托管 | 不能单独访问数据;确保其他方不可用时的连续性 |
任何 2 个 3 份额重建密钥。这意味着:
- 社区 + 系可以在没有 Champollion 的情况下访问数据
- 社区 + Champollion 可以在没有系的情况下访问数据
- Champollion 单独永远不能访问数据
4.4 哈希清单
当语料库被密封时,哈希清单被发布到公开 Git 提交:
{
"corpus_id": "crk-ualberta-v1",
"seal_date": "2026-09-15T00:00:00Z",
"segments": {
"development": {
"entry_count": 200,
"sha256": "a3f7c...",
"access": "public"
},
"gold_standard": {
"entry_count": 100,
"sha256": "b8d2e...",
"access": "sealed",
"key_scheme": "shamir-2-of-3"
},
"held_out": {
"entry_count": 20,
"sha256": "c9e4f...",
"access": "sealed",
"key_scheme": "shamir-2-of-3"
},
"diagnostic": {
"entry_count": 30,
"sha256": "d1a3b...",
"access": "public"
}
},
"total_entries": 350,
"manifest_sha256": "e2b5c..."
}
这证明:
- 语料库在特定日期存在
- 它具有已知的大小和结构
- 对密封分段的任何修改都会破坏哈希链
- 社区可以验证他们的数据未被篡改
5. 该系获得的内容
5.1 研究基础设施
| 资产 | 描述 |
|---|---|
| 评估工具 | 为他们的语言工作、经过测试的评估框架 — 节省数月的工具构建 |
| LYSS 指标 | 为他们的语言配置的语言特定评估指标(LYSS-fst、LYSS-eq、LYSS-sem) — 如果 FST 和字典资源存在 |
| 排行榜 | 显示其语言对最先进技术状态的公开、实时排行榜 |
| 基线基准 | 12 模型扫描,提供即时、可发布的基线 |
| 诊断测试套件 | 针对特定语言现象的针对性测试 — 可重用于其他评估 |
5.2 出版物
语料库构建和评估结果支持多个出版物:
| 论文 | 场地 | 系角色 |
|---|---|---|
| 语料库构建方法 | LREC、ComputEL | 主要或共同作者 |
| 基线评估结果 | ACL、EMNLP | 共同作者 |
| LYSS 指标验证 | WMT 指标共享任务 | 共同作者 |
| 诊断测试套件设计 | SIGMORPHON、NAACL | 主要或共同作者 |
| 语言特定 NLP 资源 | 语言特定场地 | 主要作者 |
5.3 拨款定位
该合作为拨款提案提供具体产出:
- "用于 [语言] MT 的开源评估基础设施" — 可演示的可交付成果
- "土著语言学数据的密码学数据主权" — 新颖、可发布
- "具有实时排行榜的社区治理基准" — 持续影响指标
- "[语言] 的 OMT-1600 / Google Translate 的独立评估" — 及时、高可见性
5.4 社区影响
- 语言社区获得独立评估能力 — 他们可以评估任何 MT 系统(Google、Meta 或自定义)是否真正适用于他们的语言
- 社区通过密码学密钥保管控制测试数据
- 通过基准证明的任何方法将所有权转移给社区(见基准规范 §8.3)
- 来自已部署方法的收入流向社区(90/10 分割)
5.5 它对该系的成本
| 组件 | 估计成本 | 谁支付 |
|---|---|---|
| PI/博士后时间(设计、监督) | ~40 小时 | 系(或拨款资助) |
| 发言人补偿(翻译) | $2,500–6,000 | 拨款资助或 Champollion 资助 |
| 发言人补偿(审查) | $500–1,500 | 拨款资助或 Champollion 资助 |
| 研究协调员时间 | ~20 小时 | 系 |
| 工程、基础设施、工具 | $0 | Champollion 项目 |
我们以零成本向该系提供所有工程、工具配置、LYSS 指标设置、排行榜集成和持续基础设施。该系的贡献是语言学专业知识和发言人访问权限。
6. 时间表
| 阶段 | 持续时间 | 关键里程碑 |
|---|---|---|
| 1:语料库设计 | 2–4 周 | 设计文档已批准 |
| 2:源句子 + 翻译 | 4–8 周 | 原始语料库已完成 |
| 3:质量保证 | 2–4 周 | 交叉审查、模式验证 |
| 4:密封 | 1 周 | 黄金标准密封、哈希清单已发布 |
| 5:集成 | 1–2 周 | 语言在排行榜上实时,具有基线 |
| 总计 | 10–19 周 | 实时排行榜,具有密封评估 |
7. 如何开始
-
联系我们 — [项目电子邮件/联系方式]。我们将安排一个 30 分钟的电话,讨论你的语言、可用资源和合作物流。
-
我们提供:
- 本文档
- 语料库模式和验证工具
- 我们现有 Cree (CRK) 语料库的示例
- 草稿语料库设计模板
-
你提供:
- 一位 PI 或博士后领导语言学工作
- 访问双语发言人的权限(或招募他们的计划)
- 关于可用资源的信息(FST、字典、现有语料库)
- 数据治理的机构批准(OCAP® 合规或等效)
-
我们共同设计语料库 — 领域选择、难度分布、诊断测试、时间表和预算。
-
工作开始。 我们每周检查一次。该系对语言学决策拥有完全自主权;我们处理所有工程。
8. 常见问题
"我们已经有一个平行语料库。我们可以使用它吗?"
可以 — 如果语料库具有清晰的来源、是人工编写的,并且许可证允许在评估中使用。我们将帮助你将其格式化为我们的模式、添加缺失的元数据并集成它。现有语料库可以大大加快时间表(跳过阶段 2 或将其减少为间隙填充练习)。
"我们的语言没有 FST。"
没关系。LYSS-fst(形态有效性)需要 FST,但工具在没有它的情况下使用配置文件 B 权重(chrF++、BLEU、COMET、行为指标)工作。如果相关语言存在 GiellaLT FST,我们可能能够改编它。如果没有,语料库仍然能够进行有价值的评估 — 只是没有形态有效性门。
"我们的发言人使用非拉丁文字。"
完全支持。语料库模式处理任何 Unicode 文字。我们为 Cree 设计了 SRO(标准罗马正字法)和音节文字,但相同的基础设施适用于天城文、阿拉伯文字、CJK、埃塞俄比亚文或任何其他书写系统。
"方言变体呢?"
标记它。语料库条目模式包括一个 notes 字段用于方言信息。如果表示多个方言,请记录它们。linter 的等价类(LYSS-eq)可以配置为接受方言变体作为等价。诊断测试套件可以包括方言特定的对比。
"谁拥有语料库?"
语言社区,通过治理组织。该系被列为研究合作伙伴。Champollion 持有托管密钥份额以确保操作连续性,但不能单独访问密封数据。开发分段在社区指定的 Creative Commons 许可证下发布。
"如果我们想停止怎么办?"
社区可以通过拒绝重建加密密钥随时撤销评估访问权限。密封数据永远不会被暴露。开发分段已发布,在其许可证下保持公开。该系的研究产出(出版物、演讲)无论如何都是他们的。
"如果治理组织还不存在怎么办?"
我们可以在没有治理组织的情况下开始阶段 1–3(语料库设计、创建、QA)。密封(阶段 4)需要确定密钥保管人。在此期间,该系可以与 Champollion 项目一起充当共同保管人,理解当建立社区治理组织时保管权转移给它。
附录:标记与语料库构建
本文档涵盖语料库构建 — 创建形成评估基准真实的平行文本对。标记(形态注释、行间注释、FST 标签字符串)是一项单独的活动,丰富语料库但不是基本评估所必需的。
| 活动 | 必需吗? | 它启用什么 |
|---|---|---|
| 语料库构建(本文档) | ✅ 必需 | 基本评估:chrF++、精确匹配、COMET、行为指标 |
| FST 覆盖检查 | 🟡 可选 | LYSS-fst 形态有效性指标 |
| 形态注释 | 🟡 可选 | morphological_accuracy 指标(评分规范 §2.2) |
| Linter 等价规则 | 🟡 可选 | LYSS-eq 等价匹配指标 |
| 语义验证器规则 | 🟡 可选 | LYSS-sem 语义验证指标 |
| 发言人质量评级 | 单独活动 | 指标验证(见发言人验证协议) |
标记和发言人验证由单独的文档涵盖,可以与语料库构建并行或之后进行。