评估语料库设计框架
版本: 1.0
状态: 草稿
目的: 一套系统化的方法论,用于构建能够产生有效、可靠且语言学上有意义的翻译质量评估的评估语料库。这是 Champollion 评估数据集如何设计、构建和维护的权威来源。
1. 设计原则
1.1 — 为什么不使用公开基准?
公开平行语料库(FLORES+、Tatoeba、WMT 测试集、OPUS)可用于开发和调试,但被排除在官方排行榜评估之外。原因很直接:
污染。 前沿大语言模型在海量网络爬取数据上训练。任何曾经公开存在的平行文本——尤其是在精心策划、广泛引用的基准数据集中——很可能已在其训练数据中。当你在 FLORES+ 上评估 GPT-4o 并获得 85 chrF++ 时,你无法区分"模型擅长翻译"和"模型记住了这些特定句子对"。这不是理论上的担忧——研究已证明机器翻译基准上存在可测量的污染效应。
对于 Champollion,这尤为重要,因为:
- 我们的排行榜主要比较基于 LLM 的方法
- 我们的价值主张是诚实、严格的评估
- 我们的目标用户(语言社区)基于这些分数做出部署决策
1.2 — 核心要求
每个 Champollion 评估语料库必须满足:
| 要求 | 理由 |
|---|---|
| 人工编写 | 无合成数据。所有源文本和参考翻译必须由人类编写。LLM 可协助对齐和格式化,但不能生成内容。 |
| 不以平行形式公开可用 | 源文本可能是公开的;参考翻译可能是公开的;但具体的配对不能作为可下载的平行语料库存在。 |
| 来源可追踪 | 每个条目必须有文档化的来源:源文档、译者、许可证、日期。 |
| 语言学知情 | 覆盖范围必须由类型学特征指导,而非随机抽样。 |
| 领域分层 | 条目必须跨越定义的文本领域,具有受控的表示。 |
| 难度分级 | 条目必须根据结构复杂性分配难度等级(1–5)。 |
| 版本控制 | 语料库版本由内容哈希。分数仅在相同版本内可比较。 |
| 社区可审查 | 参考翻译必须可由语言社区成员审查。 |
2. 源文本选择
2.1 — 领域分类法
Champollion 评估实际部署环境中的翻译,而非学术练习。领域分类法反映翻译用户遇到的真实文本类型:
| 领域 | 代码 | 描述 | 示例来源 |
|---|---|---|---|
| 软件 UI | ui | 按钮标签、菜单项、错误消息、工具提示、入门流程 | 开源应用字符串、文档门户 |
| 官方/行政 | admin | 政府文件、法律通知、表格、政策声明 | 公开政府出版物、市政文件 |
| 教育 | edu | 教科书内容、课程材料、教学文本 | 已出版教育材料、教学指南 |
| 叙事/文学 | lit | 故事、文化文本、口头历史记录 | 已出版书籍、文化档案(获得许可) |
| 对话 | conv | 对话、聊天式交流、非正式书面交流 | 已出版对话语料库、剧本、访谈记录 |
| 技术 | tech | API 文档、README 文件、技术规范 | 开源项目文档 |
| 健康/医疗 | health | 患者面向的医疗信息、公共卫生消息 | 政府卫生出版物 |
| 新闻/新闻学 | news | 新闻文章、新闻稿、时事评论 | 社区报纸、土著媒体 |
2.2 — 领域分布
标准评估语料库应该力求以下分布。确切的百分比可能因语言对而异,取决于哪些文本类型与目标社区最相关:
| 领域 | 目标 % | 理由 |
|---|---|---|
| 软件 UI | 25% | Champollion CLI 用户的主要部署环境 |
| 官方/行政 | 15% | 具有法律含义的高风险翻译 |
| 教育 | 15% | 语言复兴的核心用例 |
| 叙事/文学 | 10% | 测试文化细微差别和文学语体 |
| 对话 | 10% | 测试非正式语体和自然语音模式 |
| 技术 | 10% | 测试精确性和术语一致性 |
| 健康/医疗 | 10% | 高风险,测试领域特定词汇 |
| 新闻/新闻学 | 5% | 测试当代词汇和中立语体 |
2.3 — 源文本选择标准
选择新语料库的源文本时:
-
许可证兼容性。 源文本必须在允许在评估语料库中使用的许可证下。优先选择 CC BY、CC BY-SA 或公有领域。记录许可证。
-
时效性。 优先选择过去 10 年内出版的文本。语言在演变——尤其是围绕技术、治理和医学的词汇。
-
语体多样性。 在每个领域内,寻求不同正式程度的文本。政府新闻稿(正式)和政府社交媒体帖子(非正式)都是
admin领域但语体不同。 -
文化相关性。 对于土著和少数民族语言,优先选择对社区重要的文本——土地管理文件、该语言的教育材料、文化保护文本——而非碰巧存在平行版本的文本。
-
无机器翻译来源。 如果"平行"文件是通过运行原文通过 Google 翻译然后进行后编辑创建的,则不可接受作为参考翻译。参考必须是独立的人工翻译。
3. 难度分级系统
3.1 — 等级定义
每个条目根据源文本的结构复杂性(而非翻译难度,后者因方法而异)分配难度等级(1–5)。
| 等级 | 标签 | 结构特征 |
|---|---|---|
| 1 | 初级 | 简单句。单个子句。现在时。常见词汇。无习语。无嵌套结构。 |
| 2 | 中级 | 复合句。两个由连接词连接的子句。过去/将来时。一些领域词汇。 |
| 3 | 高级 | 复杂句。从句、关系子句。混合时态。领域特定术语。被动语态。 |
| 4 | 专家 | 多个嵌套子句。法律/技术语体。条件结构。抽象概念。文化参考。 |
| 5 | 极端 | 密集散文,具有多个同时挑战:嵌套从句、代词指代歧义、文化习语、混合语体、罕见词汇。 |
3.2 — 语言学知情的难度因素
除了结构复杂性,难度还由源语言和目标语言之间的类型学距离调节。这些因素来自 WALS 类型学特征和语言卡的分类数据:
| 因素 | 低难度 | 高难度 |
|---|---|---|
| 语序 | 相同基本顺序(如 SVO→SVO) | 不同基本顺序(如 SVO→SOV) |
| 形态类型 | 相似类型(如分析型→分析型) | 不同类型(如分析型→多综合型) |
| 语法性 | 相同系统或无性 | 源无性,目标有复杂性系统 |
| 敬语/语体 | 无语体标记 | 目标有复杂语体系统(如日语、韩语) |
| 文字 | 相同文字 | 不同文字(需要音译) |
| 生命性 | 无生命性区分 | 目标有生命性基础的一致性(如克里语) |
| 证据性 | 无证据性 | 目标在语法上标记信息来源 |
3.3 — 等级分布
标准语料库应该大约有:
| 等级 | 目标 % | 理由 |
|---|---|---|
| 1 | 15% | 建立基线——即使是差的方法也应该处理这些 |
| 2 | 25% | 日常实用翻译 |
| 3 | 30% | 方法质量差异变得可见的地方 |
| 4 | 20% | 区分好方法和优秀方法 |
| 5 | 10% | 天花板测试——很少有方法能很好地处理这些 |
4. 参考翻译质量
4.1 — 译者要求
参考翻译必须由以下人员制作:
- 流利使用者 目标语言(L1 或等同水平)
- 识字 源语言和目标语言
- 领域意识 文本领域(医疗翻译用于卫生文本等)
- 独立 ——译者在翻译期间不能访问同一文本的任何 MT 输出
4.2 — 翻译简报
每个译者都会收到包含以下内容的简报:
- 要使用的语体(正式、对话等)
- 目标受众(公众、专家、儿童等)
- 特定于语言社区的任何术语约定
- 明确指示:"翻译意思,而非词语。自然听起来的翻译比字面翻译更有价值。"
4.3 — 质量保证
-
双重翻译。 理想情况下,每个条目有两个不同译者的独立参考翻译。如果不可行,优先考虑第 4–5 级的双重翻译。
-
社区审查。 参考翻译应由至少一位未制作翻译的额外使用者审查。
-
可接受的变体。 对于每个参考,记录已知的可接受变体(语序、正字法约定、方言形式)。这些输入
equivalent_match_rate指标。
4.4 — 什么构成不良参考
| 问题 | 为什么它使评估无效 |
|---|---|
| 机器翻译然后后编辑 | 后编辑保留 MT 结构;惩罚产生更自然翻译的方法 |
| 由学习者而非流利使用者翻译 | 参考可能包含惩罚正确 MT 输出的错误 |
| 过度字面 | 自然翻译对字面参考评分较低 |
| 对歧义源的单一有效解释 | 惩罚有效的替代解释 |
5. 污染防止
5.1 — 污染威胁模型
| 威胁 | 描述 | 缓解 |
|---|---|---|
| 训练数据重叠 | LLM 在平行语料库上训练 | 不公开发布平行语料库 |
| 少样本泄漏 | 方法作者使用评估条目作为少样本示例 | 指纹检查:提示中的条目被检测和标记 |
| 间接污染 | 源文本存在于 LLM 训练数据中(单语) | 可接受——预期单语源文本。配对必须是新颖的。 |
| 众包污染 | 社区审查者公开分享条目 | 许可证条款禁止平行语料库的再分发 |
5.2 — 语料库保密等级
| 等级 | 可见性 | 用途 |
|---|---|---|
| 公开开发集 | 完全公开 | 方法开发、调试、回归测试。分数不发布到排行榜。 |
| 保留评估集 | 源文本可见,参考保密 | 官方排行榜评估。方法接收源文本并返回翻译;评分在服务器端进行。参考永远不会暴露给方法。 |
| 黄金标准集 | 完全保密,社区控制 | 社区验证的评估。由治理组织管理。用于"社区验证"验证等级。 |
5.3 — 轮换政策
评估语料库应该定期轮换:
- 语料库使用 12 个月后,开始构建替代品
- 将旧语料库转为"开发集"状态(公开)
- 将新语料库提升为"保留评估集"
- 这防止通过针对固定目标的迭代优化进行的逐步污染
6. 语料库构建工作流
6.1 — 分步流程
Step 1: Language Pair Selection
└─ Identify target language, read language card
└─ Review typological features (WALS), contact influences, scripts
└─ Identify which difficulty factors apply
Step 2: Source Text Curation
└─ Identify candidate source documents per domain
└─ Verify licenses
└─ Extract candidate sentences/segments
└─ Classify by domain and preliminary difficulty tier
Step 3: Segment Selection
└─ Sample segments to match domain distribution (§2.2)
└─ Sample segments to match difficulty distribution (§3.3)
└─ Ensure linguistic phenomenon coverage (§6.2)
└─ Target minimum corpus size (§6.3)
Step 4: Reference Translation
└─ Assign segments to qualified translators
└─ Provide translation brief
└─ Collect translations
└─ Dual-translate Tier 4–5 entries
Step 5: Quality Assurance
└─ Community review of references
└─ Document acceptable variants
└─ Flag and resolve disagreements
Step 6: Metadata & Packaging
└─ Assign final difficulty tiers
└─ Add provenance metadata per entry
└─ Content-hash the corpus for versioning
└─ Package as corpus JSON per harness spec
Step 7: Registration
└─ Register in Supabase datasets table
└─ Add to ATTRIBUTION.md if new sources used
└─ Document in arena website
6.2 — 语言学现象覆盖
每个语料库应包含测试特定语言学现象的条目,这些现象与语言对相关。这些来自语言卡的 linguisticChallenges 和 contactInfluences 字段:
通用现象(所有语言对):
- 代词解析(歧义先行词)
- 否定(单一、双重、范围)
- 量词(全部、某些、无、大多数)
- 时间表达式(相对日期、持续时间)
- 命名实体(人、地、组织)
- 数字和度量
- 列表和枚举
语言对特定现象(来自语言卡):
- 对于多综合型目标:复杂动词形态、并入
- 对于有性目标:性一致性、中立/包容性参考
- 对于 SOV 目标:子句末动词、后置词
- 对于声调语言:声调依赖的意义区分
- 对于敬语语言:语体标记、社会语境
- 对于接触语言:代码转换边界、借词整合
6.3 — 最小语料库大小
统计可靠性需要最小条目计数。这些基于配对引导置信区间要求(来自 significance.py):
| 目的 | 最小条目 | 推荐 |
|---|---|---|
| 开发集 | 50 | 100–200 |
| 保留评估集 | 100 | 200–500 |
| 黄金标准集 | 200 | 500+ |
| 每个领域最小 | 10 | 25+ |
| 每个等级最小 | 10 | 20+ |
为什么评估最少 100 个? 少于约 100 个条目时,配对引导显著性测试(1,000 次重新采样)无法可靠地检测小于约 5 chrF++ 点的差异。有 200+ 个条目时,我们可以在 p<0.05 时检测约 2 点的差异。
7. 语料库 JSON 格式
每个语料库条目遵循线束规范:
{
"id": "edtekla-dev-v1-042",
"source": "The school board will meet on Tuesday to discuss the new curriculum.",
"reference": "ᑭᓯᑭᓄᐦᐊᒫᑐᐏᓐ ᑲ ᐃᔑ ᐱᒥᐸᔨᐦᑕᐦᒃ ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓇ ᐁ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ ᓂᔓ ᑭᔑᑲᐤ",
"acceptable_variants": [
"ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓐ ᓂᔓ ᑭᔑᑲᐤ ᑲ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ"
],
"domain": "edu",
"difficulty": 3,
"phenomena": ["temporal_expression", "named_entity", "future_tense"],
"provenance": {
"source_doc": "EdTeKLA Module 4, Unit 7",
"source_license": "CC BY-NC-SA 4.0",
"translator": "anonymous-speaker-001",
"translator_qualification": "L1 Plains Cree, certified translator",
"translation_date": "2025-11-15",
"reviewer": "anonymous-speaker-002",
"review_date": "2025-12-01"
}
}
8. 反作弊措施
8.1 — 语料库完整性
| 措施 | 实现 |
|---|---|
| 内容哈希 | 语料库版本 = 排序条目 ID + 参考的 SHA-256。任何修改产生新版本。 |
| 条目指纹 | 每个条目有内容派生的 ID。如果有人提交针对修改语料库的结果,指纹将不匹配。 |
| 保留执行 | 对于官方评估,方法仅接收源文本。参考永远不会暴露。评分在服务器端进行。 |
| 轮换计划 | 语料库每年轮换,防止针对固定目标的长期优化。 |
8.2 — 提交完整性
| 措施 | 实现 |
|---|---|
| 确定性指纹 | 运行配置(模型、温度、提示、语料库版本)被哈希。相同配置产生相同指纹。 |
| 精选检测 | 提交者必须披露所有运行,而非仅最佳运行。具有相同指纹的多个提交被标记。 |
| 污染检查 | 如果评估条目逐字出现在方法的提示或指导数据中,提交被取消资格。 |
9. 现有语料库
9.1 — EDTeKLA 开发集 v1
| 属性 | 值 |
|---|---|
| ID | edtekla-dev-v1 |
| 语言对 | EN → CRK(平原克里语,SRO) |
| 条目 | 404(master_corpus.json:62 黄金 + 342 教科书);总共 548 可用 |
| 领域 | 教育(100%) |
| 等级 | 1–5(每个条目审计后分布待定) |
| 许可证 | CC BY-NC-SA 4.0 |
| 状态 | 开发集(公开) |
限制: 单一领域(仅教育)。无领域分层。等级分配可能需要审计。小语料库大小限制显著性测试的统计功率。
9.2 — 计划中的语料库
| 语料库 | 语言对 | 状态 | 所有者 |
|---|---|---|---|
| EN → TL(菲律宾语)自定义语料库 | EN → TL | 计划中 | 项目所有者 |
| EN → CRK 保留集 | EN → CRK | 未来(需要社区合作伙伴) | 社区治理组织 |
10. 语言卡集成
语料库框架与语言卡系统集成:
-
领域选择 由卡的
linguisticChallenges知情——如果语言有独特挑战(多综合性、声调、生命性),语料库必须包含测试它们的条目。 -
难度校准 使用卡的
classification——源和目标语族之间的类型学距离影响什么构成"困难"。 -
语体覆盖 使用卡的
registers——如果语言有定义的语体(正式菲律宾语、他加禄语专业、他加禄语非正式),语料库应包含每个语体级别的条目。 -
接触影响测试 使用卡的
contactInfluences——对于有大量借词层的语言(菲律宾语:西班牙语 + 英语 + 阿拉伯语),包含测试方法是否正确处理借词与过度翻译它们的条目。 -
文字处理 使用卡的
scripts[]——对于多文字语言(塞尔维亚语:西里尔字母 + 拉丁字母),包含测试正确文字选择的条目。
参考文献
- Champollion 评分规范 ——定义所有指标、复合权重、质量等级
- Champollion 基准规范 ——评估协议、语料库格式、数据主权
- WALS(世界语言结构地图集)——类型学特征数据库
- Glottolog ——语言分类权威来源
- ISO 639-3 ——语言识别标准
- EdTeKLA ——第一个评估语料库的来源
本文档是一个活的规范。随着新语料库的构建和经验教训的获得而更新它。