评估语料库设计框架

版本： 1.0
状态： 草稿
目的： 一套系统化的方法论，用于构建能够产生有效、可靠且语言学上有意义的翻译质量评估的评估语料库。这是 Champollion 评估数据集如何设计、构建和维护的权威来源。

1. 设计原则

1.1 — 为什么不使用公开基准？

公开平行语料库（FLORES+、Tatoeba、WMT 测试集、OPUS）可用于开发和调试，但被排除在官方排行榜评估之外。原因很直接：

污染。 前沿大语言模型在海量网络爬取数据上训练。任何曾经公开存在的平行文本——尤其是在精心策划、广泛引用的基准数据集中——很可能已在其训练数据中。当你在 FLORES+ 上评估 GPT-4o 并获得 85 chrF++ 时，你无法区分"模型擅长翻译"和"模型记住了这些特定句子对"。这不是理论上的担忧——研究已证明机器翻译基准上存在可测量的污染效应。

对于 Champollion，这尤为重要，因为：

我们的排行榜主要比较基于 LLM 的方法
我们的价值主张是诚实、严格的评估
我们的目标用户（语言社区）基于这些分数做出部署决策

1.2 — 核心要求

每个 Champollion 评估语料库必须满足：

要求	理由
人工编写	无合成数据。所有源文本和参考翻译必须由人类编写。LLM 可协助对齐和格式化，但不能生成内容。
不以平行形式公开可用	源文本可能是公开的；参考翻译可能是公开的；但具体的配对不能作为可下载的平行语料库存在。
来源可追踪	每个条目必须有文档化的来源：源文档、译者、许可证、日期。
语言学知情	覆盖范围必须由类型学特征指导，而非随机抽样。
领域分层	条目必须跨越定义的文本领域，具有受控的表示。
难度分级	条目必须根据结构复杂性分配难度等级（1–5）。
版本控制	语料库版本由内容哈希。分数仅在相同版本内可比较。
社区可审查	参考翻译必须可由语言社区成员审查。

2. 源文本选择

2.1 — 领域分类法

Champollion 评估实际部署环境中的翻译，而非学术练习。领域分类法反映翻译用户遇到的真实文本类型：

领域	代码	描述	示例来源
软件 UI	`ui`	按钮标签、菜单项、错误消息、工具提示、入门流程	开源应用字符串、文档门户
官方/行政	`admin`	政府文件、法律通知、表格、政策声明	公开政府出版物、市政文件
教育	`edu`	教科书内容、课程材料、教学文本	已出版教育材料、教学指南
叙事/文学	`lit`	故事、文化文本、口头历史记录	已出版书籍、文化档案（获得许可）
对话	`conv`	对话、聊天式交流、非正式书面交流	已出版对话语料库、剧本、访谈记录
技术	`tech`	API 文档、README 文件、技术规范	开源项目文档
健康/医疗	`health`	患者面向的医疗信息、公共卫生消息	政府卫生出版物
新闻/新闻学	`news`	新闻文章、新闻稿、时事评论	社区报纸、土著媒体

2.2 — 领域分布

标准评估语料库应该力求以下分布。确切的百分比可能因语言对而异，取决于哪些文本类型与目标社区最相关：

领域	目标 %	理由
软件 UI	25%	Champollion CLI 用户的主要部署环境
官方/行政	15%	具有法律含义的高风险翻译
教育	15%	语言复兴的核心用例
叙事/文学	10%	测试文化细微差别和文学语体
对话	10%	测试非正式语体和自然语音模式
技术	10%	测试精确性和术语一致性
健康/医疗	10%	高风险，测试领域特定词汇
新闻/新闻学	5%	测试当代词汇和中立语体

2.3 — 源文本选择标准

选择新语料库的源文本时：

许可证兼容性。 源文本必须在允许在评估语料库中使用的许可证下。优先选择 CC BY、CC BY-SA 或公有领域。记录许可证。
时效性。 优先选择过去 10 年内出版的文本。语言在演变——尤其是围绕技术、治理和医学的词汇。
语体多样性。 在每个领域内，寻求不同正式程度的文本。政府新闻稿（正式）和政府社交媒体帖子（非正式）都是 admin 领域但语体不同。
文化相关性。 对于土著和少数民族语言，优先选择对社区重要的文本——土地管理文件、该语言的教育材料、文化保护文本——而非碰巧存在平行版本的文本。
无机器翻译来源。 如果"平行"文件是通过运行原文通过 Google 翻译然后进行后编辑创建的，则不可接受作为参考翻译。参考必须是独立的人工翻译。

3. 难度分级系统

3.1 — 等级定义

每个条目根据源文本的结构复杂性（而非翻译难度，后者因方法而异）分配难度等级（1–5）。

等级	标签	结构特征
1	初级	简单句。单个子句。现在时。常见词汇。无习语。无嵌套结构。
2	中级	复合句。两个由连接词连接的子句。过去/将来时。一些领域词汇。
3	高级	复杂句。从句、关系子句。混合时态。领域特定术语。被动语态。
4	专家	多个嵌套子句。法律/技术语体。条件结构。抽象概念。文化参考。
5	极端	密集散文，具有多个同时挑战：嵌套从句、代词指代歧义、文化习语、混合语体、罕见词汇。

3.2 — 语言学知情的难度因素

除了结构复杂性，难度还由源语言和目标语言之间的类型学距离调节。这些因素来自 WALS 类型学特征和语言卡的分类数据：

因素	低难度	高难度
语序	相同基本顺序（如 SVO→SVO）	不同基本顺序（如 SVO→SOV）
形态类型	相似类型（如分析型→分析型）	不同类型（如分析型→多综合型）
语法性	相同系统或无性	源无性，目标有复杂性系统
敬语/语体	无语体标记	目标有复杂语体系统（如日语、韩语）
文字	相同文字	不同文字（需要音译）
生命性	无生命性区分	目标有生命性基础的一致性（如克里语）
证据性	无证据性	目标在语法上标记信息来源

3.3 — 等级分布

标准语料库应该大约有：

等级	目标 %	理由
1	15%	建立基线——即使是差的方法也应该处理这些
2	25%	日常实用翻译
3	30%	方法质量差异变得可见的地方
4	20%	区分好方法和优秀方法
5	10%	天花板测试——很少有方法能很好地处理这些

4. 参考翻译质量

4.1 — 译者要求

参考翻译必须由以下人员制作：

流利使用者 目标语言（L1 或等同水平）
识字源语言和目标语言
领域意识 文本领域（医疗翻译用于卫生文本等）
独立 ——译者在翻译期间不能访问同一文本的任何 MT 输出

4.2 — 翻译简报

每个译者都会收到包含以下内容的简报：

要使用的语体（正式、对话等）
目标受众（公众、专家、儿童等）
特定于语言社区的任何术语约定
明确指示："翻译意思，而非词语。自然听起来的翻译比字面翻译更有价值。"

4.3 — 质量保证

双重翻译。 理想情况下，每个条目有两个不同译者的独立参考翻译。如果不可行，优先考虑第 4–5 级的双重翻译。
社区审查。 参考翻译应由至少一位未制作翻译的额外使用者审查。
可接受的变体。 对于每个参考，记录已知的可接受变体（语序、正字法约定、方言形式）。这些输入 equivalent_match_rate 指标。

4.4 — 什么构成不良参考

问题	为什么它使评估无效
机器翻译然后后编辑	后编辑保留 MT 结构；惩罚产生更自然翻译的方法
由学习者而非流利使用者翻译	参考可能包含惩罚正确 MT 输出的错误
过度字面	自然翻译对字面参考评分较低
对歧义源的单一有效解释	惩罚有效的替代解释

5. 污染防止

5.1 — 污染威胁模型

威胁	描述	缓解
训练数据重叠	LLM 在平行语料库上训练	不公开发布平行语料库
少样本泄漏	方法作者使用评估条目作为少样本示例	指纹检查：提示中的条目被检测和标记
间接污染	源文本存在于 LLM 训练数据中（单语）	可接受——预期单语源文本。配对必须是新颖的。
众包污染	社区审查者公开分享条目	许可证条款禁止平行语料库的再分发

5.2 — 语料库保密等级

等级	可见性	用途
公开开发集	完全公开	方法开发、调试、回归测试。分数不发布到排行榜。
保留评估集	源文本可见，参考保密	官方排行榜评估。方法接收源文本并返回翻译；评分在服务器端进行。参考永远不会暴露给方法。
黄金标准集	完全保密，社区控制	社区验证的评估。由治理组织管理。用于"社区验证"验证等级。

5.3 — 轮换政策

评估语料库应该定期轮换：

语料库使用 12 个月后，开始构建替代品
将旧语料库转为"开发集"状态（公开）
将新语料库提升为"保留评估集"
这防止通过针对固定目标的迭代优化进行的逐步污染

6. 语料库构建工作流

6.1 — 分步流程

Step 1: Language Pair Selection
    └─ Identify target language, read language card
    └─ Review typological features (WALS), contact influences, scripts
    └─ Identify which difficulty factors apply

Step 2: Source Text Curation
    └─ Identify candidate source documents per domain
    └─ Verify licenses
    └─ Extract candidate sentences/segments
    └─ Classify by domain and preliminary difficulty tier

Step 3: Segment Selection
    └─ Sample segments to match domain distribution (§2.2)
    └─ Sample segments to match difficulty distribution (§3.3)
    └─ Ensure linguistic phenomenon coverage (§6.2)
    └─ Target minimum corpus size (§6.3)

Step 4: Reference Translation
    └─ Assign segments to qualified translators
    └─ Provide translation brief
    └─ Collect translations
    └─ Dual-translate Tier 4–5 entries

Step 5: Quality Assurance
    └─ Community review of references
    └─ Document acceptable variants
    └─ Flag and resolve disagreements

Step 6: Metadata & Packaging
    └─ Assign final difficulty tiers
    └─ Add provenance metadata per entry
    └─ Content-hash the corpus for versioning
    └─ Package as corpus JSON per harness spec

Step 7: Registration
    └─ Register in Supabase datasets table
    └─ Add to ATTRIBUTION.md if new sources used
    └─ Document in arena website

6.2 — 语言学现象覆盖

每个语料库应包含测试特定语言学现象的条目，这些现象与语言对相关。这些来自语言卡的 linguisticChallenges 和 contactInfluences 字段：

通用现象（所有语言对）：

代词解析（歧义先行词）
否定（单一、双重、范围）
量词（全部、某些、无、大多数）
时间表达式（相对日期、持续时间）
命名实体（人、地、组织）
数字和度量
列表和枚举

语言对特定现象（来自语言卡）：

对于多综合型目标：复杂动词形态、并入
对于有性目标：性一致性、中立/包容性参考
对于 SOV 目标：子句末动词、后置词
对于声调语言：声调依赖的意义区分
对于敬语语言：语体标记、社会语境
对于接触语言：代码转换边界、借词整合

6.3 — 最小语料库大小

统计可靠性需要最小条目计数。这些基于配对引导置信区间要求（来自 significance.py）：

目的	最小条目	推荐
开发集	50	100–200
保留评估集	100	200–500
黄金标准集	200	500+
每个领域最小	10	25+
每个等级最小	10	20+

为什么评估最少 100 个？ 少于约 100 个条目时，配对引导显著性测试（1,000 次重新采样）无法可靠地检测小于约 5 chrF++ 点的差异。有 200+ 个条目时，我们可以在 p<0.05 时检测约 2 点的差异。

7. 语料库 JSON 格式

每个语料库条目遵循线束规范：

{
  "id": "edtekla-dev-v1-042",
  "source": "The school board will meet on Tuesday to discuss the new curriculum.",
  "reference": "ᑭᓯᑭᓄᐦᐊᒫᑐᐏᓐ ᑲ ᐃᔑ ᐱᒥᐸᔨᐦᑕᐦᒃ ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓇ ᐁ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ ᓂᔓ ᑭᔑᑲᐤ",
  "acceptable_variants": [
    "ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓐ ᓂᔓ ᑭᔑᑲᐤ ᑲ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ"
  ],
  "domain": "edu",
  "difficulty": 3,
  "phenomena": ["temporal_expression", "named_entity", "future_tense"],
  "provenance": {
    "source_doc": "EdTeKLA Module 4, Unit 7",
    "source_license": "CC BY-NC-SA 4.0",
    "translator": "anonymous-speaker-001",
    "translator_qualification": "L1 Plains Cree, certified translator",
    "translation_date": "2025-11-15",
    "reviewer": "anonymous-speaker-002",
    "review_date": "2025-12-01"
  }
}

8. 反作弊措施

8.1 — 语料库完整性

措施	实现
内容哈希	语料库版本 = 排序条目 ID + 参考的 SHA-256。任何修改产生新版本。
条目指纹	每个条目有内容派生的 ID。如果有人提交针对修改语料库的结果，指纹将不匹配。
保留执行	对于官方评估，方法仅接收源文本。参考永远不会暴露。评分在服务器端进行。
轮换计划	语料库每年轮换，防止针对固定目标的长期优化。

8.2 — 提交完整性

措施	实现
确定性指纹	运行配置（模型、温度、提示、语料库版本）被哈希。相同配置产生相同指纹。
精选检测	提交者必须披露所有运行，而非仅最佳运行。具有相同指纹的多个提交被标记。
污染检查	如果评估条目逐字出现在方法的提示或指导数据中，提交被取消资格。

9. 现有语料库

9.1 — EDTeKLA 开发集 v1

属性	值
ID	`edtekla-dev-v1`
语言对	EN → CRK（平原克里语，SRO）
条目	404（`master_corpus.json`：62 黄金 + 342 教科书）；总共 548 可用
领域	教育（100%）
等级	1–5（每个条目审计后分布待定）
许可证	CC BY-NC-SA 4.0
状态	开发集（公开）

限制： 单一领域（仅教育）。无领域分层。等级分配可能需要审计。小语料库大小限制显著性测试的统计功率。

9.2 — 计划中的语料库

语料库	语言对	状态	所有者
EN → TL（菲律宾语）自定义语料库	EN → TL	计划中	项目所有者
EN → CRK 保留集	EN → CRK	未来（需要社区合作伙伴）	社区治理组织

10. 语言卡集成

语料库框架与语言卡系统集成：

领域选择 由卡的 linguisticChallenges 知情——如果语言有独特挑战（多综合性、声调、生命性），语料库必须包含测试它们的条目。
难度校准 使用卡的 classification——源和目标语族之间的类型学距离影响什么构成"困难"。
语体覆盖 使用卡的 registers——如果语言有定义的语体（正式菲律宾语、他加禄语专业、他加禄语非正式），语料库应包含每个语体级别的条目。
接触影响测试 使用卡的 contactInfluences——对于有大量借词层的语言（菲律宾语：西班牙语 + 英语 + 阿拉伯语），包含测试方法是否正确处理借词与过度翻译它们的条目。
文字处理 使用卡的 scripts[]——对于多文字语言（塞尔维亚语：西里尔字母 + 拉丁字母），包含测试正确文字选择的条目。

参考文献

Champollion 评分规范 ——定义所有指标、复合权重、质量等级
Champollion 基准规范 ——评估协议、语料库格式、数据主权
WALS（世界语言结构地图集）——类型学特征数据库
Glottolog ——语言分类权威来源
ISO 639-3 ——语言识别标准
EdTeKLA ——第一个评估语料库的来源

本文档是一个活的规范。随着新语料库的构建和经验教训的获得而更新它。

1. 设计原则​

1.1 — 为什么不使用公开基准？​

1.2 — 核心要求​

2. 源文本选择​

2.1 — 领域分类法​

2.2 — 领域分布​

2.3 — 源文本选择标准​

3. 难度分级系统​

3.1 — 等级定义​

3.2 — 语言学知情的难度因素​

3.3 — 等级分布​

4. 参考翻译质量​

4.1 — 译者要求​

4.2 — 翻译简报​

4.3 — 质量保证​

4.4 — 什么构成不良参考​

5. 污染防止​

5.1 — 污染威胁模型​

5.2 — 语料库保密等级​

5.3 — 轮换政策​

6. 语料库构建工作流​

6.1 — 分步流程​

6.2 — 语言学现象覆盖​

6.3 — 最小语料库大小​

7. 语料库 JSON 格式​

8. 反作弊措施​

8.1 — 语料库完整性​

8.2 — 提交完整性​

9. 现有语料库​

9.1 — EDTeKLA 开发集 v1​

9.2 — 计划中的语料库​

10. 语言卡集成​

参考文献​