跳转到主要内容

评估语料库设计框架

版本: 1.0
状态: 草稿
目的: 一套系统化的方法论,用于构建能够产生有效、可靠且语言学上有意义的翻译质量评估的评估语料库。这是 Champollion 评估数据集如何设计、构建和维护的权威来源。


1. 设计原则

1.1 — 为什么不使用公开基准?

公开平行语料库(FLORES+、Tatoeba、WMT 测试集、OPUS)可用于开发和调试,但被排除在官方排行榜评估之外。原因很直接:

污染。 前沿大语言模型在海量网络爬取数据上训练。任何曾经公开存在的平行文本——尤其是在精心策划、广泛引用的基准数据集中——很可能已在其训练数据中。当你在 FLORES+ 上评估 GPT-4o 并获得 85 chrF++ 时,你无法区分"模型擅长翻译"和"模型记住了这些特定句子对"。这不是理论上的担忧——研究已证明机器翻译基准上存在可测量的污染效应。

对于 Champollion,这尤为重要,因为:

  • 我们的排行榜主要比较基于 LLM 的方法
  • 我们的价值主张是诚实、严格的评估
  • 我们的目标用户(语言社区)基于这些分数做出部署决策

1.2 — 核心要求

每个 Champollion 评估语料库必须满足:

要求理由
人工编写无合成数据。所有源文本和参考翻译必须由人类编写。LLM 可协助对齐和格式化,但不能生成内容。
不以平行形式公开可用源文本可能是公开的;参考翻译可能是公开的;但具体的配对不能作为可下载的平行语料库存在。
来源可追踪每个条目必须有文档化的来源:源文档、译者、许可证、日期。
语言学知情覆盖范围必须由类型学特征指导,而非随机抽样。
领域分层条目必须跨越定义的文本领域,具有受控的表示。
难度分级条目必须根据结构复杂性分配难度等级(1–5)。
版本控制语料库版本由内容哈希。分数仅在相同版本内可比较。
社区可审查参考翻译必须可由语言社区成员审查。

2. 源文本选择

2.1 — 领域分类法

Champollion 评估实际部署环境中的翻译,而非学术练习。领域分类法反映翻译用户遇到的真实文本类型:

领域代码描述示例来源
软件 UIui按钮标签、菜单项、错误消息、工具提示、入门流程开源应用字符串、文档门户
官方/行政admin政府文件、法律通知、表格、政策声明公开政府出版物、市政文件
教育edu教科书内容、课程材料、教学文本已出版教育材料、教学指南
叙事/文学lit故事、文化文本、口头历史记录已出版书籍、文化档案(获得许可)
对话conv对话、聊天式交流、非正式书面交流已出版对话语料库、剧本、访谈记录
技术techAPI 文档、README 文件、技术规范开源项目文档
健康/医疗health患者面向的医疗信息、公共卫生消息政府卫生出版物
新闻/新闻学news新闻文章、新闻稿、时事评论社区报纸、土著媒体

2.2 — 领域分布

标准评估语料库应该力求以下分布。确切的百分比可能因语言对而异,取决于哪些文本类型与目标社区最相关:

领域目标 %理由
软件 UI25%Champollion CLI 用户的主要部署环境
官方/行政15%具有法律含义的高风险翻译
教育15%语言复兴的核心用例
叙事/文学10%测试文化细微差别和文学语体
对话10%测试非正式语体和自然语音模式
技术10%测试精确性和术语一致性
健康/医疗10%高风险,测试领域特定词汇
新闻/新闻学5%测试当代词汇和中立语体

2.3 — 源文本选择标准

选择新语料库的源文本时:

  1. 许可证兼容性。 源文本必须在允许在评估语料库中使用的许可证下。优先选择 CC BY、CC BY-SA 或公有领域。记录许可证。

  2. 时效性。 优先选择过去 10 年内出版的文本。语言在演变——尤其是围绕技术、治理和医学的词汇。

  3. 语体多样性。 在每个领域内,寻求不同正式程度的文本。政府新闻稿(正式)和政府社交媒体帖子(非正式)都是 admin 领域但语体不同。

  4. 文化相关性。 对于土著和少数民族语言,优先选择对社区重要的文本——土地管理文件、该语言的教育材料、文化保护文本——而非碰巧存在平行版本的文本。

  5. 无机器翻译来源。 如果"平行"文件是通过运行原文通过 Google 翻译然后进行后编辑创建的,则不可接受作为参考翻译。参考必须是独立的人工翻译。


3. 难度分级系统

3.1 — 等级定义

每个条目根据源文本的结构复杂性(而非翻译难度,后者因方法而异)分配难度等级(1–5)。

等级标签结构特征
1初级简单句。单个子句。现在时。常见词汇。无习语。无嵌套结构。
2中级复合句。两个由连接词连接的子句。过去/将来时。一些领域词汇。
3高级复杂句。从句、关系子句。混合时态。领域特定术语。被动语态。
4专家多个嵌套子句。法律/技术语体。条件结构。抽象概念。文化参考。
5极端密集散文,具有多个同时挑战:嵌套从句、代词指代歧义、文化习语、混合语体、罕见词汇。

3.2 — 语言学知情的难度因素

除了结构复杂性,难度还由源语言和目标语言之间的类型学距离调节。这些因素来自 WALS 类型学特征和语言卡的分类数据:

因素低难度高难度
语序相同基本顺序(如 SVO→SVO)不同基本顺序(如 SVO→SOV)
形态类型相似类型(如分析型→分析型)不同类型(如分析型→多综合型)
语法性相同系统或无性源无性,目标有复杂性系统
敬语/语体无语体标记目标有复杂语体系统(如日语、韩语)
文字相同文字不同文字(需要音译)
生命性无生命性区分目标有生命性基础的一致性(如克里语)
证据性无证据性目标在语法上标记信息来源

3.3 — 等级分布

标准语料库应该大约有:

等级目标 %理由
115%建立基线——即使是差的方法也应该处理这些
225%日常实用翻译
330%方法质量差异变得可见的地方
420%区分好方法和优秀方法
510%天花板测试——很少有方法能很好地处理这些

4. 参考翻译质量

4.1 — 译者要求

参考翻译必须由以下人员制作:

  1. 流利使用者 目标语言(L1 或等同水平)
  2. 识字 源语言和目标语言
  3. 领域意识 文本领域(医疗翻译用于卫生文本等)
  4. 独立 ——译者在翻译期间不能访问同一文本的任何 MT 输出

4.2 — 翻译简报

每个译者都会收到包含以下内容的简报:

  • 要使用的语体(正式、对话等)
  • 目标受众(公众、专家、儿童等)
  • 特定于语言社区的任何术语约定
  • 明确指示:"翻译意思,而非词语。自然听起来的翻译比字面翻译更有价值。"

4.3 — 质量保证

  1. 双重翻译。 理想情况下,每个条目有两个不同译者的独立参考翻译。如果不可行,优先考虑第 4–5 级的双重翻译。

  2. 社区审查。 参考翻译应由至少一位未制作翻译的额外使用者审查。

  3. 可接受的变体。 对于每个参考,记录已知的可接受变体(语序、正字法约定、方言形式)。这些输入 equivalent_match_rate 指标。

4.4 — 什么构成不良参考

问题为什么它使评估无效
机器翻译然后后编辑后编辑保留 MT 结构;惩罚产生更自然翻译的方法
由学习者而非流利使用者翻译参考可能包含惩罚正确 MT 输出的错误
过度字面自然翻译对字面参考评分较低
对歧义源的单一有效解释惩罚有效的替代解释

5. 污染防止

5.1 — 污染威胁模型

威胁描述缓解
训练数据重叠LLM 在平行语料库上训练不公开发布平行语料库
少样本泄漏方法作者使用评估条目作为少样本示例指纹检查:提示中的条目被检测和标记
间接污染源文本存在于 LLM 训练数据中(单语)可接受——预期单语源文本。配对必须是新颖的。
众包污染社区审查者公开分享条目许可证条款禁止平行语料库的再分发

5.2 — 语料库保密等级

等级可见性用途
公开开发集完全公开方法开发、调试、回归测试。分数发布到排行榜。
保留评估集源文本可见,参考保密官方排行榜评估。方法接收源文本并返回翻译;评分在服务器端进行。参考永远不会暴露给方法。
黄金标准集完全保密,社区控制社区验证的评估。由治理组织管理。用于"社区验证"验证等级。

5.3 — 轮换政策

评估语料库应该定期轮换

  1. 语料库使用 12 个月后,开始构建替代品
  2. 将旧语料库转为"开发集"状态(公开)
  3. 将新语料库提升为"保留评估集"
  4. 这防止通过针对固定目标的迭代优化进行的逐步污染

6. 语料库构建工作流

6.1 — 分步流程

Step 1: Language Pair Selection
└─ Identify target language, read language card
└─ Review typological features (WALS), contact influences, scripts
└─ Identify which difficulty factors apply

Step 2: Source Text Curation
└─ Identify candidate source documents per domain
└─ Verify licenses
└─ Extract candidate sentences/segments
└─ Classify by domain and preliminary difficulty tier

Step 3: Segment Selection
└─ Sample segments to match domain distribution (§2.2)
└─ Sample segments to match difficulty distribution (§3.3)
└─ Ensure linguistic phenomenon coverage (§6.2)
└─ Target minimum corpus size (§6.3)

Step 4: Reference Translation
└─ Assign segments to qualified translators
└─ Provide translation brief
└─ Collect translations
└─ Dual-translate Tier 4–5 entries

Step 5: Quality Assurance
└─ Community review of references
└─ Document acceptable variants
└─ Flag and resolve disagreements

Step 6: Metadata & Packaging
└─ Assign final difficulty tiers
└─ Add provenance metadata per entry
└─ Content-hash the corpus for versioning
└─ Package as corpus JSON per harness spec

Step 7: Registration
└─ Register in Supabase datasets table
└─ Add to ATTRIBUTION.md if new sources used
└─ Document in arena website

6.2 — 语言学现象覆盖

每个语料库应包含测试特定语言学现象的条目,这些现象与语言对相关。这些来自语言卡的 linguisticChallengescontactInfluences 字段:

通用现象(所有语言对):

  • 代词解析(歧义先行词)
  • 否定(单一、双重、范围)
  • 量词(全部、某些、无、大多数)
  • 时间表达式(相对日期、持续时间)
  • 命名实体(人、地、组织)
  • 数字和度量
  • 列表和枚举

语言对特定现象(来自语言卡):

  • 对于多综合型目标:复杂动词形态、并入
  • 对于有性目标:性一致性、中立/包容性参考
  • 对于 SOV 目标:子句末动词、后置词
  • 对于声调语言:声调依赖的意义区分
  • 对于敬语语言:语体标记、社会语境
  • 对于接触语言:代码转换边界、借词整合

6.3 — 最小语料库大小

统计可靠性需要最小条目计数。这些基于配对引导置信区间要求(来自 significance.py):

目的最小条目推荐
开发集50100–200
保留评估集100200–500
黄金标准集200500+
每个领域最小1025+
每个等级最小1020+

为什么评估最少 100 个? 少于约 100 个条目时,配对引导显著性测试(1,000 次重新采样)无法可靠地检测小于约 5 chrF++ 点的差异。有 200+ 个条目时,我们可以在 p<0.05 时检测约 2 点的差异。


7. 语料库 JSON 格式

每个语料库条目遵循线束规范:

{
"id": "edtekla-dev-v1-042",
"source": "The school board will meet on Tuesday to discuss the new curriculum.",
"reference": "ᑭᓯᑭᓄᐦᐊᒫᑐᐏᓐ ᑲ ᐃᔑ ᐱᒥᐸᔨᐦᑕᐦᒃ ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓇ ᐁ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ ᓂᔓ ᑭᔑᑲᐤ",
"acceptable_variants": [
"ᑭᔅᑭᓄᐦᐊᒫᑐᐏᓐ ᓂᔓ ᑭᔑᑲᐤ ᑲ ᐃᔑ ᒫᒥᑐᓀᔨᐦᑕᐦᒃ ᐅᔥᑭ ᑭᔅᑭᓄᐦᐊᒫᑫᐏᓂᔭ"
],
"domain": "edu",
"difficulty": 3,
"phenomena": ["temporal_expression", "named_entity", "future_tense"],
"provenance": {
"source_doc": "EdTeKLA Module 4, Unit 7",
"source_license": "CC BY-NC-SA 4.0",
"translator": "anonymous-speaker-001",
"translator_qualification": "L1 Plains Cree, certified translator",
"translation_date": "2025-11-15",
"reviewer": "anonymous-speaker-002",
"review_date": "2025-12-01"
}
}

8. 反作弊措施

8.1 — 语料库完整性

措施实现
内容哈希语料库版本 = 排序条目 ID + 参考的 SHA-256。任何修改产生新版本。
条目指纹每个条目有内容派生的 ID。如果有人提交针对修改语料库的结果,指纹将不匹配。
保留执行对于官方评估,方法仅接收源文本。参考永远不会暴露。评分在服务器端进行。
轮换计划语料库每年轮换,防止针对固定目标的长期优化。

8.2 — 提交完整性

措施实现
确定性指纹运行配置(模型、温度、提示、语料库版本)被哈希。相同配置产生相同指纹。
精选检测提交者必须披露所有运行,而非仅最佳运行。具有相同指纹的多个提交被标记。
污染检查如果评估条目逐字出现在方法的提示或指导数据中,提交被取消资格。

9. 现有语料库

9.1 — EDTeKLA 开发集 v1

属性
IDedtekla-dev-v1
语言对EN → CRK(平原克里语,SRO)
条目404(master_corpus.json:62 黄金 + 342 教科书);总共 548 可用
领域教育(100%)
等级1–5(每个条目审计后分布待定)
许可证CC BY-NC-SA 4.0
状态开发集(公开)

限制: 单一领域(仅教育)。无领域分层。等级分配可能需要审计。小语料库大小限制显著性测试的统计功率。

9.2 — 计划中的语料库

语料库语言对状态所有者
EN → TL(菲律宾语)自定义语料库EN → TL计划中项目所有者
EN → CRK 保留集EN → CRK未来(需要社区合作伙伴)社区治理组织

10. 语言卡集成

语料库框架与语言卡系统集成:

  1. 领域选择 由卡的 linguisticChallenges 知情——如果语言有独特挑战(多综合性、声调、生命性),语料库必须包含测试它们的条目。

  2. 难度校准 使用卡的 classification——源和目标语族之间的类型学距离影响什么构成"困难"。

  3. 语体覆盖 使用卡的 registers——如果语言有定义的语体(正式菲律宾语、他加禄语专业、他加禄语非正式),语料库应包含每个语体级别的条目。

  4. 接触影响测试 使用卡的 contactInfluences——对于有大量借词层的语言(菲律宾语:西班牙语 + 英语 + 阿拉伯语),包含测试方法是否正确处理借词与过度翻译它们的条目。

  5. 文字处理 使用卡的 scripts[]——对于多文字语言(塞尔维亚语:西里尔字母 + 拉丁字母),包含测试正确文字选择的条目。


参考文献

  • Champollion 评分规范 ——定义所有指标、复合权重、质量等级
  • Champollion 基准规范 ——评估协议、语料库格式、数据主权
  • WALS(世界语言结构地图集)——类型学特征数据库
  • Glottolog ——语言分类权威来源
  • ISO 639-3 ——语言识别标准
  • EdTeKLA ——第一个评估语料库的来源

本文档是一个活的规范。随着新语料库的构建和经验教训的获得而更新它。