发言人验证协议
目的。 本文档明确定义了我们从双语克里语–英语使用者那里需要什么来验证 LYSS 评估指标。没有这种验证,我们的自动化评分只是工程估计,而不是经过验证的质量测量。这是项目中最重要的单一缺口。
受众。 社区合作伙伴、潜在合作者、资助审查者和项目团队。
最后更新:2026-06-07
1. 为什么我们需要发言人
LYSS 评估框架(Linguistically-informed Yield & Structural Scoring)为英语 → 平原克里语翻译计算自动化质量评分。它使用三个核心信号:
- LYSS-fst:输出是否包含有效的克里语单词?(由 GiellaLT 有限状态转换器检查)
- LYSS-eq:输出是否是参考翻译的可接受变体?(由 linter 的等价类检查)
- LYSS-sem:输出是否保留了源文本的含义?(由语义验证器检查)
这些指标产生数字。我们不知道这些数字是否有意义。 FST 可能会拒绝它不认识的有效单词(借用词、新造词、专有名词)。Linter 可能会遗漏有效的等价或接受无效的等价。语义验证器可能会误判含义。在双语使用者告诉我们自动化评分是否与他们对翻译质量的人工判断相符之前,我们只是在猜测。
每个主要的机器翻译评估指标(BLEU、COMET、chrF++)都通过将自动化评分与数千项人工质量评估进行比较来验证。我们需要相同的验证——虽然规模较小,因为我们的资源有限,但具有相同的严谨性。
2. 我们需要什么:三项任务
任务 A:翻译质量评级(主要任务 — 总计约 8 小时)
内容: 在两个量表上评级 200 个机器生成的英语 → 克里语翻译。
参与者: 3 名或以上双语平原克里语–英语使用者,具有 SRO(标准罗马字正字法)的阅读流利度。
工作方式:
-
我们提供一个电子表格或网络表单,包含 200 行。每行包含:
- 英语源句子
- 机器生成的克里语翻译
- (可选)参考克里语翻译以供比较
-
对于每个翻译,发言人评级两个方面:
充分性(它是否表达了正确的意思?):
评分 标签 含义 1 无 翻译与源文本无关 2 少量 少数单词匹配但整体含义错误 3 部分 核心含义存在但重要部分缺失或错误 4 大部分 几乎一切正确,含义缺口很小 5 全部 翻译完全传达了源文本的含义 流畅性(它听起来像真正的克里语吗?):
评分 标签 含义 1 难以理解 这不是克里语 2 不流畅 单个单词可能是克里语但句子破碎 3 非母语 可以理解但显然不是克里语使用者会说的方式 4 良好 自然流畅,有轻微的尴尬之处 5 完美 克里语使用者可能会这样写 -
可选地,发言人可以添加自由文本注释来解释他们的评级(例如,"动词上的有生/无生一致性错误"、"这是 th 方言但我基于 y 方言评级")。
时间估计: 每个翻译约 2.5 分钟 × 200 个翻译 = 约 8 小时。可以分多个会话进行(例如,在 2 周内进行 4 × 2 小时的会话)。
补偿: $50–65 加元/小时(符合 BENCHMARK_SPEC §10.3 发言人补偿率)。每位发言人总计:$400–520 加元。3 位发言人:$1,200–1,560 加元。
我们如何使用它: 我们计算自动化 LYSS 评分与发言人评级之间的相关性。如果 LYSS-fst 与流畅性评级相关,LYSS-sem 与充分性评级相关,则指标得到验证。如果不相关,我们知道在哪里修复它们。
任务 B:Linter 等价性验证(约 2 小时)
内容: 审查 50 对克里语翻译,我们的 linter 将其分类为"等价",并告诉我们它们是否实际上意思相同。
参与者: 1–2 名双语使用者(可以是任务 A 的相同发言人)。
工作方式:
-
我们提供 50 对。每对包含:
- 英语源文本
- 翻译 A(参考)
- 翻译 B(我们的 linter 说等价的变体)
- 等价性原因(例如,"词序排列"、"正字法变体"、"可选粒子移除")
-
对于每一对,发言人回答:
- 含义相同? 是 / 否 / 取决于上下文
- 两者都自然? 是 / A 更好 / B 更好 / 都不自然
- 注释(可选自由文本)
时间估计: 每对约 2 分钟 × 50 对 = 约 2 小时。
补偿: $50–65 加元/小时 × 2 小时 = 每位发言人 $100–130 加元。
我们如何使用它: 我们计算每个等价类的精确度。如果发言人说 90% 的"词序"等价性确实等价,该类得到验证。如果他们说 40% 的"引理同义词"等价性错误,我们知道要修复或删除该类。
任务 C:FST 假拒绝审查(约 1.5 小时)
内容: 审查 100 个 FST 分析器拒绝的克里语单词(说它们不是有效克里语单词),并告诉我们它们是否实际上有效。
参与者: 1 名具有强克里语词汇知识的双语使用者。
工作方式:
- 我们在 436 条目的 EDTeKLA 黄金标准语料库上运行 FST 分析器,并收集它拒绝的每个单词。
- 我们向发言人呈现最多 100 个被拒绝的单词及其句子上下文。
- 对于每个单词,发言人回答:
- 这是有效的克里语单词吗? 是 / 否 / 不确定
- 如果是,什么类型? 既定单词 / 借用词 / 名字 / 方言形式 / 新造词 / 其他
- 注释(可选)
时间估计: 每个单词约 1 分钟 × 100 个单词 = 约 1.5 小时。
补偿: $50–65 加元/小时 × 1.5 小时 = $75–100 加元。
我们如何使用它: 我们计算 FST 的假拒绝率。如果 FST 拒绝 50 个单词,发言人说其中 30 个有效,假拒绝率为 60% — 不可接受地高,需要借用词/例外允许列表。如果发言人说只有 5 个有效,假拒绝率为 10% — 指标可靠。
3. 总发言人承诺
| 任务 | 所需发言人数 | 每位发言人小时数 | 每位发言人成本 | 总成本 |
|---|---|---|---|---|
| A:质量评级 | 3 | 约 8 小时 | $400–520 | $1,200–1,560 |
| B:Linter 验证 | 2 | 约 2 小时 | $100–130 | $200–260 |
| C:FST 审查 | 1 | 约 1.5 小时 | $75–100 | $75–100 |
| 总计 | 3 位发言人 | 约 11.5 小时(每位发言人最多) | $575–750(最多) | $1,475–1,920 |
如果相同的 3 位发言人完成所有任务:在 2–4 周内各约 11.5 小时,每人 $575–750。
仅完成任务 A 的单个发言人将承诺在 2 周内约 8 小时,$400–520。
4. 发言人资格
必需:
- 平原克里语和英语双语
- SRO(标准罗马字正字法)阅读流利度
- 能够在结构化量表上评级翻译
优选:
- 具有 y 方言的经验(我们来自 EDTeKLA 的参考语料库中使用的方言)
- 教学或翻译经验(提供校准的质量判断)
- 熟悉不同的语域(正式、教育、会话)
不需要:
- 技术或 NLP 知识(我们提供所有工具和上下文)
- 计算技能(评级界面将是简单的电子表格或网络表单)
- 之前参与 Champollion 项目
5. 数据治理
所有发言人贡献受项目的 OCAP®-forward 数据政策管理:
- 所有权: 发言人的质量评级保留其知识产权贡献。他们在任何出版物中按名字(或匿名,由他们选择)获得致谢。
- 控制: 发言人可以随时撤回其评级。撤回会从所有分析中删除其数据。
- 访问: 评级数据存储在社区治理组织(建立后)控制的基础设施上或发言人首选的平台上。
- 拥有: 原始评级数据永远不会发布。只有汇总统计数据(相关性、注释者间一致性)出现在出版物中。
- 补偿: 无论我们是否使用其评级,发言人都因其时间获得报酬。报酬不以结果为条件。
6. 发言人获得什么
除了补偿外:
- 共同作者身份在任何使用其评级的出版物上(如果需要)
- 致谢在所有项目文档中
- 提前访问评估工具和结果
- 输入关于指标如何使用 — 如果发言人说"你的 linter 在 X 上是错误的",我们修复 linter
- 否决权对他们认为有问题的结果的发布
7. 如何开始
如果您是有兴趣参与的双语克里语–英语使用者,或者您认识可能感兴趣的人:
- 联系我们在 [project email/contact] — 无需承诺,只是一次对话
- 我们用简单语言解释任务(无行话)
- 您选择您感兴趣的任务(A、B、C 或任何组合)
- 我们制定适合您的时间表(2 小时块,灵活的时间)
- 您通过电子表格或网络表单评级翻译 — 从任何地方,按您自己的时间
- 我们及时付款 — 在完成每个任务块后的 2 周内
8. 之后会发生什么
有了发言人验证数据,我们可以:
- 发布指标相关性 — 证明(或反驳)LYSS 评分反映人工判断
- 重新校准指标 — 根据发言人反馈调整权重、阈值和等价类
- 修复 linter — 删除假等价,添加缺失的等价
- 修复 FST 允许列表 — 添加 FST 错误拒绝的有效单词
- 提交到学术场所 — 以发言人为共同作者,将 LYSS 确立为多综合语言机器翻译评估的经过验证的指标
没有发言人验证,LYSS 仍然是一个工程工具。有了它,LYSS 成为一个科学基础的评估指标。这是"我们构建了什么"和"我们证明了它有效"之间的区别。