跳转到主要内容

报告错误和拥有更正权

立场。 对于发布数千种语言的事实和评估的平台来说,出错是不可避免的。不可避免的是当报告错误时谁会被相信,以及谁拥有更正权。我们的答案是:流利使用者的报告优先于我们的自动化系统,每项更正都附带来源信息说明谁改了什么以及为什么,社区可以撤回或否决其语言数据的使用——不是作为一种礼貌,而是作为架构中强制执行的属性。

大多数数据平台将错误报告视为支持工单:用户投诉,维护者决定,记录无声地改变。对于土著语言数据,这种模式是颠倒的。报告错误的人通常比平台更有权威性——使用者告诉我们一个词是错的,他们不是"用户",而是纠正代理的基本事实。下面的设计源于认真对待这一点。


两种错误,一个原则

该平台发布两类可能出错的声明:

  1. 关于语言的事实 ——驱动评估的语言卡片:分类数据、正字法、语言特征、哪些指标适用。卡片可能声称错误的使用者估计、错误的方言关系、错误的书写系统状态。
  2. 关于翻译的判断 ——语料库中的参考翻译,使用者认为其错误或不自然;自动指标拒绝有效词汇或接受无效词汇;使用者不会接受的"可部署"徽章。

涵盖两者的原则,已在评分规范基准规范 §7中生效:自动化输出是代理;使用者是基本事实。 使用者验证协议 §6中发布的承诺直言不讳:如果使用者说 linter 在某事上是错的,我们会修复 linter。

报告如何流转

以下是报告采取的路径,带有诚实的状态标记——其中一些现在运行,一些已指定但尚未构建。

报告错误的翻译或指标判断(现在运行,通过直接渠道)。 看到错误参考翻译、错误拒绝词汇或不可接受"等价物"的使用者可以通过项目的公共存储库问题跟踪器或直接联系项目来报告。这个的结构化版本——带有拒绝 / 要点 / 可接受 / 优秀选项和自由文本注释的评分屏幕——是社区审查界面,在基准规范 §7.3中指定但尚未上线。在它上线之前,报告通过人对人处理,验证任务本身(付费、结构化使用者审查——见使用者如何获得报酬)是主要的更正管道。

报告语言卡片上的错误事实(现在运行,相同渠道)。 卡片更正遵循相同的路径:报告、审查、版本化更改。因为卡片驱动评估行为——哪些指标加载、推荐哪些模型——卡片修复可以改变分数,所以更正作为记录的数据更改应用,从不无声编辑。

接下来会发生什么——谁决定:

  • 语言学判断属于该语言的使用者。 一个形式是否有效、两个措辞是否等价、一个寄存器是否合适——平台实现答案;它不提供答案。使用者意见不一致的地方(方言、正字法约定),答案被记录为变体,而不是由我们裁定——语料库和 linter 模式支持将方言变体标记为可接受的替代方案,而不是强制一个赢家。
  • 关于社区数据的决定属于其治理组织。 对于有治理组织的语言,对评估语料库的更改、对密封测试集的更正的接受以及部署后果通过它们进行——这是OCAP®的控制原则作为流程而不是海报实现。
  • 机械错误只是被修复。 打字错误、断开的链接、解析错误的字段——报告、更正、记录。不是所有事情都需要委员会。

更正附带来源信息

无法追踪的更正只是一个更新的意见。三个来源规则适用于每个事实和每个修复:

  1. 每个事实都命名其来源。 语言卡片和语料库条目记录每个值来自何处——已发布的数据集、社区贡献、使用者的审查。
  2. 派生值被标记为我们的,而不是上游的。 当平台计算某些东西时——聚合、重新编码、复合——它被记录为平台派生上游来源,从不以上游的名义写入。上游数据集不应该因为或被记入它没有发布的数字而受到指责或获得信用。
  3. 更正成为记录的一部分。 使用者的更正被记录为新的、有属性的断言(由使用者选择命名或匿名——与验证工作相同的条款),取代旧值;所有更改内容的历史保持可审计。语料库版本是哈希清单化的(语料库合作 §4.4),所以更正的语料库是一个明显的新版本,每个运行卡片记录它被评分的确切版本——旧分数保持可解释,新分数反映修复。

否决权,具体来说

"社区控制"很容易声称。以下是它在发布的架构中的具体体现:

  • 使用者可以撤回他们的贡献。 使用者可以随时撤回他们的评分,撤回会将其从所有分析中删除(使用者验证 §5)。使用者也对他们认为有问题的结果发布拥有否决权。
  • 社区可以完全停止评估。 密封测试集是加密的,密钥由平台单独持有,平台永远无法重建它们;社区可以通过拒绝参与密钥重建来撤销评估访问权限(语料库合作 §4.3)。"如果我们想停止怎么办?"有一个指定的答案:密封数据永远不会被暴露,评估结束。
  • 没有分数覆盖社区决定。 排行榜顶部的方法仍然只有在治理组织同意的情况下才能部署(所有权转移)——社区决定他们的语言根本不应该部署 MT 的社区正在按设计使用系统,而不是破坏它(见翻译不是复兴)。

我们尚未构建的内容

本着这个书架其余部分的精神:社区审查界面已计划但未上线。治理组织对当前任何语言都未建立——Plains Cree 基准的社区监管权在确认中,我们在他们同意之前不会公开命名监管人。在这些部分存在之前,更正通过直接、可追踪的渠道运行,发布的规范——而不是本页——仍然是流程的约束性描述。如果本页和规范不一致,规范获胜,我们会认为这种不一致是值得报告的错误。


这对你意味着什么

:::info 如果你是社区成员 如果你的语言在这个平台上有什么错误——一个事实、一个翻译、一个标签——你的报告是来自基本事实的证词,而不是要分类的投诉。你决定你的更正是否按名称记入;你的贡献可以稍后撤回;你的社区可以完全停止使用其数据。从为语言社区开始,或者只是在公共存储库上打开一个问题。 :::

:::info 如果你是研究人员 这里的更正是有来源的数据,而不是无声编辑:语料库版本是哈希的,运行卡片固定它们被评分的确切版本,派生值被标记为派生。如果你基于 Arena 分数或语料库构建,引用版本——并将使用者驱动的更正波视为关于指标有效性的发现,因为这就是它的本质。 :::

:::info 如果你是构建者 你的方法分数可以在你的代码没有改变的情况下合法地改变——一个错误拒绝的词被允许列表化,一个参考翻译被更正,一个变体类被修复。为此设计:在你的运行卡片中固定语料库版本(运行卡片规范),监视数据集变更日志,并将使用者更正视为你将免费获得的最可靠的错误信号。 :::

另见