Do Benchmark ao Uso Diário: O Caminho da Pós-Edição
A versão resumida. Uma pontuação em leaderboard não é um produto. O caminho de "este método marca 0,78" para "o escritório da comunidade publica documentos no idioma toda semana" passa por exatamente um fluxo de trabalho: a máquina produz um rascunho, um falante fluente o corrige, e apenas o texto corrigido é publicado. Cada limite de qualidade em nossas especificações é calibrado para esse fluxo de trabalho — não para saída de máquina não supervisionada, que não endossamos para nenhum idioma nesta plataforma.
Às vezes as pessoas perguntam quando um método de tradução será "bom o suficiente para apenas usar". Para os idiomas que esta Arena serve, essa pergunta tem uma armadilha. A resposta honesta é que o limite que vale a pena buscar não é "bom o suficiente para publicar sem revisão" — é "bom o suficiente para que revisar um rascunho seja melhor que traduzir do zero." Esse limite é muito mais baixo, é mensurável, e cruzá-lo muda o que um escritório de tradução comunitário pode produzir em uma semana.
O fluxo de trabalho, de ponta a ponta
English source document
│
▼
Machine draft ← a benchmarked, community-owned method
│
▼
Fluent-speaker post-edit ← the human gate; nothing skips it
│
▼
Published text ← carries human approval, not a machine score
│
▼
(Optional, community-controlled) corrections become
data that improves the next version of the method
Três coisas a notar:
- A máquina nunca publica. A unidade de saída é um rascunho. A passagem de correção do falante não é garantia de qualidade colada no final — é o fluxo de trabalho.
- O tempo do falante é o recurso sendo otimizado. Um método é melhor que outro método exatamente na medida em que deixa menos para o falante corrigir. Pesquisas sobre pós-edição para idiomas bem-dotados de recursos consistentemente encontram ser mais rápido que traduzir do zero em qualidade MT moderada (Plitt & Masselot 2010; Green, Heer & Manning 2013, ambos citados com links em Translation Is Not Revitalization). Se isso se mantém para idiomas polissintéticos é precisamente o que o benchmark existe para descobrir — tratamos como uma hipótese a verificar por idioma, não uma suposição.
- O loop de feedback é de propriedade da comunidade. Cada documento corrigido é potencial dado de treinamento e coaching — e pertence à comunidade, para realimentar (ou não) em seus próprios termos sob as regras de data sovereignty. O mecanismo de feedback é um objetivo de design da plataforma, ainda não um recurso construído; veja Reporting Errors and Owning Corrections para como correções e proveniência devem funcionar.
O que os níveis de qualidade significam para uso real
O leaderboard avalia métodos em um composto de métricas automatizadas (Scoring Specification), e as pontuações mapeiam para níveis nomeados. Aqui está a tradução honesta desses níveis em termos de uso diário:
| Nível (composto) | O que significa para o caminho da pós-edição |
|---|---|
| Baseline (0,00–0,30) | Não utilizável para nada. A saída é em grande parte não o idioma alvo. Útil apenas como piso de pesquisa. |
| Emerging (0,30–0,50) | Ainda não é uma ferramenta de rascunho. Fragmentos corretos aparecem, mas um falante gastaria mais tempo corrigindo que escrevendo do zero. |
| Functional (0,50–0,70) | O primeiro nível onde pós-edição pode ser melhor que tradução do zero para textos fáceis — vale a pena pilotar com um falante, não vale a pena depender. Erros morfológicos frequentes permanecem. |
| Deployable (0,70–0,85) | O nível alvo para o fluxo de trabalho acima: rascunhos onde a maioria da morfologia está correta e um falante fluente pode corrigir significativamente mais rápido que retraduzir. "Deployable" significa deployable em um fluxo de trabalho de pós-edição — nunca "publicar sem revisão." |
| Fluent (0,85–1,00) | Aproximando-se de tradução humana competente; erros raros e menores. A passagem de revisão permanece — apenas fica mais rápida. |
Duas regras de honestidade estrutural ficam no topo desta tabela, direto da Benchmark Specification §5 e §7:
- Níveis automatizados são rótulos provisórios, não vereditos. São indicações para revisão humana. Os limites serão recalibrados conforme dados de validação de falantes se acumulam, e podem cair diferentemente para idiomas diferentes.
- Nenhum método pode reivindicar Deployable ou acima sem revisão comunitária. Uma amostra estratificada de sua saída vai para falantes bilíngues, que avaliam cada tradução como reject / gist / acceptable / excellent. A organização de governança — não o leaderboard — decide se o método avança.
Para comparação, o limite do Founder's Prize (composto ≥ 0,80, ≥99% palavras morfologicamente válidas, ≥70% falantes avaliando acceptable-or-better) descreve um método cujos erros restantes são erros de linguagem real — inflexão errada, não palavras fabricadas. É assim que "um rascunho que vale o tempo de um falante" se parece em números.
De um método vencedor para um escritório funcionando
Suponha que um método ultrapasse esses portões. Os passos restantes são organizacionais, e são especificados em vez de improvisados:
- A propriedade é transferida. O código do método se torna propriedade da organização de governança da comunidade — o desenvolvedor mantém direitos de atribuição e publicação (Ownership Transfer).
- O método se torna um serviço. É empacotado como um plugin e servido através da plataforma de deployment, com a comunidade controlando acesso, preços e usos permitidos (Deploy to Production).
- Tradutores o conectam ao seu dia. Um escritório de tradução aponta seu fluxo de trabalho de documento existente para a API do método: texto de origem entra, rascunho sai, pós-edita, publica. O texto publicado carrega o nome e autoridade do tradutor — a máquina é uma ferramenta na sua mesa, como um dicionário.
- A receita segue o uso. Desenvolvedores externos que usam o método pagam taxas medidas, e 90% dessa receita flui para a organização de governança (The Economic Model) — que pode financiar mais horas de tradutor, fechando o loop.
Onde isso está hoje
Claramente: o caminho completo é especificado de ponta a ponta, e parcialmente construído. O harness de avaliação, métricas, run cards e leaderboard público existem; o corpus de desenvolvimento Plains Cree e um prêmio ativo existem; a plataforma de deployment existe. A interface de revisão comunitária, a sandbox de avaliação e o loop de realimentação de texto corrigido são especificados mas ainda não operacionais — as especificações os marcam como planejados, e nós também. Nenhum método completou ainda a jornada inteira do benchmark ao uso diário comunitário. Essa jornada é a definição de sucesso do projeto, que é exatamente por que não a reivindicaremos cedo.
O que isso significa para você
:::info Se você é um membro da comunidade Um badge "Deployable" no leaderboard nunca significa que uma máquina publicará no seu idioma sem supervisão — significa que um gerador de rascunho pode estar pronto para fazer uma audição para seus tradutores, em seus termos, com seus falantes como juízes (pagos — veja How Speakers Get Paid). Se sua comunidade executa um escritório de tradução, a pergunta relevante a nos trazer é: "como seria um piloto, e quem revisa a saída?" :::
:::info Se você é um pesquisador O enquadramento de pós-edição muda o que vale a pena medir: tempo para texto aceitável com um falante no loop, não apenas pontuação composta. As métricas da Arena são proxies para isso (Scoring Specification §1), e estudos de pós-edição por idioma para idiomas morfologicamente complexos são uma lacuna de pesquisa aberta que esta infraestrutura é projetada para apoiar. :::
:::info Se você é um construtor Otimize para o editor, não para a métrica. Um método que produz palavras reais com inflexões ocasionalmente erradas é corrigível em segundos por um falante; um método que alucina formas plausíveis envenena todo o fluxo de trabalho — é por isso que a validade morfológica é tão rigorosamente controlada aqui. Comece em Submit a Method, e leia Method Interface para o que você eventualmente entregará se vencer. :::
Veja também
- Translation Is Not Revitalization — por que o portão humano é o ponto, não uma limitação
- Reporting Errors and Owning Corrections — o que acontece quando o texto publicado está errado mesmo assim
- Benchmark Specification §7 — o portão de validação humana, formalmente