번역은 되살리기가 아니에요

입장. 기계 번역은 언어 간에 텍스트를 변환해요. 되살리기는 새로운 화자를 만들어내요. 이 둘은 서로 다른 성공 기준을 가진 별개의 활동이며, 어떤 리더보드 점수도 그 사실을 바꾸지 못해요. 우리는 MT를 공동체의 목표에 기여하는 기반 인프라로 구축하지, 결코 세대 간 전승의 대체물로 만들지 않아요. 아이들은 기계가 아니라 사람에게서 언어를 배워요.

2026년에는 소프트웨어가 무엇이든 고칠 수 있다고 믿기 쉬워요. 화자를 잃어가는 언어까지도요. 우리는 그 믿음이 왜 틀렸는지, 그리고 번역 기술이 정직하게 기여할 수 있는 것이 무엇인지를 명확히 하고자 해요.

이 글은 우리가 이 프로젝트를 비판해 달라고 초청한 한 언어학자가 강력하게 제기한 주장에서 비롯되었어요. 완벽한 영어→Cree 번역 시스템조차 전승의 문제(아이들이 가정에서 언어를 배우지 않는 것), 위신의 문제(경제적 권력의 언어로서의 영어), 교육의 문제(충분하지 않은 몰입 학교와 훈련된 교사)를 해결하지 못한다는 주장이었어요. 오히려 "컴퓨터가 Cree를 말할 수 있다"는 환상을 만들어내고 인간 전승의 시급성을 완화시켜 상황을 더 악화시킬 수도 있어요. 우리는 그 비판의 대부분을 받아들였으며, 우리의 답변을 묻어두는 대신 여기에 게시해요.

되살리기에 실제로 필요한 것

언어 되살리기에 관한 연구 문헌은 한 가지 점에서 일관돼요. 언어는 세대 간에 전해질 때, 즉 부모와 조부모와 공동체가 아이들에게 그 언어로 말하고 아이들이 그 언어로 자라날 때 살아남아요(Fishman 1991; Hinton & Hale 2001). 그 밖의 모든 것—학교, 미디어, 사전, 앱—은 그 전승을 뒷받침하거나, 아니면 아무것도 뒷받침하지 못해요.

어떤 번역 시스템도 그 교환에 참여하지 않아요. 영어 문서를 Plains Cree로 변환하는 모델은 화자를 만들어내지 않아요. 몰입 교실에 인력을 배치하거나, 교사를 훈련시키거나, 아이와 함께 식탁에 앉아주지 않아요. 우리의 작업이 "언어를 구한다"고 묘사된다면 그 묘사는 틀린 것이며, 우리는 그렇다고 말할 거예요.

MT가 할 수 없는 것

나중에 모호함이 없도록 분명하게 밝혀요.

화자를 대체할 수 없어요. 유창한 화자가 검토하지 않은 출력물은 텍스트가 아니라 초안이에요. 우리의 채점 규칙은 모든 자동 점수를 대리 지표로 취급해요. 오직 인간의 검토만이 사용 가능성을 확인해요.
제1언어를 가르칠 수 없어요. 아이들은 번역된 문서가 아니라 관계와 몰입을 통해 언어를 습득해요.
해로운 환상을 만들어낼 수 있어요. 언어를 "말하는" 데모는 그 언어가 위험에 처하지 않았다고 시사할 수 있어요. 실제로는 그렇지 않은데도요. 이 위신의 위험은 실재하며, 우리는 이를 관리해야 할 논점이 아니라 공동체와 함께 검토해야 할 열린 질문으로 다뤄요.
아무것도 결정할 수 없어요. 어떤 언어를 위한 번역 시스템이 존재해야 하는지, 그리고 어디에 사용될 수 있는지는 공동체의 결정이에요. 아예 배포하지 않겠다는 결정까지 포함해서요. 그 통제권은 소유권 이전과 데이터 주권 아키텍처에 내장되어 있으며, 맥락도 포함해요. 어떤 공동체는 공식 문서에는 MT를 받아들이면서 교실 자료에는 거부할 수도 있어요.

MT가 정직하게 할 수 있는 것

그러한 배경 속에서, 번역 인프라가 기여하는 구체적이고 한정된 것들이 있어요. 각각은 이미 실제 작업을 하고 있는 사람들에게 기여해요.

1. 과부하된 번역자를 위한 처리량. 공동체 번역 사무소는 인간 번역자가 처음부터 만들어낼 수 있는 것보다 더 많은, 그 언어로 존재해야 할 문서에 직면해요. 기계 초안은 작업을 "모든 것을 번역하기"에서 "검토하고 교정하기"로 바꿔요. 통제된 연구들은 사후 편집이 처음부터 번역하는 것보다 품질을 유지하거나 향상시키면서도 의미 있게 더 빠르다는 것을 발견했어요(Plitt & Masselot 2010; Green, Heer & Manning 2013). 이 워크플로우는 벤치마크에서 일상적 사용으로에서 자세히 설명해요. 단서를 달자면, 그 연구들은 고자원 언어 쌍을 다뤘으며, 우리는 아직 다종합어에 대한 동등한 증거를 갖고 있지 않아요. 이것이 바로 이 프로젝트가 측정하고자 하는 것의 일부예요.

2. 언어 권리를 위한 실질적 지렛대. 토착어로 정부 서비스를 받을 권리는 여러 관할권에서 법으로 존재해요. 종종 빠져 있는 것은 관료제가 요구하는 속도로 번역물을 만들어내는 실질적 역량이에요. 50쪽짜리 정책 문서를 몇 달이 아니라 며칠 만에 검토된 번역물로 바꿀 수 있는 공동체는 더 강력한 협상 위치에 있어요. 기술은 그 권리를 만들어내지 않아요. 다만 그 권리를 무시하기 어렵게 만들어요.

3. 재사용 가능한 언어 인프라. 우리는 번역 출력물이 환각된 단어가 아니라 실제 단어를 포함하는지 검증하기 위해 형태소 분석기(FST)를 사용하는데, 이는 각 단어 형태가 왜 유효한지를 인코딩해요. 바로 그 동일한 메커니즘이 학습 도구의 기반이 돼요. 활용 훈련기, 오류 교정 작문 보조 도구, 형태소 탐색기 같은 것들이요. 검증 엔진과 교육 엔진은 같은 산물이에요. 이것은 약속이 아니라 경로예요. 학습 도구는 구축이 필요하며, 구축 여부는 공동체의 결정이에요.

4. 제2언어 학습자를 위한 지원. 되살리기는 아이들이 제1언어를 습득하는 것만이 아니에요. 제2언어로 배우는 성인들도 포함돼요. 결코 원로 수준의 유창함에 도달하지 못할 수도 있지만, 공동체 문서를 읽고, 이해하며 참여하고, 언어를 사용함으로써 그 언어의 공적 존재감을 높일 수 있는 사람들이요. 이 집단에게 번역 보조 도구는 사전이 도구인 것과 마찬가지로 진정한 도구예요.

5. 작업이 본거지에서 자금 지원받고 소유될 이유. 우리의 모델에서, 입증된 방법은 공동체 소유로 이전되고 API 수익은 압도적으로 공동체로 흘러가요(경제 모델). 화자는 자신의 전문성에 대해 보수를 받지, 그것을 자원봉사로 요청받지 않아요. 그 어느 것도 되살리기는 아니에요. 하지만 되살리기를 하는 사람들로부터 자원을 빼앗는 대신 그들에게로 자원을 향하게 해요.

정직한 틀

이 분야에는 구조 서사를 가지고 도착해서 논문을 가지고 떠나는 기술 프로젝트들의 오랜 기록이 있어요(Bird 2020). 우리는 더 좁은 주장을 견지하려고 해요. MT는 인프라예요. 인프라는 다른 사람들이 설정한 목표에 기여해요. 도로가 당신이 어디로 여행할지 결정하지 않듯이, 이 기술은 언어가 살아남을지를 결정하지 않아요. 화자, 가족, 공동체가 결정해요. 그리고 유네스코 토착어 국제 10년의 틀이 도구가 아닌 토착민을 중심에 두는 것은 옳아요.

어떤 공동체가 번역 기술이 자신들의 목표에 도움이 된다고 결론 내린다면, 우리는 그것이 가능한 한 최선이고 가장 책임감 있는 버전이기를 바라요. 그들이 소유하고, 그들의 화자가 검증하고, 그들의 조건에 따라 배포되는 것이요. 어떤 공동체가 도움이 되지 않는다고 결론 내린다면, 그 결론은 이 프로젝트의 실패가 아니라 유효한 결과예요. 그 문장의 양쪽 절반 모두가 약속이에요.

이것이 당신에게 의미하는 것

:::info 공동체 구성원이라면 이 프로젝트는 앱이 당신의 언어를 구할 수 있다고 말하지 않아요. 그럴 수 없으니까요. 이 프로젝트가 제공하는 것은 한정되어 있어요. 유창한 화자의 검토 하에 더 빠른 문서 번역, 공동체가 온전히 소유할 수 있는 인프라, 그리고 화자의 전문성에 대한 보상이요. 그중 무엇이든 사용 여부와 사용 방법은 당신 공동체의 결정이에요. 사용하지 않겠다는 결정까지 포함해서요. 언어 공동체를 위하여와 오류 보고와 수정 소유하기를 참고하세요. :::

:::info 연구자라면 "멸종 위기 언어를 위한 MT"를 되살리기 주장이 아니라 인프라 주장으로 다루면, 평가 질문이 바뀌어요. "BLEU 점수가 높은가?"가 아니라 "이것이 실제 작업을 하는 사람들의 업무량을, 그들의 조건에 따라, 측정 가능하게 줄여주는가?"로요. 벤치마크 사양과 작동 방식 §8 (긴장과 한계)에서 우리는 그 기준에 우리 자신을 비춰 봐요. :::

:::info 구축자라면 데모가 아니라 사후 편집 워크플로우를 위해 구축하세요. 당신 방법의 사용자는 초안을 교정하는 유창한 화자이며, 최악의 실패 양상은 비화자에게 그럴듯해 보이는 환각된 단어예요. 그래서 여기서는 형태소 검증이 모든 것의 관문이 돼요. 방법 제출하기와 벤치마크에서 일상적 사용으로에서 시작하세요. :::

출처

Fishman, J. A. (1991). Reversing Language Shift: Theoretical and Empirical Foundations of Assistance to Threatened Languages. Multilingual Matters.
Hinton, L., & Hale, K. (eds.) (2001). The Green Book of Language Revitalization in Practice. Academic Press.
Plitt, M., & Masselot, F. (2010). "A Productivity Test of Statistical Machine Translation Post-Editing in a Typical Localisation Context." The Prague Bulletin of Mathematical Linguistics, 93, 7–16. PDF
Green, S., Heer, J., & Manning, C. D. (2013). "The Efficacy of Human Post-Editing for Language Translation." Proceedings of CHI 2013. Paper
Bird, S. (2020). "Decolonising Speech and Language Technology." Proceedings of COLING 2020, 3504–3519. Paper
UNESCO. International Decade of Indigenous Languages 2022–2032. idil2022-2032.org

함께 보기

화자가 보수를 받는 방식 — 보상 모델을 숫자로
벤치마크에서 일상적 사용으로 — 사후 편집 경로
작동 방식 — 우리가 아직 해결하지 못한 긴장을 다룬 §8을 포함한 전체 플랫폼 아키텍처

되살리기에 실제로 필요한 것​

MT가 할 수 없는 것​

MT가 정직하게 할 수 있는 것​

정직한 틀​

이것이 당신에게 의미하는 것​

출처​

함께 보기​