소유권 이전
핵심 요약. 번역 방법이 Deployable 등급(composite ≥ 0.70)에 도달하고 커뮤니티 검토를 통과하면, 코드 소유권이 연구자에서 원주민 거버넌스 조직으로 이전돼요. 이 페이지에서는 5단계 이전 파이프라인, OCAP® 정렬, 그리고 원주민 언어용 방법을 구축하는 연구자를 위한 안내를 다뤄요.
번역 방법이 Arena 리더보드에서 우승하면, 그 코드는 어떻게 될까요? 원주민 언어와 저자원 언어의 경우, 답은 "연구자가 가진다"가 아니에요. 답은 이거예요: 커뮤니티가 소유해요.
작동 방식
Arena는 연구에서 커뮤니티 소유권으로 이어지는 명확한 파이프라인을 적용해요:
1. 방법 개발
연구자, 학생, 또는 개발자가 번역 방법을 구축해요 — FST-gated 파이프라인, coached LLM, 파인튜닝된 모델, 또는 그 밖의 어떤 접근 방식이든 가능해요. 그들은 자신의 자원을 사용해 개발해요.
2. Arena 평가
해당 방법은 eval harness를 통해 벤치마킹돼요. 모든 제출물은 특정 Git 커밋과 데이터셋 버전에 핑거프린팅돼요. 점수는 재현 가능해요.
3. 커뮤니티 검토
원주민 언어 방법의 경우, 결과는 커뮤니티 언어 작업자와 거버넌스 조직이 검토해요. 높은 리더보드 점수는 그 방법이 작동한다는 것을 증명할 뿐, 적절하다는 것을 증명하지는 않아요.
4. 코드 이전
어떤 방법이 Deployable 등급(gold-standard 평가 대비 composite score ≥ 0.70)에 도달하고 동시에 커뮤니티 검토(사람에 의한 검증)를 통과하면:
- 연구자는 소스 코드를 넘겨요
- 법적 소유권이 원주민 거버넌스 조직(예: 부족 의회, 언어 당국, 또는 Métis 조직)으로 이전돼요
- 거버넌스 조직이 평가 데이터셋의 암호화 키를 보유해요
- 해당 방법은 커뮤니티가 통제하는 자산이 돼요
품질 등급 정의는 Scoring Specification §5를, 전체 이전 조건은 Benchmark Specification §8.3을, 사람에 의한 검증 게이트는 §7을 참고하세요.
5. 프로덕션 배포
해당 방법은 champollion 플러그인으로 내보내져 프로덕션 API에 배포돼요. 커뮤니티는 다음을 통제해요:
- 누가 해당 방법에 접근할 수 있는지
- 어떤 가격 조건이 적용되는지
- 해당 방법을 상업적으로 사용할 수 있는지
- 언제 어떻게 해당 방법이 업데이트되는지
왜 중요한가
전통적인 ML 연구는 착취적 패턴을 따라요:
- 연구자가 커뮤니티에서 데이터를 수집해요
- 연구자가 모델을 학습시켜요
- 연구자가 논문을 발표해요
- 커뮤니티는 아무것도 받지 못해요
이 패턴은 이제 산업 규모로 작동해요. Meta의 OMT-1600(2026년 3월)은 웹 스크래핑 데이터와 성경 번역을 사용해 Plains Cree 같은 원주민 언어를 포함한 1,600개 언어에 대한 번역 모델을 학습시켰어요. 이 모델들은 커뮤니티 동의 프로토콜 없이 학습되었고, 가중치는 현재 다운로드할 수 없으며, 자신의 언어가 모델링된 커뮤니티는 소유 지분도, 거버넌스 역할도, 수익도 갖지 못해요. 논문이 제품이에요. 커뮤니티는 데이터 출처일 뿐이에요.
Arena는 이를 뒤집어요:
- 연구자가 방법을 구축해요
- Arena가 형태론적 지표로 커뮤니티가 큐레이션한 코퍼스 대비 그것을 검증해요
- 커뮤니티가 작동하는 코드의 소유권을 받아요
- 커뮤니티가 API 사용으로 수익을 얻어요
이것이 OMT-1600을 포함한 다른 모든 LRL MT 노력과 Champollion의 근본적인 차이예요: 우리는 단지 커뮤니티를 위한 방법을 생산하는 것이 아니라 — 방법의 소유권을 커뮤니티에게 이전해요. 코드, 가중치, 배포 인프라 — 이 모든 것이 커뮤니티의 자산이 돼요. 이것은 이론적 프레임워크가 아니라 — 플랫폼상의 모든 원주민 언어 방법에 적용되는 실제 운영 파이프라인이에요.
OCAP® 정렬
소유권 이전 과정은 OCAP® 원칙을 직접 구현해요:
| 원칙 | 구현 |
|---|---|
| Ownership | 거버넌스 조직이 방법 코드와 모델 가중치에 대한 권리를 보유해요 |
| Control | 거버넌스 조직이 배포 조건, 접근, 가격을 통제해요 |
| Access | 커뮤니티 구성원은 champollion API 또는 직접 다운로드를 통해 방법에 접근해요 |
| Possession | 언어 자원(코칭 데이터, 사전, FST 규칙)은 api 방법을 통해 커뮤니티가 통제하는 인프라에 남아 있어요 |
연구자를 위한 안내
원주민 언어용 방법을 개발하고 있다면:
- 관계를 구축하세요 — 시작하기 전에 언어 커뮤니티와 관계를 맺으세요
- 공개 라이선스 데이터를 사용하세요 — 개발에는 (커뮤니티 제한 자원이 아닌) 공개 라이선스 데이터를 사용하세요
- 출처를 문서화하세요 — run card에 모든 자원, 그 라이선스, 출처를 나열하세요
- 이전을 준비하세요 — 방법이 성공하면, 코드는 당신이 아니라 커뮤니티의 것이에요
- 이것은 한계가 아니라 기능이에요 — 당신의 기여는 아키텍처와 기법이며, 이는 발표하고 재사용할 수 있어요. 커뮤니티의 기여는 그것이 자신들의 언어에서 작동하게 만드는 언어 지식이에요.
더 보기
- 데이터 주권 — OCAP, CARE, Te Mana Raraunga 원칙
- 경제 모델 — 소유권이 수익이 되는 방식
- 저자원 언어 지원하기 — 연구 맥락