언어 공동체를 위한 안내
핵심 요약. 원주민 언어 및 저자원 언어 화자를 위한 안내서로, Arena에 기여하는 방법(참조 번역, 번역 검토, 코칭 데이터)과 공동체가 그 대가로 받는 것(코드 소유권, API 수익, 전체 배포 제어권)을 설명해요. 프로그래밍 지식은 필요하지 않아요.
Arena에 기여하기 위해 프로그래머일 필요는 없어요. 여러분이 원주민 언어나 저자원 언어를 구사한다면, 이 생태계에서 가장 중요한 사람이에요.
여러분에게 필요한 것
참조 번역
평가를 위해 선별된 번역 쌍이 필요해요 — 한쪽은 영어, 다른 한쪽은 여러분의 언어로요. 이것이 모든 번역 방법을 채점하는 기준이 되는 "정답지"가 돼요.
다음과 같은 자료에서 만들 수 있어요:
- 교육 자료 — 교과서 연습 문제, 수업 계획, 학습지
- 공동체 문서 — 회의록, 소식지, 공지 사항
- 일상 표현 — UI 문자열, 앱 라벨, 흔히 쓰이는 표현
- 문화 콘텐츠 — 이야기, 노래, 설명(적절한 허가를 받은 경우)
형식은 간단한 JSON이에요:
{
"entries": [
{ "id": 1, "source": "Hello", "reference": "tânisi" },
{ "id": 2, "source": "Thank you", "reference": "kinanâskomitin" }
]
}
번역 검토
작동하는 번역을 생성한다고 주장하는 모든 방법에는 사람의 검증이 필요해요. 이중 언어 화자가 출력 결과를 검토하고 컴퓨터가 제대로 번역했는지, 그리고 더 중요하게는 왜 잘못 번역했는지 알려줘요.
코칭 데이터
문법 규칙, 사전 표제어, 형태론적 패턴 — 이러한 것들이 번역 방법을 작동하게 하는 언어 자원이에요. 여러분의 언어가 어떻게 작동하는지에 대한 지식은 그 어떤 AI 모델로도 대체할 수 없어요.
여러분이 받는 것
소유권
여러분의 언어를 위한 번역 방법이 만들어지고 Arena에서 검증되면, 소유권이 이전돼요 — 여러분 공동체의 거버넌스 조직으로요. 코드, 모델 가중치, 배포까지 모두 여러분이 소유해요.
수익
개발자가 champollion API를 통해 여러분 언어의 방법을 사용하면, 여러분의 공동체가 API 수익의 90%를 받아요. 나머지 10%는 인프라 비용으로 충당돼요.
제어권
여러분의 거버넌스 조직이 다음을 제어해요:
- 누가 해당 방법에 접근할 수 있는지
- 상업적으로 사용될 수 있는지 여부
- 어떤 가격 조건이 적용되는지
- 언제 어떻게 업데이트되는지
- 추가 개발에 어떤 데이터가 사용되는지
참여하는 방법
- 연락하기 — Arena 저장소에 이슈를 등록하거나 메인테이너에게 이메일을 보내세요
- 언어 설명하기 — 어떤 어족에 속하나요? 화자는 몇 명인가요? 어떤 문자 체계를 사용하나요? 어떤 전산 자원(FST, 사전, 코퍼스)이 존재하나요?
- 작게 시작하기 — 선별된 번역 쌍이 50개만 있어도 평가 데이터셋을 만들고 새로운 리더보드 트랙을 여는 데 충분해요
- 거버넌스와 연결하기 — 여러분 공동체에서 언어 데이터와 기술에 대한 권한을 가진 사람은 누구인가요? Arena의 주권 모델에는 거버넌스 파트너가 필요해요
데이터 주권
여러분의 언어 데이터는 여러분의 것이에요. Arena는 OCAP® 원칙을 기반으로 구축돼요:
- 저희는 여러분의 언어 데이터를 결코 저희 서버에 수집하거나 저장하지 않아요
- 번역 방법은
api아키텍처를 사용해요 — 모든 코칭 데이터, 사전, 문법 규칙은 여러분이 제어하는 인프라에 그대로 남아 있어요 - 누가 여러분 언어를 위한 방법을 개발할 수 있는지는 여러분이 결정해요
- 리더보드 점수는 방법이 작동한다는 것을 증명할 뿐, 그것을 배포할 권한을 부여하지는 않아요
함께 보기
- 데이터 주권 — OCAP, CARE, Te Mana Raraunga 프레임워크 전체
- 소유권 이전 — 어떤 방법이 우승하면 어떤 일이 일어나는지
- 경제 모델 — 점수가 어떻게 수익이 되는지
- 저자원 언어 지원하기 — 공동체와 함께 일하는 연구자를 위한 기술적 맥락