코퍼스 생성 가이드
핵심 아이디어: 번역 방법을 평가하려면 먼저 평가용 코퍼스가 필요해요. 이 가이드는 데이터 수집, 형식 요구사항, 품질 기준, 라이선스, Arena에 기여하기까지 코퍼스를 처음부터 구축하는 방법을 다뤄요.
:::info 이것은 번역 방법이 아니에요 이 가이드는 여러 방법의 전제 조건이에요. 좋은 평가용 코퍼스는 나머지 모든 것을 가능하게 만드는 토대예요. 잘 선별된 50개의 쌍만으로도 새로운 리더보드 트랙을 열 수 있어요. :::
언제 사용하나요
- Arena 리더보드에 새로운 언어 쌍을 추가하고 싶을 때
- 학생 번역물을 벤치마킹하고 싶은 언어 교사인 경우
- 이중 언어 자료에 접근할 수 있는 커뮤니티 언어 활동가인 경우
- 자신의 언어 쌍에 대한 표준화된 평가 세트가 필요한 연구자인 경우
코퍼스 형식
이 하니스는 간단한 JSON을 받아요:
my-corpus.json
{
"metadata": {
"name": "Quechua Dev v1",
"version": "1.0.0",
"source_language": "eng",
"target_language": "que",
"entry_count": 75,
"license": "CC-BY-SA-4.0",
"author": "Your Name / Organization",
"description": "75 English-Quechua pairs from educational materials"
},
"entries": [
{
"id": 1,
"source": "Hello, how are you?",
"reference": "Allillanchu, imaynallan kashanki?"
},
{
"id": 2,
"source": "The sun is shining today",
"reference": "Kunan p'unchay inti k'anchashan"
}
]
}
데이터를 어디서 구하나요
| 출처 | 품질 | 분량 | 라이선스 |
|---|---|---|---|
| 교과서 / 교육 자료 | 높음 (전문가 검토) | 낮음-중간 | 출판사에 확인 |
| 정부 문서 | 중간 (격식체) | 중간-높음 | 대부분 퍼블릭 도메인 |
| 이중 언어 사전 | 높음 (검증된 항목) | 중간 | 다양함 |
| 커뮤니티 어르신 / 화자 | 가장 높음 (모어 화자 직관) | 낮음 (제한된 시간) | 커뮤니티 관리 |
| 종교 문헌 | 중간 (특정 도메인) | 높음 | 보통 공개 |
| 기존 코퍼스 (Hansard, FLORES) | 중간-높음 | 높음 | 라이선스 확인 |
| 수작업 제작 | 가장 높음 | 낮음 | 본인 소유 |
품질 기준
좋은 평가용 코퍼스는 다음을 갖추고 있어요:
- 다양한 내용 — 인사말이나 단순한 구절만이 아니라 질문, 명령, 복잡한 문장, 특정 도메인 용어를 포함해요
- 검증된 번역 — 적어도 한 명, 이상적으로는 두 명의 유창한 화자가 검토한 번역이에요
- 일관된 정서법 — 전체에 걸쳐 하나의 문자 체계, 하나의 철자 규칙을 사용해요
- 독립적인 출처 — 방법이 학습하게 될 텍스트와 동일한 텍스트에서 파생되지 않아요
- 명확한 라이선스 — 평가 용도로 사용할 수 있는 명시적인 라이선스가 있어요
:::danger 코퍼스 오염 평가용 코퍼스는 어떤 학습 데이터와도 독립적이어야 해요. 어떤 방법이 평가용 코퍼스의 데이터로 학습되거나 프롬프트되었다면 그 방법은 실격 처리돼요. 코퍼스를 처음부터 별도로 보류된 상태로 설계하세요. :::
크기 가이드라인
| 크기 | 가능한 것 |
|---|---|
| 50개 항목 | 최소한의 실효적 평가 — 큰 품질 차이를 감지하기에 충분함 |
| 100~200개 항목 | 신뢰할 수 있는 순위 — 방법 간 통계적 유의성을 확보하기에 충분함 |
| 500개 이상 항목 | 연구급 — 견고한 composite score, 신뢰 구간 |
| 1,000개 이상 항목 | 최고 수준 — FLORES devtest 범위와 동등함 |
작게 시작하세요. 50개 항목이면 리더보드 트랙을 열기에 충분해요. 나중에 확장할 수 있어요.
Arena에 기여하기
- 위의 JSON 형식으로 코퍼스를 생성해요
- 라이선스를 지정해요 — 공개 평가에는 CC BY-SA 4.0을, 제한된 사용에는 CC BY-NC-SA 4.0을 권장해요
- 코퍼스를
data/에 담아 eval harness 저장소에 PR을 제출해요 - 코퍼스가 병합되면 해당 언어 쌍에 대한 리더보드가 자동으로 열려요
토착어 커뮤니티를 위해
코퍼스 생성은 언어 주권의 행위예요. 여러분의 코퍼스, 여러분의 조건으로:
- 라이선스와 접근 조건을 직접 결정해요
- 비공개 테스트 세트(공식 평가용)를 커뮤니티 관리 아래 유지하면서 공개 개발 세트(방법 개발용)를 기여할 수 있어요
- 주권 프레임워크가 모든 수준에서 여러분의 데이터를 보호해요
작은 코퍼스라도 전략적 자산이에요 — 여러분의 언어에서 "충분히 좋다"는 것이 무엇을 의미하는지 결정하는 벤치마크예요.
함께 사용하면 좋은 것
참고 자료
- 평가 데이터셋 — 기존 코퍼스 (EDTeKLA, FLORES+)
- 데이터 주권 — 소유권과 통제
- 언어 커뮤니티를 위해 — 커뮤니티 참여
- 저자원 언어 지원하기 — 큰 그림