본문으로 건너뛰기

코퍼스 생성 가이드

핵심 아이디어: 번역 방법을 평가하려면 먼저 평가용 코퍼스가 필요해요. 이 가이드는 데이터 수집, 형식 요구사항, 품질 기준, 라이선스, Arena에 기여하기까지 코퍼스를 처음부터 구축하는 방법을 다뤄요.

:::info 이것은 번역 방법이 아니에요 이 가이드는 여러 방법의 전제 조건이에요. 좋은 평가용 코퍼스는 나머지 모든 것을 가능하게 만드는 토대예요. 잘 선별된 50개의 쌍만으로도 새로운 리더보드 트랙을 열 수 있어요. :::

언제 사용하나요

  • Arena 리더보드에 새로운 언어 쌍을 추가하고 싶을 때
  • 학생 번역물을 벤치마킹하고 싶은 언어 교사인 경우
  • 이중 언어 자료에 접근할 수 있는 커뮤니티 언어 활동가인 경우
  • 자신의 언어 쌍에 대한 표준화된 평가 세트가 필요한 연구자인 경우

코퍼스 형식

이 하니스는 간단한 JSON을 받아요:

my-corpus.json
{
"metadata": {
"name": "Quechua Dev v1",
"version": "1.0.0",
"source_language": "eng",
"target_language": "que",
"entry_count": 75,
"license": "CC-BY-SA-4.0",
"author": "Your Name / Organization",
"description": "75 English-Quechua pairs from educational materials"
},
"entries": [
{
"id": 1,
"source": "Hello, how are you?",
"reference": "Allillanchu, imaynallan kashanki?"
},
{
"id": 2,
"source": "The sun is shining today",
"reference": "Kunan p'unchay inti k'anchashan"
}
]
}

데이터를 어디서 구하나요

출처품질분량라이선스
교과서 / 교육 자료높음 (전문가 검토)낮음-중간출판사에 확인
정부 문서중간 (격식체)중간-높음대부분 퍼블릭 도메인
이중 언어 사전높음 (검증된 항목)중간다양함
커뮤니티 어르신 / 화자가장 높음 (모어 화자 직관)낮음 (제한된 시간)커뮤니티 관리
종교 문헌중간 (특정 도메인)높음보통 공개
기존 코퍼스 (Hansard, FLORES)중간-높음높음라이선스 확인
수작업 제작가장 높음낮음본인 소유

품질 기준

좋은 평가용 코퍼스는 다음을 갖추고 있어요:

  1. 다양한 내용 — 인사말이나 단순한 구절만이 아니라 질문, 명령, 복잡한 문장, 특정 도메인 용어를 포함해요
  2. 검증된 번역 — 적어도 한 명, 이상적으로는 두 명의 유창한 화자가 검토한 번역이에요
  3. 일관된 정서법 — 전체에 걸쳐 하나의 문자 체계, 하나의 철자 규칙을 사용해요
  4. 독립적인 출처 — 방법이 학습하게 될 텍스트와 동일한 텍스트에서 파생되지 않아요
  5. 명확한 라이선스 — 평가 용도로 사용할 수 있는 명시적인 라이선스가 있어요

:::danger 코퍼스 오염 평가용 코퍼스는 어떤 학습 데이터와도 독립적이어야 해요. 어떤 방법이 평가용 코퍼스의 데이터로 학습되거나 프롬프트되었다면 그 방법은 실격 처리돼요. 코퍼스를 처음부터 별도로 보류된 상태로 설계하세요. :::

크기 가이드라인

크기가능한 것
50개 항목최소한의 실효적 평가 — 큰 품질 차이를 감지하기에 충분함
100~200개 항목신뢰할 수 있는 순위 — 방법 간 통계적 유의성을 확보하기에 충분함
500개 이상 항목연구급 — 견고한 composite score, 신뢰 구간
1,000개 이상 항목최고 수준 — FLORES devtest 범위와 동등함

작게 시작하세요. 50개 항목이면 리더보드 트랙을 열기에 충분해요. 나중에 확장할 수 있어요.

Arena에 기여하기

  1. 위의 JSON 형식으로 코퍼스를 생성해요
  2. 라이선스를 지정해요 — 공개 평가에는 CC BY-SA 4.0을, 제한된 사용에는 CC BY-NC-SA 4.0을 권장해요
  3. 코퍼스를 data/에 담아 eval harness 저장소PR을 제출해요
  4. 코퍼스가 병합되면 해당 언어 쌍에 대한 리더보드가 자동으로 열려요

토착어 커뮤니티를 위해

코퍼스 생성은 언어 주권의 행위예요. 여러분의 코퍼스, 여러분의 조건으로:

  • 라이선스와 접근 조건을 직접 결정해요
  • 비공개 테스트 세트(공식 평가용)를 커뮤니티 관리 아래 유지하면서 공개 개발 세트(방법 개발용)를 기여할 수 있어요
  • 주권 프레임워크가 모든 수준에서 여러분의 데이터를 보호해요

작은 코퍼스라도 전략적 자산이에요 — 여러분의 언어에서 "충분히 좋다"는 것이 무엇을 의미하는지 결정하는 벤치마크예요.

함께 사용하면 좋은 것

  • 부분 번역 — 코퍼스를 만드는 것 자체가 사람 번역 단계예요
  • 역번역 — 합성 데이터가 사람이 만든 코퍼스를 보완해요
  • 다른 모든 쿡북 — 모두 평가용 코퍼스가 필요해요

참고 자료