본문으로 건너뛰기

평가 데이터셋

핵심 요약. 이 페이지에서는 벤치마킹에 사용할 수 있는 평가 데이터셋을 설명해요. 코퍼스 엔트리 스키마, 난이도 등급(1–5), 출처(provenance) 요구 사항을 다뤄요. 현재 제공되는 데이터셋은 EDTeKLA Dev v1(Plains Cree, 총 548개 엔트리: 교과서 486개 + 골드 스탠더드 62개)과 FLORES+ Devtest(39개 언어, 각 1,012개 엔트리)예요.

데이터셋은 하니스(harness)가 실행 대상으로 삼는 고정된 목표예요. 각 데이터셋은 골드 스탠더드 레퍼런스와 함께 source→target 쌍을 담은 JSON 파일이에요. 하니스는 이 레퍼런스를 기준으로 모델 출력을 채점하며, 레퍼런스 자체를 수정하지는 않아요.

:::danger 평가 데이터로 학습하지 마세요

⚠️ 이 데이터셋은 평가 전용이에요. 평가 데이터로 학습, 파인튜닝, few-shot 프롬프팅을 하거나 그 외 방식으로 평가 데이터에 노출된 방법은 인위적으로 부풀려진 점수를 산출하게 되며, 리더보드에서 실격 처리돼요.

학습에는 별도의 코퍼스를 사용하세요. 평가 세트는 개발 과정에서 모델이 보지 못한 상태로 유지되어야 해요. :::


데이터셋 형식

모든 데이터셋은 동일한 JSON 스키마를 따라요:

{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}

:::info 표준 스키마 Benchmark Specification에서 표준 코퍼스 및 엔트리 스키마를 정의해요. 이 페이지에서는 사용 가능한 데이터셋과 새 데이터셋을 만드는 방법을 설명해요. :::

최상위 dataset 블록

필드타입설명
idstring고유 데이터셋 식별자(run card 및 리더보드에서 사용)
versionstring시맨틱 버전. 이 값을 올리면 이전 run card 비교가 무효화돼요
language_pairstring표시 레이블(예: EN→CRK)
descriptionstring선택 사항. 사람이 읽을 수 있는 요약
source_languagestringBCP 47 소스 언어 코드
target_languagestringBCP 47 타깃 언어 코드
createdstringISO 8601 생성 날짜
licensestringSPDX 라이선스 식별자
provenancestring[]엔트리 전반에서 사용되는 출처(provenance) 태그 목록

엔트리 필드

필드타입필수설명
idinteger코퍼스 내 고유 엔트리 식별자
sourcestring번역할 소스 텍스트
referencestring골드 스탠더드 레퍼런스 번역
difficultyinteger난이도 등급 1–5(아래 참고)
provenancestring이 엔트리의 출처(예: gold_standard, textbook, elicited)
registerstring레지스터/격식 수준(예: conversational, formal, ceremonial)
contextstring의사소통 기능(예: greeting, declaration, instruction)
notesstring휴먼 리뷰어를 위한 선택적 컨텍스트
morphological_analysisstring골드 스탠더드 형태소 분석
variant_classstring허용 가능한 번역 변형을 묶는 클래스 레이블

사용 가능한 데이터셋

EDTeKLA Development Set v1

영어→Plains Cree(SRO) 번역을 위해 구축된 첫 번째 평가 데이터셋이에요. University of Alberta의 EdTeKLA 연구 그룹에서 만들었어요.

속성
IDedtekla-dev-v1
버전1.0
언어 쌍EN → CRK (Plains Cree, SRO 정서법)
엔트리 수총 548개(교과서 486개 + 골드 스탠더드 62개). 표준 dev 코퍼스는 textbook_dev.json(436개 엔트리 — 총 486개 중 전체 교과서 dev 분할: dev 436개 + held-out 테스트 50개)이에요
난이도 분포Easy, Medium, Hard
출처(provenance)gold_standard(화자 검증), textbook(출판된 교육 자료)
라이선스CC BY-NC-SA 4.0

테스트 항목:

  • 기본 인사말 및 일반적인 표현
  • 명사 유생성(animacy)과 obviation
  • 인칭과 시제에 따른 동사 활용
  • 처소(locative) 구문
  • 소유 패러다임
  • 복합 문장 구조

:::tip 코퍼스 구조 전체 EdTeKLA 컬렉션은 큐레이션된 548개 엔트리로 구성돼요: 교과서 코퍼스에서 486개(dev 436개 + held-out 50개), itwêwina 골드 스탠더드에서 62개예요. 표준 dev 코퍼스는 436개 엔트리를 가진 textbook_dev.json이며, 이는 전체 교과서 dev 분할이에요. 각 엔트리는 유창한 화자에 의해 검증되었거나 출판된 Cree 언어 교과서에서 가져왔어요. 검증된 골드 스탠더드를 갖춘 작고 고품질의 데이터셋이 크고 노이즈가 많은 데이터셋보다 더 유용해요 — 특히 "거의 비슷한" 번역이 형태론적으로 무효한 경우가 많은 저자원 언어에서는 더욱 그래요. :::


새 데이터셋 만들기

새 언어 쌍이나 도메인을 위한 데이터셋을 만들려면:

1. JSON 구조화하기

데이터셋 형식 스키마를 따르세요. 모든 엔트리에는 source, reference, difficulty, provenance, register, context가 있어야 해요.

2. 고유 ID 할당하기

설명적인 슬러그를 사용하세요: {project}-{split}-v{version}(예: edtekla-dev-v1, quechua-test-v1).

3. 골드 스탠더드 검증하기

모든 reference 값은 유창한 화자에 의해 검증되거나 출판된 동료 심사(peer-reviewed) 자료에서 가져와야 해요. 머신 생성 레퍼런스는 평가의 목적을 무력화시켜요.

4. 난이도 등급 설정하기

각 엔트리에 정수 난이도 수준을 할당하세요:

등급설명예시
1 — 기본 어휘단일 단어, 일반적인 인사말, 숫자"hello" → "tânisi"
2 — 간단한 문장주어-동사 또는 SVO, 현재 시제"I see the dog"
3 — 중간 복잡도과거/미래 시제, 소유격, 유생성"I saw his dog yesterday"
4 — 복잡한 형태론obviation, 수동태, conjunct order"the woman whose son went to the store"
5 — 고급다중 절, 격식체, 의례적 표현, 관용 표현레지스터에 적합한 어조를 갖춘 전체 단락

5. 출처(provenance) 태그 지정하기

각 엔트리는 출처를 표시해야 해요. 일반적인 태그:

  • gold_standard — 유창한 화자에 의해 검증됨
  • textbook — 출판된 교육 자료에서 가져옴
  • elicited — 구조화된 elicitation 세션을 통해 생성됨
  • corpus — 병렬 코퍼스에서 추출됨

6. 파일 검증하기

JSON이 올바른 형식이며 모든 필수 필드가 존재하는지 확인하기 위해, 임의의 모델로 데이터셋에 대해 하니스를 실행하세요:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

하니스는 누락된 필드, 중복된 인덱스, 스키마 위반이 있으면 오류를 발생시켜요.

7. 포함을 위해 제출하기

eval harness 저장소에 데이터셋 파일을 data/ 디렉터리에 넣어 풀 리퀘스트를 열어 주세요. 검증 방법론과 출처(provenance)에 대한 문서를 포함해 주세요.


FLORES+ Devtest

Open Language Data Initiative (OLDI)에서 관리하는 광범위 커버리지 다국어 벤치마크예요. champollion의 멀티 모델 프런티어 벤치마크에 사용돼요.

속성
IDflores-plus-devtest
언어 쌍EN → 39개 언어(champollion에 등록된 모든 자연어)
엔트리 수언어당 1,012개 문장
라이선스CC BY-SA 4.0
출처원래 Meta FLORES-200, 현재 OLDI 관리
위치메인 champollion 저장소의 test/benchmark/fixtures/에 사전 추출된 픽스처

:::danger 평가 전용 FLORES+는 오직 평가를 위한 것이에요. 큐레이터들은 이를 학습 데이터로 사용하지 말 것을 명시적으로 요청해요. 그 내용이 학습 코퍼스에서 제외되도록 하세요. :::


함께 보기