본문으로 건너뛰기

MT Eval Arena

Think you can solve it? Prove it.

저자원 기계 번역을 위한 독립 벤치마크 — 48개 개발 코퍼스, 19개 메트릭 채점 인벤토리, bootstrap 신뢰 구간, 그리고 상용 서비스가 결코 지원하지 않을 언어를 위한 FST 형태론 검증을 제공해요.

MT Eval Arena는 Champollion 프로젝트의 평가 엔진이에요.

📐

표준화된 벤치마크

chrF++, exact match, FST acceptance, 의미 기반 채점, bootstrap 신뢰 구간을 활용한 재현 가능한 평가를 제공해요. 모든 실행에는 지문(fingerprint)이 기록돼요.

🏴

커뮤니티 주권

우승한 방법은 언어 커뮤니티로 소유권이 이전돼요. OCAP® 원칙에 따라, 커뮤니티가 자신의 데이터, 방법, 수익을 직접 관리해요.

🔌

오픈 플러그인 아키텍처

coached LLM, 파인튜닝된 모델, FST 게이트 파이프라인, 커스텀 플러그인 등 어떤 방법이든 사용할 수 있어요. 번역 결과를 생성하기만 하면 harness가 채점할 수 있어요.

🚀

배포 브리지

검증된 방법은 champollion을 통해 프로덕션에 배포돼요. 개발자는 API로 사용하고, 수익은 다시 커뮤니티로 돌아가요.

현재 벤치마크

EDTeKLA Dev Set v1

  • 언어: English → Plains Cree (SRO)
  • 항목: 486개 이상의 큐레이션된 쌍
  • 라이선스: CC BY-NC-SA 4.0
  • 출처: University of Alberta

FLORES+ Devtest

  • 언어: English → 39개 언어
  • 항목 수: 언어당 1,012개 문장
  • 라이선스: CC BY-SA 4.0
  • 출처: OLDI / HuggingFace