본문으로 건너뛰기

MT Eval Arena

Think you can solve it? Prove it.

저자원 기계 번역을 위한 독립 벤치마크 — 48개 개발 코퍼스, 19개 메트릭 채점 인벤토리, bootstrap 신뢰 구간, 그리고 상용 서비스가 결코 지원하지 않을 언어를 위한 FST 형태론 검증을 제공해요.

문서 읽기 GitHub에서 보기

MT Eval Arena는 Champollion 프로젝트의 평가 엔진이에요.

📐

표준화된 벤치마크

chrF++, exact match, FST acceptance, 의미 기반 채점, bootstrap 신뢰 구간을 활용한 재현 가능한 평가를 제공해요. 모든 실행에는 지문(fingerprint)이 기록돼요.

🏴

커뮤니티 주권

우승한 방법은 언어 커뮤니티로 소유권이 이전돼요. OCAP® 원칙에 따라, 커뮤니티가 자신의 데이터, 방법, 수익을 직접 관리해요.

🔌

오픈 플러그인 아키텍처

coached LLM, 파인튜닝된 모델, FST 게이트 파이프라인, 커스텀 플러그인 등 어떤 방법이든 사용할 수 있어요. 번역 결과를 생성하기만 하면 harness가 채점할 수 있어요.

🚀

배포 브리지

검증된 방법은 champollion을 통해 프로덕션에 배포돼요. 개발자는 API로 사용하고, 수익은 다시 커뮤니티로 돌아가요.

현재 벤치마크

EDTeKLA Dev Set v1

언어: English → Plains Cree (SRO)
항목: 486개 이상의 큐레이션된 쌍
라이선스: CC BY-NC-SA 4.0
출처: University of Alberta

FLORES+ Devtest

언어: English → 39개 언어
항목 수: 언어당 1,012개 문장
라이선스: CC BY-SA 4.0
출처: OLDI / HuggingFace

더 알아보기

메서드 제출 →데이터 주권 →경제 모델 →언어 커뮤니티를 위한 안내 →리더보드 →champollion CLI →