MT Evaluation
エグゼクティブサマリー。 このページでは、リーダーボードへの提出基準、スコアリング指標(chrF++、FST acceptance、exact match、equivalent match、semantic score)、不正防止ポリシー、検証ティア、および提出ワークフローを定義します。評価データに触れたことのある手法は失格となります。
champollion は、翻訳手法の再現可能なベンチマークを目的とした機械翻訳評価フレームワークを備えています。特に、標準的な MT ベンチマークが存在せず、品質の主張を検証しにくい低リソース言語や先住民族言語を対象としています。
リーダーボード
中心となるのは Method Leaderboard です。これはリアルタイムで更新される Supabase バックエンドのスコアボードで、研究者やコミュニティメンバーが、フィンガープリント付きで再現可能な評価を用いて翻訳手法を提出・比較できます。
各提出物には以下が含まれます:
- フィンガープリント付きパイプライン — 特定の Git コミットと設定ハッシュに紐付けられており、結果を生成した正確なコードまで追跡できます
- バージョン管理されたデータセット — コンテンツハッシュによりバージョン管理されており、スコアは同一データセットバージョン内でのみ比較可能です
- 標準化された指標 — すべてのスコアリングは共有評価ハーネスによって計算されるため、実装の差異が排除されます
- 信頼ティア — セルフベンチマーク、GDS Verified、または Community Validated
- コスト追跡 — 提出ごとの API コストを記録し、コストと品質のトレードオフを透明化します
リーダーボードは現在5つの指標を追跡しています。3つはあらゆる言語に対応しており、2つは Plains Cree で利用可能で、今後の拡張に伴い一般化される予定です:
| 指標 | 種別 | 測定内容 |
|---|---|---|
| chrF++ | 文字 n-gram F スコア | 主要品質指標 — 特に形態論的に豊かな言語において、人間の判断とよく相関します |
| Exact Match | 完全一致の割合 | 厳密な精度 — 翻訳がゴールドスタンダードと完全に一致する頻度 |
| FST Acceptance | 形態論的ゲート通過率 | 有限状態トランスデューサ検証を持つ手法において、出力が形態論的に有効な割合 |
| Equivalent Match | 許容バリアント率 | 参照訳または許容バリアント(語順、正書法の慣習)と一致する割合。現在は CRK のみ対応、一般化予定 |
| Semantic Score | 意味的忠実度 | 意味の保持 — 表層形式に関わらず、翻訳が意図された意味を捉えているか。現在は CRK のみ対応、一般化予定 |
:::info 完全な指標セット スコアリング仕様では、5カテゴリにわたる19指標の完全なインベントリ、複合スコアの計算式、重みテーブル、および品質ティアの閾値を定義しています。 :::
利用可能なデータセット
EDTeKLA Development Set v1
英語→Plains Cree(SRO)翻訳向けに構築された最初の評価データセットです。アルバータ大学の EdTeKLA research group によって作成されました。
| プロパティ | 値 |
|---|---|
| ID | edtekla-dev-v1 |
| 言語ペア | EN → CRK(Plains Cree、SRO 正書法) |
| エントリ数 | 404(master_corpus.json:62 ゴールド + 342 教科書);合計 548 件利用可能 |
| ライセンス | CC BY-NC-SA 4.0 |
| 出典 | gold_standard(話者による検証済み)、textbook(公開済み教育教材) |
FLORES+ Devtest — 開発用途限定
[!WARNING] FLORES+ は開発およびデバッグ目的で利用可能ですが、公式リーダーボード評価には使用されません。 FLORES+(元々は Meta FLORES-200)は広く公開されているベンチマークデータセットであり、フロンティア LLM はほぼ確実にこのデータで学習されています。FLORES+ に対するスコアは、LLM ベースの手法における実際の翻訳品質を信頼性高く反映しません。非 LLM 手法(FST、ルールベース、ファインチューニング済み NMT)への影響は小さいですが、FLORES+ のスコアはリーダーボードに公開されません。
FLORES+ のフィクスチャは、パイプラインのスモークテスト、言語横断的な検証、および開発用途のために test/benchmark/fixtures/ で引き続き利用可能です。公式評価では、並列形式で公開されていない人間が執筆したテキストから構築されたカスタムコーパスを使用します。
データセットの完全なスキーマ、難易度ティア、および独自データセットの作成方法については、評価データセットを参照してください。
:::danger 評価データでの学習は禁止です
これらのデータセットは評価専用です。 評価データで学習、ファインチューニング、few-shot プロンプティング、またはその他の形で評価データに触れた手法は、スコアが人為的に水増しされるため、リーダーボードから失格となります。
これは提案ではなく、評価の完全性において最も重要なルールです。学習には別のコーパスを使用してください。評価セットは、開発中にモデルが見ていない状態を保たなければなりません。
コーチングデータや few-shot の例を使用する場合、それらは完全に別のソースから取得する必要があります。不明な場合は含めないでください。 :::
:::warning LLM の非決定性
LLM の出力は非決定的です。スコアは、特定のモデルバージョンおよび API 設定のもとでの時点測定値を表します。モデルプロバイダーは、重み、デコード戦略、または安全フィルターをいつでも更新する可能性があり、実行間でスコアのドリフトが生じることがあります。リーダーボードは、すべての提出に対して正確なモデルスラッグとタイムスタンプを記録します。 :::
優れた手法の条件
すべての手法が同等というわけではありません。厳密な研究と水増しされたスコアを分けるものを以下に示します。
優れた手法の特徴
- 学習データと評価データの明確な分離 — 開発、チューニング、プロンプトエンジニアリング、few-shot 例の選択において、手法が評価セットを一度も参照していないこと
- 再現可能 — 他者がリポジトリをクローンしてハーネスを実行し、同じスコアを得られること(LLM の非決定性の範囲内で)
- 文書化されている — メソッドカードに、手法の内容、使用ツール、および制限事項が記載されていること
- スコープについて誠実 — 手法が特定の言語ペアにのみ対応している場合はその旨を明記し、特定の形態論的パターンで性能が低下する場合はドキュメントに記載すること
- コミュニティへの配慮 — 先住民族言語については、データ主権を尊重していること。言語コミュニティと協議済みであるか、オープンライセンスのデータのみを使用していること
危険なサイン(失格となる行為)
| 危険なサイン | 問題の理由 |
|---|---|
| 評価データでの学習 | 評価の目的を完全に損なう。水増しされたスコアはすべての人を誤解させる |
| 結果のチェリーピッキング | 10回実行して最良の結果のみを提出し、他の結果を開示しない |
| 未開示の後処理 | スコアリング前に出力を手動で修正する |
| 汚染されたコーチングデータ | 評価セットの例を few-shot プロンプトや辞書エントリとして使用する |
| 出典なしで商用利用可能と主張する | CC BY-NC-SA データを使用している手法は商用利用できない |
検証ティア
検証ティアは誰が結果を検証したかを示すものであり、スコアリング仕様 §5 で定義されている品質ティア(Baseline → Fluent)とは別のものです。品質ティアは自動複合スコアの意味を表します。
| ティア | 意味 | 取得方法 |
|---|---|---|
| Self-benchmarked | 自身でハーネスを実行して結果を提出した | ランカードを含む PR を開く |
| GDS Verified | champollion メンテナーが結果を再現した | 手法をインストール可能なプラグインとして提出する |
| Community Validated | ガバナンス組織がゴールドスタンダード + コミュニティレビューに対して実行した | 手法のコードをガバナンス組織に提出する |
提出方法
- 手法を構築する — メソッドインターフェースについては手法の構築を参照してください
- ハーネスを実行する — セットアップと使用方法については評価ハーネスを参照してください
- ランカードを生成する — ハーネスがスコア、フィンガープリント、およびメタデータを含む JSON ランカードを生成します
- PR を開く — ランカードを評価ハーネスリポジトリに提出してください
- リーダーボードに掲載される — マージされると、結果が Method Leaderboard に表示されます
今後の方向性
- 包括的なモデル比較実行 — 公開ベンチマークではなくカスタム評価コーパスを使用した、champollion 対応言語全体にわたるフロンティアモデル(GPT-4o、Claude、Gemini など)の体系的な評価
- より多くの言語ペア — コミュニティ検証済みデータセットが利用可能になり次第、Quechua、Inuktitut、その他の低リソース言語を追加
- データセットインポート — 外部評価データセット(WMT、Tatoeba など)を champollion 評価フォーマットに変換するツール
- 自動再実行 — モデルバージョンの変更を検出し、スコアのドリフトを追跡するためにベンチマークを再実行する機能