メインコンテンツへスキップ

評価データセット

概要。 このページでは、ベンチマークに使用できる評価データセットについて説明します。コーパスエントリのスキーマ、難易度ティア(1〜5)、および出典要件が含まれます。現在利用可能なデータセット:EDTeKLA Dev v1(Plains Cree、合計548エントリ:テキストブック486件+ゴールドスタンダード62件)および FLORES+ Devtest(39言語、各1,012エントリ)。

データセットは、ハーネスが実行する固定のターゲットです。各データセットは、ソース→ターゲットのペアとゴールドスタンダード参照訳を含む JSON ファイルです。ハーネスはモデルの出力をこれらの参照訳と照合してスコアを算出します。参照訳を変更することはありません。

:::danger 評価データでの学習は禁止です

⚠️ これらのデータセットは評価専用です。 評価データを使って学習・ファインチューニング・フューショットプロンプト、またはその他の方法で評価データにさらされたメソッドは、スコアが人為的に高くなり、リーダーボードから失格となります。

学習には別のコーパスを使用してください。評価セットは、開発中にモデルが参照しない状態を維持する必要があります。 :::


データセットの形式

すべてのデータセットは同一の JSON スキーマに従います:

{
"dataset": {
"id": "dataset-slug",
"version": "1.0",
"language_pair": "EN→CRK",
"description": "Human-readable description of the dataset",
"source_language": "en",
"target_language": "crk",
"created": "2025-05-01",
"license": "CC-BY-NC-4.0",
"provenance": ["gold_standard", "textbook"]
},
"entries": [
{
"id": 1,
"source": "Hello",
"reference": "tânisi",
"difficulty": 1,
"provenance": "gold_standard",
"register": "conversational",
"context": "greeting",
"notes": "Common greeting, SRO orthography"
}
]
}

:::info 標準スキーマ ベンチマーク仕様では、標準的なコーパスおよびエントリのスキーマを定義しています。このページでは、利用可能なデータセットと新しいデータセットの作成方法について説明します。 :::

トップレベルの dataset ブロック

フィールド説明
idstringデータセットの一意な識別子(ランカードおよびリーダーボードで使用)
versionstringセマンティックバージョン。インクリメントすると、以前のランカードとの比較が無効になります
language_pairstring表示ラベル(例:EN→CRK
descriptionstring任意。人間が読める概要
source_languagestringBCP 47 ソース言語コード
target_languagestringBCP 47 ターゲット言語コード
createdstringISO 8601 作成日
licensestringSPDX ライセンス識別子
provenancestring[]エントリ全体で使用される出典タグのリスト

エントリフィールド

フィールド必須説明
idintegerコーパス内でのエントリの一意な識別子
sourcestring翻訳対象のソーステキスト
referencestringゴールドスタンダードの参照訳
difficultyinteger難易度ティア 1〜5(下記参照)
provenancestringエントリの出典(例:gold_standardtextbookelicited
registerstringレジスター/丁寧さのレベル(例:conversationalformalceremonial
contextstringコミュニケーション機能(例:greetingdeclarationinstruction
notesstring人間のレビュアー向けの任意のコンテキスト
morphological_analysisstringゴールドスタンダードの形態素解析
variant_classstring許容される翻訳バリアントをグループ化するクラスラベル

利用可能なデータセット

EDTeKLA 開発セット v1

英語→Plains Cree(SRO)翻訳のために構築された最初の評価データセットです。アルバータ大学の EdTeKLA 研究グループによって作成されました。

プロパティ
IDedtekla-dev-v1
バージョン1.0
言語ペアEN → CRK(Plains Cree、SRO 正書法)
エントリ数合計548件(テキストブック486件+ゴールドスタンダード62件)。標準的な開発コーパスは textbook_dev.json(436エントリ — テキストブック開発分割の全体:486件中436件の開発用+50件の保留テスト)
難易度分布易・中・難
出典gold_standard(話者による検証済み)、textbook(公開された教育教材)
ライセンスCC BY-NC-SA 4.0

テスト対象の内容:

  • 基本的な挨拶と一般的なフレーズ
  • 名詞の有生性と遠称
  • 人称・時制にわたる動詞活用
  • 場所格の構文
  • 所有格のパラダイム
  • 複雑な文構造

:::tip コーパスの構成 EdTeKLA コレクション全体には、厳選された548エントリが含まれています:テキストブックコーパスから486件(開発用436件+保留50件)、itwêwina ゴールドスタンダードから62件です。標準的な開発コーパスは textbook_dev.json で、436エントリ — テキストブック開発分割の全体です。各エントリは、流暢な話者によって検証されているか、公開された Cree 語テキストブックから取得されています。大規模でノイズの多いデータセットよりも、検証済みのゴールドスタンダードを持つ小規模で高品質なデータセットの方が有用です。特に、「ほぼ正確」な翻訳が形態論的に無効となることが多い低リソース言語においては、なおさらです。 :::


新しいデータセットの作成

新しい言語ペアまたはドメイン向けのデータセットを作成するには:

1. JSON を構造化する

データセットの形式のスキーマに従ってください。すべてのエントリには sourcereferencedifficultyprovenanceregister、および context が必要です。

2. 一意な ID を割り当てる

説明的なスラッグを使用してください:{project}-{split}-v{version}(例:edtekla-dev-v1quechua-test-v1)。

3. ゴールドスタンダードを検証する

すべての reference の値は、流暢な話者によって検証されているか、公開された査読済みリソースから取得されている必要があります。機械生成の参照訳は評価の目的を損ないます。

4. 難易度ティアを設定する

各エントリに整数の難易度レベルを割り当てます:

ティア説明
1 — 基本語彙単語、一般的な挨拶、数字"hello" → "tânisi"
2 — 単純な文主語-動詞または SVO、現在時制"I see the dog"
3 — 中程度の複雑さ過去・未来時制、所有格、有生性"I saw his dog yesterday"
4 — 複雑な形態論遠称、受動態、接続形語順"the woman whose son went to the store"
5 — 上級複数節、フォーマルなレジスター、儀礼的表現、慣用句レジスターに適したトーンを持つ完全な段落

5. 出典にタグを付ける

各エントリには、その出典を示す必要があります。一般的なタグ:

  • gold_standard — 流暢な話者によって検証済み
  • textbook — 公開された教育教材から取得
  • elicited — 構造化されたエリシテーションセッションを通じて作成
  • corpus — 対訳コーパスから抽出

6. ファイルを検証する

任意のモデルを使用してデータセットに対してハーネスを実行し、JSON が正しい形式であり、すべての必須フィールドが存在することを確認します:

python eval/baseline_experiment.py --dataset path/to/your-dataset.json

ハーネスは、フィールドの欠落、インデックスの重複、またはスキーマ違反があるとエラーを出力します。

7. 収録申請を提出する

データセットファイルを data/ ディレクトリに配置した状態で、eval ハーネスリポジトリに対してプルリクエストを作成してください。検証方法論と出典の文書を含めてください。


FLORES+ Devtest

Open Language Data Initiative (OLDI) が管理する、広範囲をカバーする多言語ベンチマークです。champollion のマルチモデルフロンティアベンチマークに使用されます。

プロパティ
IDflores-plus-devtest
言語ペアEN → 39言語(champollion に登録されたすべての自然言語)
エントリ数言語ごとに1,012文
ライセンスCC BY-SA 4.0
出典元は Meta FLORES-200、現在は OLDI が管理
場所champollion メインリポジトリの test/benchmark/fixtures/ に事前抽出済みのフィクスチャ

:::danger 評価専用 FLORES+ は評価のみを目的としています。キュレーターは、学習データとして使用しないよう明示的に求めています。学習コーパスからその内容を除外してください。 :::


関連情報