メインコンテンツへスキップ

コーパス作成ガイド

基本的な考え方: 翻訳手法を評価するには、まず評価コーパスが必要です。このガイドでは、コーパスをゼロから構築する方法を説明します。データの収集源、フォーマット要件、品質基準、ライセンス、そして Arena への貢献方法を取り上げます。

:::info これは翻訳手法ではありません このガイドは多くの手法の前提条件となるものです。優れた評価コーパスは、他のすべてを可能にする基盤です。丁寧に選定された 50 ペアがあれば、新しいリーダーボードトラックを開設するのに十分です。 :::

このガイドを使う場面

  • Arena リーダーボードに新しい言語ペアを追加したい場合
  • 学生の翻訳をベンチマークしたい語学教師の場合
  • バイリンガル資料にアクセスできるコミュニティ言語ワーカーの場合
  • 対象言語ペアの標準化された評価セットが必要な研究者の場合

コーパスのフォーマット

ハーネスはシンプルな JSON を受け付けます:

my-corpus.json
{
"metadata": {
"name": "Quechua Dev v1",
"version": "1.0.0",
"source_language": "eng",
"target_language": "que",
"entry_count": 75,
"license": "CC-BY-SA-4.0",
"author": "Your Name / Organization",
"description": "75 English-Quechua pairs from educational materials"
},
"entries": [
{
"id": 1,
"source": "Hello, how are you?",
"reference": "Allillanchu, imaynallan kashanki?"
},
{
"id": 2,
"source": "The sun is shining today",
"reference": "Kunan p'unchay inti k'anchashan"
}
]
}

データの収集源

収集源品質ライセンス
教科書・教育資料高(専門家によるレビュー済み)低〜中出版社に確認
政府文書中(フォーマルな文体)中〜高パブリックドメインが多い
バイリンガル辞書高(検証済みの項目)様々
コミュニティの長老・話者最高(母語話者の直感)低(時間的制約あり)コミュニティが管理
宗教テキスト中(特定ドメイン)通常オープン
既存コーパス(Hansard、FLORES)中〜高ライセンスを確認
手作成最高作成者が所有

品質基準

優れた評価コーパスには以下が必要です:

  1. 多様なコンテンツ — 挨拶や簡単なフレーズだけでなく、疑問文、命令文、複雑な文、専門用語を含めること
  2. 検証済みの翻訳 — 少なくとも 1 名の流暢な話者によるレビュー、理想的には 2 名
  3. 一貫した正書法 — 文書全体を通じて、1 つの文字体系、1 つのスペル規則を使用すること
  4. 独立したソース — 手法がトレーニングに使用するテキストから派生していないこと
  5. 明確なライセンス — 評価目的での使用を許可する明示的なライセンス

:::danger コーパスの汚染 評価コーパスはトレーニングデータから独立している必要があります。評価コーパスのデータを使ってトレーニングまたはプロンプト作成が行われた手法は、失格となります。最初からホールドアウトされるようにコーパスを設計してください。 :::

サイズの目安

サイズ可能になること
50 エントリ最小限の評価 — 品質の大まかな差異を検出するのに十分
100〜200 エントリ信頼性の高いランキング — 手法間の統計的有意差を検出するのに十分
500 エントリ以上研究グレード — 堅牢な composite score と信頼区間
1,000 エントリ以上ゴールドスタンダード — FLORES devtest のカバレッジに相当

小さく始めましょう。50 エントリあればリーダーボードトラックを開設できます。後から拡張することも可能です。

Arena への貢献

  1. 上記の JSON フォーマットでコーパスを作成する
  2. ライセンスを設定する — オープンな評価には CC BY-SA 4.0 を推奨、制限付き使用には CC BY-NC-SA 4.0 を推奨
  3. コーパスを data/ に配置した上で、eval harness リポジトリPR を送信する
  4. コーパスがマージされると、対象言語ペアのリーダーボードが自動的に開設される

先住民言語コミュニティの方へ

コーパスの作成は言語主権の行使です。あなたのコーパスは、あなたの条件で管理されます:

  • ライセンスとアクセス条件はあなたが決定します
  • 公開開発セット(手法の開発用)を提供しながら、秘密テストセット(公式評価用)をコミュニティの管理下に置くことができます
  • 主権フレームワーク があらゆるレベルでデータを保護します

小さなコーパスであっても戦略的な資産です — あなたの言語において「十分な品質」の意味を定義するベンチマークとなります。

組み合わせて使える手法

  • 部分翻訳 — コーパスの作成は人間による翻訳ステップそのものです
  • バック翻訳 — 合成データが人間作成コーパスを補完します
  • その他すべてのクックブック — いずれも評価コーパスを必要とします

関連情報