コーパス作成ガイド
基本的な考え方: 翻訳手法を評価するには、まず評価コーパスが必要です。このガイドでは、コーパスをゼロから構築する方法を説明します。データの収集源、フォーマット要件、品質基準、ライセンス、そして Arena への貢献方法を取り上げます。
:::info これは翻訳手法ではありません このガイドは多くの手法の前提条件となるものです。優れた評価コーパスは、他のすべてを可能にする基盤です。丁寧に選定された 50 ペアがあれば、新しいリーダーボードトラックを開設するのに十分です。 :::
このガイドを使う場面
- Arena リーダーボードに新しい言語ペアを追加したい場合
- 学生の翻訳をベンチマークしたい語学教師の場合
- バイリンガル資料にアクセスできるコミュニティ言語ワーカーの場合
- 対象言語ペアの標準化された評価セットが必要な研究者の場合
コーパスのフォーマット
ハーネスはシンプルな JSON を受け付けます:
my-corpus.json
{
"metadata": {
"name": "Quechua Dev v1",
"version": "1.0.0",
"source_language": "eng",
"target_language": "que",
"entry_count": 75,
"license": "CC-BY-SA-4.0",
"author": "Your Name / Organization",
"description": "75 English-Quechua pairs from educational materials"
},
"entries": [
{
"id": 1,
"source": "Hello, how are you?",
"reference": "Allillanchu, imaynallan kashanki?"
},
{
"id": 2,
"source": "The sun is shining today",
"reference": "Kunan p'unchay inti k'anchashan"
}
]
}
データの収集源
| 収集源 | 品質 | 量 | ライセンス |
|---|---|---|---|
| 教科書・教育資料 | 高(専門家によるレビュー済み) | 低〜中 | 出版社に確認 |
| 政府文書 | 中(フォーマルな文体) | 中〜高 | パブリックドメインが多い |
| バイリンガル辞書 | 高(検証済みの項目) | 中 | 様々 |
| コミュニティの長老・話者 | 最高(母語話者の直感) | 低(時間的制約あり) | コミュニティが管理 |
| 宗教テキスト | 中(特定ドメイン) | 高 | 通常オープン |
| 既存コーパス(Hansard、FLORES) | 中〜高 | 高 | ライセンスを確認 |
| 手作成 | 最高 | 低 | 作成者が所有 |
品質基準
優れた評価コーパスには以下が必要です:
- 多様なコンテンツ — 挨拶や簡単なフレーズだけでなく、疑問文、命令文、複雑な文、専門用語を含めること
- 検証済みの翻訳 — 少なくとも 1 名の流暢な話者によるレビュー、理想的には 2 名
- 一貫した正書法 — 文書全体を通じて、1 つの文字体系、1 つのスペル規則を使用すること
- 独立したソース — 手法がトレーニングに使用するテキストから派生していないこと
- 明確なライセンス — 評価目的での使用を許可する明示的なライセンス
:::danger コーパスの汚染 評価コーパスはトレーニングデータから独立している必要があります。評価コーパスのデータを使ってトレーニングまたはプロンプト作成が行われた手法は、失格となります。最初からホールドアウトされるようにコーパスを設計してください。 :::
サイズの目安
| サイズ | 可能になること |
|---|---|
| 50 エントリ | 最小限の評価 — 品質の大まかな差異を検出するのに十分 |
| 100〜200 エントリ | 信頼性の高いランキング — 手法間の統計的有意差を検出するのに十分 |
| 500 エントリ以上 | 研究グレード — 堅牢な composite score と信頼区間 |
| 1,000 エントリ以上 | ゴールドスタンダード — FLORES devtest のカバレッジに相当 |
小さく始めましょう。50 エントリあればリーダーボードトラックを開設できます。後から拡張することも可能です。
Arena への貢献
- 上記の JSON フォーマットでコーパスを作成する
- ライセンスを設定する — オープンな評価には CC BY-SA 4.0 を推奨、制限付き使用には CC BY-NC-SA 4.0 を推奨
- コーパスを
data/に配置した上で、eval harness リポジトリ に PR を送信する - コーパスがマージされると、対象言語ペアのリーダーボードが自動的に開設される
先住民言語コミュニティの方へ
コーパスの作成は言語主権の行使です。あなたのコーパスは、あなたの条件で管理されます:
- ライセンスとアクセス条件はあなたが決定します
- 公開開発セット(手法の開発用)を提供しながら、秘密テストセット(公式評価用)をコミュニティの管理下に置くことができます
- 主権フレームワーク があらゆるレベルでデータを保護します
小さなコーパスであっても戦略的な資産です — あなたの言語において「十分な品質」の意味を定義するベンチマークとなります。
組み合わせて使える手法
関連情報
- 評価データセット — 既存のコーパス(EDTeKLA、FLORES+)
- データ主権 — 所有権と管理
- 言語コミュニティの方へ — コミュニティとの関わり方
- 低リソース言語のサポート — 全体像