ファインチューニング済みモデル
基本的な考え方: 対象言語ペアの並列テキストを使用して、オープンウェイトモデル(Llama、Mistral、Gemma)をファインチューニングします。潜在的に最高品質の上限を実現できますが、入手困難な並列データが必要であり、評価データの汚染に関するルールも厳格です。
:::info これはクックブックであり、完成した実装ではありません このガイドでは、アプローチ、データ要件、および注意点を概説します。実際のトレーニングインフラはハーネスのスコープ外です。 :::
このアプローチを使う場面
- 評価データセットとは完全に独立した 並列コーパス(数百〜数千の文ペア)にアクセスできる
- トレーニング用のGPUアクセスがある(ローカルハードウェア、クラウド、または大学の計算クラスター)
- 特定の言語ペアで最高品質の上限を目指しており、トレーニングへの投資を厭わない
- 他のアプローチ(coached prompting、few-shot)が品質の頭打ちに達している
仕組み
- 並列データの収集 — 独立したソース(教科書、コミュニティアーカイブ、Hansardの記録、宗教テキスト、教育資料)からソース・ターゲットの文ペアを収集する
- トレーニング形式の準備 — インストラクションチューニング形式(システムプロンプト+入力+期待される出力)に変換する
- ファインチューニング — ベースモデルに対してLoRA/QLoRAを適用する(4ビット量子化により、コンシューマー向けGPUでも実行可能)
- ハーネスによる評価 — ファインチューニング済みモデルを評価ハーネスで実行する
- 反復改善 — トレーニングデータ、ハイパーパラメータ、ベースモデルの選択を調整する
データ要件
| コーパスサイズ | 期待できる結果 |
|---|---|
| 50〜200ペア | ゼロショットに対してわずかな改善;過学習の可能性あり |
| 200〜1,000ペア | スタイルと用語の顕著な改善 |
| 1,000〜5,000ペア | 特定の言語ペアにおける大幅な品質向上 |
| 5,000ペア以上 | ベースモデルの品質上限に近づく |
:::danger 評価データの汚染 = 失格 トレーニングデータは評価データセットと重複してはなりません。文そのもの、語彙リスト、同一内容の言い換えも含めて一切禁止です。ハーネスは出力のフィンガープリントを取得しており、統計的な重複は検出可能です。データソースが独立しているか不明な場合は、除外する方向で判断してください。リーダーボードルールを参照してください。 :::
スケルトン:LoRAファインチューニング
# Conceptual skeleton — adapt to your framework (HuggingFace, Axolotl, etc.)
# 1. Format your parallel data as instruction pairs
training_data = [
{"instruction": "Translate to Plains Cree (SRO)",
"input": "The children are playing",
"output": "awâsisak mêtawêwak"},
# ... hundreds more
]
# 2. Fine-tune with LoRA (4-bit for consumer GPUs)
# Base model: meta-llama/Llama-3.1-8B, google/gemma-2-9b, etc.
# Rank: 16–64, Alpha: 32–128, Epochs: 3–5
# 3. Export and serve via the harness TranslationMethod protocol
並列データの入手先
- コミュニティアーカイブ — 教育資料、政府文書、バイリンガル出版物
- Nunavut Hansard — 130万件の英語・イヌクティトット語アライメント済みペア(NRC Canada)
- 聖書の翻訳 — 多くの低リソース言語で利用可能だが、ドメインが限定的
- 教育教科書 — 語学学習向けにバイリンガル形式であることが多い
- 自作する — コーパス作成ガイドを参照
メリットとデメリット
| ✅ 最高品質の上限 | ❌ 並列データが必要(低リソース言語では希少) |
| ✅ 言語固有のパターンを学習できる | ❌ GPUコストがかかる(LoRAにより軽減可能) |
| ✅ プロンプトベースのアプローチを上回れる | ❌ 小規模データセットでは過学習のリスクあり |
| ✅ トレーニングは一度だけ、推論コストは低い | ❌ 評価汚染に関する厳格なルールがある |
組み合わせに適したアプローチ
- コーパス作成 — 必要なトレーニングデータを構築する
- バックトランスレーション — 並列コーパスを合成的に拡張する
- FST-Gatedパイプライン — ファインチューニング済みモデル+形態論的バリデーション
- Coached LLMプロンプティング — ファインチューニング済みベースモデルへのcoachingを追加する
関連情報
- 評価データセット — トレーニングに使用できないデータを確認する
- リーダーボードルール — 汚染ポリシー
- 低リソース言語のサポート