ファインチューニング済みモデル

基本的な考え方： 対象言語ペアの並列テキストを使用して、オープンウェイトモデル（Llama、Mistral、Gemma）をファインチューニングします。潜在的に最高品質の上限を実現できますが、入手困難な並列データが必要であり、評価データの汚染に関するルールも厳格です。

:::info これはクックブックであり、完成した実装ではありませんこのガイドでは、アプローチ、データ要件、および注意点を概説します。実際のトレーニングインフラはハーネスのスコープ外です。 :::

このアプローチを使う場面

評価データセットとは完全に独立した 並列コーパス（数百〜数千の文ペア）にアクセスできる
トレーニング用のGPUアクセスがある（ローカルハードウェア、クラウド、または大学の計算クラスター）
特定の言語ペアで最高品質の上限を目指しており、トレーニングへの投資を厭わない
他のアプローチ（coached prompting、few-shot）が品質の頭打ちに達している

仕組み

並列データの収集 — 独立したソース（教科書、コミュニティアーカイブ、Hansardの記録、宗教テキスト、教育資料）からソース・ターゲットの文ペアを収集する
トレーニング形式の準備 — インストラクションチューニング形式（システムプロンプト＋入力＋期待される出力）に変換する
ファインチューニング — ベースモデルに対してLoRA/QLoRAを適用する（4ビット量子化により、コンシューマー向けGPUでも実行可能）
ハーネスによる評価 — ファインチューニング済みモデルを評価ハーネスで実行する
反復改善 — トレーニングデータ、ハイパーパラメータ、ベースモデルの選択を調整する

データ要件

コーパスサイズ	期待できる結果
50〜200ペア	ゼロショットに対してわずかな改善；過学習の可能性あり
200〜1,000ペア	スタイルと用語の顕著な改善
1,000〜5,000ペア	特定の言語ペアにおける大幅な品質向上
5,000ペア以上	ベースモデルの品質上限に近づく

:::danger 評価データの汚染 = 失格トレーニングデータは評価データセットと重複してはなりません。文そのもの、語彙リスト、同一内容の言い換えも含めて一切禁止です。ハーネスは出力のフィンガープリントを取得しており、統計的な重複は検出可能です。データソースが独立しているか不明な場合は、除外する方向で判断してください。リーダーボードルールを参照してください。 :::

スケルトン：LoRAファインチューニング

# Conceptual skeleton — adapt to your framework (HuggingFace, Axolotl, etc.)

# 1. Format your parallel data as instruction pairs
training_data = [
    {"instruction": "Translate to Plains Cree (SRO)", 
     "input": "The children are playing",
     "output": "awâsisak mêtawêwak"},
    # ... hundreds more
]

# 2. Fine-tune with LoRA (4-bit for consumer GPUs)
# Base model: meta-llama/Llama-3.1-8B, google/gemma-2-9b, etc.
# Rank: 16–64, Alpha: 32–128, Epochs: 3–5

# 3. Export and serve via the harness TranslationMethod protocol

並列データの入手先

コミュニティアーカイブ — 教育資料、政府文書、バイリンガル出版物
Nunavut Hansard — 130万件の英語・イヌクティトット語アライメント済みペア（NRC Canada）
聖書の翻訳 — 多くの低リソース言語で利用可能だが、ドメインが限定的
教育教科書 — 語学学習向けにバイリンガル形式であることが多い
自作する — コーパス作成ガイドを参照

メリットとデメリット


✅ 最高品質の上限	❌ 並列データが必要（低リソース言語では希少）
✅ 言語固有のパターンを学習できる	❌ GPUコストがかかる（LoRAにより軽減可能）
✅ プロンプトベースのアプローチを上回れる	❌ 小規模データセットでは過学習のリスクあり
✅ トレーニングは一度だけ、推論コストは低い	❌ 評価汚染に関する厳格なルールがある

組み合わせに適したアプローチ

コーパス作成 — 必要なトレーニングデータを構築する
バックトランスレーション — 並列コーパスを合成的に拡張する
FST-Gatedパイプライン — ファインチューニング済みモデル＋形態論的バリデーション
Coached LLMプロンプティング — ファインチューニング済みベースモデルへのcoachingを追加する

このアプローチを使う場面​

仕組み​

データ要件​

スケルトン：LoRAファインチューニング​

並列データの入手先​

メリットとデメリット​

組み合わせに適したアプローチ​

関連情報​