メインコンテンツへスキップ

ファインチューニング済みモデル

基本的な考え方: 対象言語ペアの並列テキストを使用して、オープンウェイトモデル(Llama、Mistral、Gemma)をファインチューニングします。潜在的に最高品質の上限を実現できますが、入手困難な並列データが必要であり、評価データの汚染に関するルールも厳格です。

:::info これはクックブックであり、完成した実装ではありません このガイドでは、アプローチ、データ要件、および注意点を概説します。実際のトレーニングインフラはハーネスのスコープ外です。 :::

このアプローチを使う場面

  • 評価データセットとは完全に独立した 並列コーパス(数百〜数千の文ペア)にアクセスできる
  • トレーニング用のGPUアクセスがある(ローカルハードウェア、クラウド、または大学の計算クラスター)
  • 特定の言語ペアで最高品質の上限を目指しており、トレーニングへの投資を厭わない
  • 他のアプローチ(coached prompting、few-shot)が品質の頭打ちに達している

仕組み

  1. 並列データの収集 — 独立したソース(教科書、コミュニティアーカイブ、Hansardの記録、宗教テキスト、教育資料)からソース・ターゲットの文ペアを収集する
  2. トレーニング形式の準備 — インストラクションチューニング形式(システムプロンプト+入力+期待される出力)に変換する
  3. ファインチューニング — ベースモデルに対してLoRA/QLoRAを適用する(4ビット量子化により、コンシューマー向けGPUでも実行可能)
  4. ハーネスによる評価 — ファインチューニング済みモデルを評価ハーネスで実行する
  5. 反復改善 — トレーニングデータ、ハイパーパラメータ、ベースモデルの選択を調整する

データ要件

コーパスサイズ期待できる結果
50〜200ペアゼロショットに対してわずかな改善;過学習の可能性あり
200〜1,000ペアスタイルと用語の顕著な改善
1,000〜5,000ペア特定の言語ペアにおける大幅な品質向上
5,000ペア以上ベースモデルの品質上限に近づく

:::danger 評価データの汚染 = 失格 トレーニングデータは評価データセットと重複してはなりません。文そのもの、語彙リスト、同一内容の言い換えも含めて一切禁止です。ハーネスは出力のフィンガープリントを取得しており、統計的な重複は検出可能です。データソースが独立しているか不明な場合は、除外する方向で判断してください。リーダーボードルールを参照してください。 :::

スケルトン:LoRAファインチューニング

# Conceptual skeleton — adapt to your framework (HuggingFace, Axolotl, etc.)

# 1. Format your parallel data as instruction pairs
training_data = [
{"instruction": "Translate to Plains Cree (SRO)",
"input": "The children are playing",
"output": "awâsisak mêtawêwak"},
# ... hundreds more
]

# 2. Fine-tune with LoRA (4-bit for consumer GPUs)
# Base model: meta-llama/Llama-3.1-8B, google/gemma-2-9b, etc.
# Rank: 16–64, Alpha: 32–128, Epochs: 3–5

# 3. Export and serve via the harness TranslationMethod protocol

並列データの入手先

  • コミュニティアーカイブ — 教育資料、政府文書、バイリンガル出版物
  • Nunavut Hansard — 130万件の英語・イヌクティトット語アライメント済みペア(NRC Canada)
  • 聖書の翻訳 — 多くの低リソース言語で利用可能だが、ドメインが限定的
  • 教育教科書 — 語学学習向けにバイリンガル形式であることが多い
  • 自作するコーパス作成ガイドを参照

メリットとデメリット

✅ 最高品質の上限❌ 並列データが必要(低リソース言語では希少)
✅ 言語固有のパターンを学習できる❌ GPUコストがかかる(LoRAにより軽減可能)
✅ プロンプトベースのアプローチを上回れる❌ 小規模データセットでは過学習のリスクあり
✅ トレーニングは一度だけ、推論コストは低い❌ 評価汚染に関する厳格なルールがある

組み合わせに適したアプローチ

関連情報