Lumaktaw sa pangunahing nilalaman

Fine-Tuned na Model

Ang ideya: I-fine-tune ang isang open-weight model (Llama, Mistral, Gemma) gamit ang parallel text para sa inyong target na pares ng wika. Posibleng ito ang may pinakamataas na antas ng kalidad, ngunit nangangailangan ito ng parallel data na maaaring kakaunti — at mahigpit ang mga panuntunan sa kontaminasyon ng eval data.

:::info Ito ay isang cookbook, hindi isang kumpletong implementasyon Inilalahad ng gabay na ito ang lapit, mga kinakailangan sa data, at mga dapat iwasan. Ang aktuwal na training infrastructure ay nasa labas ng saklaw ng harness. :::

Kailan Ito Gagamitin

  • Mayroon kayong access sa isang parallel corpus (daan-daan hanggang libo-libong pares ng pangungusap) na ganap na independiyente sa evaluation dataset
  • Mayroon kayong GPU access para sa training (lokal na hardware, cloud, o compute cluster ng unibersidad)
  • Nais ninyo ang pinakamataas na antas ng kalidad para sa isang partikular na pares ng wika at handa kayong mamuhunan sa training
  • Umabot na sa quality plateau ang ibang mga lapit (coached prompting, few-shot)

Paano Ito Gumagana

  1. Bumuo ng parallel data — mga pares ng pangungusap na source-target mula sa mga independiyenteng source (mga aklat-aralin, community archive, tala ng Hansard, tekstong panrelihiyon, materyales na pang-edukasyon)
  2. Ihanda ang training format — instruction-tuning format (system prompt + input + inaasahang output)
  3. Mag-fine-tune — LoRA/QLoRA sa isang base model (ginagawang posible ito ng 4-bit quantization sa mga consumer GPU)
  4. Suriin gamit ang harness — patakbuhin ang fine-tuned na model sa pamamagitan ng eval harness
  5. Mag-iterate — ayusin ang training data, hyperparameters, at pagpili ng base model

Mga Kinakailangan sa Data

Laki ng CorpusAno ang Aasahan
50–200 paresBahagyang pagpapabuti kumpara sa zero-shot; maaaring mag-overfit
200–1,000 paresKapansin-pansing pagpapabuti sa estilo at terminolohiya
1,000–5,000 paresMakabuluhang pagtaas ng kalidad para sa partikular na pares ng wika
5,000+ paresPapalapit sa pinakamataas na antas ng kalidad para sa base model

:::danger Kontaminasyon ng eval data = diskwalipikasyon HINDI DAPAT mag-overlap ang inyong training data sa evaluation dataset. Hindi ang mga pangungusap, hindi ang listahan ng bokabularyo, at hindi rin ang mga paraphrase ng parehong nilalaman. Gumagawa ang harness ng mga fingerprint ng inyong mga output; natutukoy ang estadistikal na overlap. Kung hindi kayo sigurado kung independiyente ang isang data source, mas mabuting huwag itong isama. Tingnan ang Mga Panuntunan ng Leaderboard. :::

Skeleton: LoRA Fine-Tuning

# Conceptual skeleton — adapt to your framework (HuggingFace, Axolotl, etc.)

# 1. Format your parallel data as instruction pairs
training_data = [
{"instruction": "Translate to Plains Cree (SRO)",
"input": "The children are playing",
"output": "awâsisak mêtawêwak"},
# ... hundreds more
]

# 2. Fine-tune with LoRA (4-bit for consumer GPUs)
# Base model: meta-llama/Llama-3.1-8B, google/gemma-2-9b, etc.
# Rank: 16–64, Alpha: 32–128, Epochs: 3–5

# 3. Export and serve via the harness TranslationMethod protocol

Saan Makakahanap ng Parallel Data

  • Community archives — mga materyales na pang-edukasyon, dokumento ng pamahalaan, bilingual na publikasyon
  • Nunavut Hansard — 1.3M na naka-align na pares ng English-Inuktitut (NRC Canada)
  • Mga salin ng Bibliya — available para sa maraming low-resource language, ngunit domain-specific
  • Mga aklat-araling pang-edukasyon — kadalasang bilingual para sa mga konteksto ng pag-aaral ng wika
  • Gumawa ng sarili ninyo — tingnan ang Gabay sa Paglikha ng Corpus

Mga Kalamangan at Kahinaan

✅ Pinakamataas na antas ng kalidad❌ Nangangailangan ng parallel data (kakaunti para sa mga LRL)
✅ Natututuhan ng model ang mga pattern na partikular sa wika❌ Gastos sa GPU (bagama’t nakatutulong ang LoRA)
✅ Maaaring higitan ang mga prompted approach❌ Panganib ng overfitting sa maliliit na dataset
✅ Isang beses na gastos sa training, pagkatapos ay murang inference❌ Mahihigpit na panuntunan sa kontaminasyon ng eval

Mahusay Isama Sa

Tingnan Din