Fine-Tuned na Model

Ang ideya: I-fine-tune ang isang open-weight model (Llama, Mistral, Gemma) gamit ang parallel text para sa inyong target na pares ng wika. Posibleng ito ang may pinakamataas na antas ng kalidad, ngunit nangangailangan ito ng parallel data na maaaring kakaunti — at mahigpit ang mga panuntunan sa kontaminasyon ng eval data.

:::info Ito ay isang cookbook, hindi isang kumpletong implementasyon Inilalahad ng gabay na ito ang lapit, mga kinakailangan sa data, at mga dapat iwasan. Ang aktuwal na training infrastructure ay nasa labas ng saklaw ng harness. :::

Kailan Ito Gagamitin

Mayroon kayong access sa isang parallel corpus (daan-daan hanggang libo-libong pares ng pangungusap) na ganap na independiyente sa evaluation dataset
Mayroon kayong GPU access para sa training (lokal na hardware, cloud, o compute cluster ng unibersidad)
Nais ninyo ang pinakamataas na antas ng kalidad para sa isang partikular na pares ng wika at handa kayong mamuhunan sa training
Umabot na sa quality plateau ang ibang mga lapit (coached prompting, few-shot)

Paano Ito Gumagana

Bumuo ng parallel data — mga pares ng pangungusap na source-target mula sa mga independiyenteng source (mga aklat-aralin, community archive, tala ng Hansard, tekstong panrelihiyon, materyales na pang-edukasyon)
Ihanda ang training format — instruction-tuning format (system prompt + input + inaasahang output)
Mag-fine-tune — LoRA/QLoRA sa isang base model (ginagawang posible ito ng 4-bit quantization sa mga consumer GPU)
Suriin gamit ang harness — patakbuhin ang fine-tuned na model sa pamamagitan ng eval harness
Mag-iterate — ayusin ang training data, hyperparameters, at pagpili ng base model

Mga Kinakailangan sa Data

Laki ng Corpus	Ano ang Aasahan
50–200 pares	Bahagyang pagpapabuti kumpara sa zero-shot; maaaring mag-overfit
200–1,000 pares	Kapansin-pansing pagpapabuti sa estilo at terminolohiya
1,000–5,000 pares	Makabuluhang pagtaas ng kalidad para sa partikular na pares ng wika
5,000+ pares	Papalapit sa pinakamataas na antas ng kalidad para sa base model

:::danger Kontaminasyon ng eval data = diskwalipikasyon HINDI DAPAT mag-overlap ang inyong training data sa evaluation dataset. Hindi ang mga pangungusap, hindi ang listahan ng bokabularyo, at hindi rin ang mga paraphrase ng parehong nilalaman. Gumagawa ang harness ng mga fingerprint ng inyong mga output; natutukoy ang estadistikal na overlap. Kung hindi kayo sigurado kung independiyente ang isang data source, mas mabuting huwag itong isama. Tingnan ang Mga Panuntunan ng Leaderboard. :::

Skeleton: LoRA Fine-Tuning

# Conceptual skeleton — adapt to your framework (HuggingFace, Axolotl, etc.)

# 1. Format your parallel data as instruction pairs
training_data = [
    {"instruction": "Translate to Plains Cree (SRO)", 
     "input": "The children are playing",
     "output": "awâsisak mêtawêwak"},
    # ... hundreds more
]

# 2. Fine-tune with LoRA (4-bit for consumer GPUs)
# Base model: meta-llama/Llama-3.1-8B, google/gemma-2-9b, etc.
# Rank: 16–64, Alpha: 32–128, Epochs: 3–5

# 3. Export and serve via the harness TranslationMethod protocol

Saan Makakahanap ng Parallel Data

Community archives — mga materyales na pang-edukasyon, dokumento ng pamahalaan, bilingual na publikasyon
Nunavut Hansard — 1.3M na naka-align na pares ng English-Inuktitut (NRC Canada)
Mga salin ng Bibliya — available para sa maraming low-resource language, ngunit domain-specific
Mga aklat-araling pang-edukasyon — kadalasang bilingual para sa mga konteksto ng pag-aaral ng wika
Gumawa ng sarili ninyo — tingnan ang Gabay sa Paglikha ng Corpus

Mga Kalamangan at Kahinaan


✅ Pinakamataas na antas ng kalidad	❌ Nangangailangan ng parallel data (kakaunti para sa mga LRL)
✅ Natututuhan ng model ang mga pattern na partikular sa wika	❌ Gastos sa GPU (bagama’t nakatutulong ang LoRA)
✅ Maaaring higitan ang mga prompted approach	❌ Panganib ng overfitting sa maliliit na dataset
✅ Isang beses na gastos sa training, pagkatapos ay murang inference	❌ Mahihigpit na panuntunan sa kontaminasyon ng eval

Mahusay Isama Sa

Paglikha ng Corpus — buuin ang training data na kailangan ninyo
Back-Translation — palawakin nang sintetiko ang inyong parallel corpus
FST-Gated Pipeline — fine-tuned na model + morphological validation
Coached LLM Prompting — coaching sa ibabaw ng isang fine-tuned na base

Tingnan Din

Mga Evaluation Dataset — alamin kung ano ang HINDI ninyo maaaring gamitin sa training
Mga Panuntunan ng Leaderboard — patakaran sa kontaminasyon
Suportahan ang isang Low-Resource Language

Kailan Ito Gagamitin​

Paano Ito Gumagana​

Mga Kinakailangan sa Data​

Skeleton: LoRA Fine-Tuning​

Saan Makakahanap ng Parallel Data​

Mga Kalamangan at Kahinaan​

Mahusay Isama Sa​

Tingnan Din​