部分翻訳（人間＋機械）

基本的な考え方： 代表的なサンプルを手動で翻訳し、機械翻訳の手法がそのサンプルで人間のスタイルに一致することを確認してから、残りの大量のテキストを自動翻訳します。人間が基準を設定し、機械がそれに従うことで、人間の品質と機械のスケールを組み合わせます。

:::info これはクックブックであり、完成した実装ではありませんこのガイドでは、人間と機械のハイブリッドワークフローの概要を説明します。翻訳会社、コミュニティの言語担当者、および教育現場に特に関連する内容です。 :::

このアプローチを使う場面

流暢な話者へのアクセスはあるが、その時間が限られている場合
大量のテキストを翻訳する必要があるが、完璧な品質が求められるのはごく一部である場合
人間による翻訳で品質のベースラインを確立し、その後 MT でスケールアップしたい場合
サブセットの人間によるレビューが現実的な教育またはコミュニティの文脈で作業している場合

仕組み

[Full corpus: 1,000 entries]
        │
        ├── [100 entries] ──→ Human translator ──→ Gold translations
        │                                              │
        │                                              ▼
        │                                    Train / prompt machine
        │                                    method to match style
        │                                              │
        └── [900 entries] ──→ Machine method ──→ Auto translations
                                                       │
                                                       ▼
                                              [Optional: human review
                                               of flagged entries]

代表的なサンプルを選択する — 異なる文の種類、長さ、トピックをカバーする
サンプルを人間が翻訳する — スタイル、レジスター、用語のゴールドスタンダードを確立する
機械翻訳の手法を設定する — 人間の翻訳をコーチングデータ、few-shot の例、またはファインチューニングデータとして使用する
人間のサンプルで機械をスコアリングする — 機械が人間のスタイルに一致しているか確認する
残りを自動翻訳する — サンプルでの機械品質が許容できる場合
任意の人間レビュー — 信頼度の低い出力を話者レビュー用にフラグを立てる

品質保証：スタイル一致テスト

# Translate the human-translated sample with your machine method
python eval/baseline_experiment.py \
  --dataset data/human-sample.json \
  --condition coached-v3

# Compare: does the machine match the human translator's choices?
# Look at: chrF++ (similarity), FST acceptance (validity),
# and qualitative patterns (register, formality, terminology)

サンプルの選択

分布をカバーする。 100 件のエントリには以下を含める必要があります：

短いフレーズ（1〜3 語）と完全な文
一般的な語彙とドメイン固有の用語
単純な構造と複雑な構造
複数の文法的特徴（疑問文、命令文、条件文）

簡単なものだけを選ばない。 サンプルには、使用する手法が苦手とする可能性のあるエントリを含める必要があります — そこでこそ人間の品質が最も重要になります。

コミュニティレビューのワークフロー

先住民言語コミュニティでは、このアプローチが話者の時間を尊重します：

話者が 50〜100 件のエントリを翻訳する（集中した作業で 2〜4 時間）
機械が残りの 900 件を翻訳する — 話者の作業をコーチングデータとして使用
話者がフラグの立てられたエントリをレビューする — 機械の信頼度が最も低かったものだけ（さらに 1〜2 時間）
結果： 話者の時間を約 50 時間ではなく約 5 時間で、1,000 件の翻訳をほぼ人間品質で完成させる

メリットとデメリット


✅ 人間の品質と機械のスケールを組み合わせる	❌ 初期の人間による投資が必要
✅ 限られた話者の可用性を尊重する	❌ 機械がすべてのスタイル上のニュアンスを捉えられない場合がある
✅ 自然な品質保証ワークフロー	❌ サンプルの選択が全体的な品質に影響する
✅ コミュニティ・教育の文脈に最適	❌ フラグの立てられたエントリの人間レビューがボトルネックになる

組み合わせると効果的な手法

Coached LLM Prompting — 人間の翻訳がコーチングデータに活用される
Few-Shot Prompting — 人間の翻訳をインコンテキストの例として使用する
Corpus Creation — 人間のサンプルそのものがコーパス作成になる

このアプローチを使う場面​

仕組み​

品質保証：スタイル一致テスト​

サンプルの選択​

コミュニティレビューのワークフロー​

メリットとデメリット​

組み合わせると効果的な手法​

関連情報​