話者検証プロトコル

目的。 本文書は、LYSS評価メトリクスを検証するためにCree–English二言語話者から必要なことを正確に定義します。この検証なしには、自動スコアはエンジニアリング上の推定値に過ぎず、品質測定として実証されたものではありません。これはプロジェクトにおける最も重要な課題です。

対象読者。 コミュニティパートナー、潜在的な協力者、助成金審査者、およびプロジェクトチーム。

最終更新日：2026-06-07

1. 話者が必要な理由

LYSS評価フレームワーク（Linguistically-informed Yield & Structural Scoring）は、英語→Plains Cree翻訳の自動品質スコアを算出します。使用する主要なシグナルは以下の3つです：

LYSS-fst：出力に有効なCree語が含まれているか？（GiellaLT有限状態トランスデューサーによる検査）
LYSS-eq：出力は参照翻訳の許容可能なバリアントか？（リンターの等価クラスによる検査）
LYSS-sem：出力はソースの意味を保持しているか？（意味検証器による検査）

これらのメトリクスは数値を生成します。しかし、その数値に意味があるかどうかは不明です。 FSTは認識できない有効な語（借用語、新語、固有名詞）を誤って拒否する可能性があります。リンターは有効な等価関係を見逃したり、無効なものを受け入れたりする場合があります。意味検証器は意味を誤って判断する可能性があります。自動スコアが翻訳品質に関する人間の判断と一致するかどうかを二言語話者が確認するまで、私たちは推測に頼っているに過ぎません。

主要なMT評価メトリクス（BLEU、COMET、chrF++）はいずれも、自動スコアと数千件の人間による品質評価を比較することで検証されました。私たちも同様のことが必要です——リソースが限られているため規模は小さくなりますが、同等の厳密さが求められます。

2. 必要なこと：3つのタスク

タスクA：翻訳品質評価（主要タスク——合計約8時間）

内容： 機械生成された英語→Cree翻訳200件を2つの尺度で評価します。

対象者： SRO（Standard Roman Orthography）の読み書きができる、Plains Cree–English二言語話者3名以上。

進め方：

200行のスプレッドシートまたはウェブフォームを提供します。各行には以下が含まれます：
- 英語のソース文
- 機械生成されたCree翻訳
- （任意）比較用の参照Cree翻訳

各翻訳について、話者は以下の2点を評価します：

適切性（正しい内容を伝えているか？）：

スコア	ラベル	意味
1	なし	翻訳はソースと全く関係がない
2	わずか	一部の語は一致しているが、全体的な意味が誤っている
3	概ね	核心的な意味はあるが、重要な部分が欠落または誤っている
4	ほぼ	ほぼ正確で、意味上の軽微な欠落がある
5	完全	翻訳はソースの意味を完全に伝えている

流暢性（本物のCreeらしく聞こえるか？）：

スコア	ラベル	意味
1	理解不能	これはCreeではない
2	非流暢	個々の語はCreeかもしれないが、文として成立していない
3	非母語的	理解はできるが、Cree話者の言い方とは明らかに異なる
4	良好	自然に聞こえるが、わずかに不自然な点がある
5	完璧	Cree話者が書いたと言えるレベル

任意で、評価の理由を自由記述で追記できます（例：「動詞の有生・無生の一致が誤っている」「th方言だがy方言を基準に評価した」など）。

所要時間の目安： 1翻訳あたり約2.5分×200翻訳＝約8時間。複数回に分けて実施可能です（例：2週間にわたり2時間×4回）。

報酬： 50〜65 CADドル/時間（BENCHMARK_SPEC §10.3の話者報酬レートに準拠）。話者1名あたりの合計：400〜520 CADドル。話者3名の場合：1,200〜1,560 CADドル。

活用方法： 自動LYSSスコアと話者評価の相関を算出します。LYSS-fstが流暢性評価と相関し、LYSS-semが適切性評価と相関すれば、メトリクスは検証されたことになります。相関が見られない場合は、修正が必要な箇所を特定できます。

タスクB：リンター等価性検証（約2時間）

内容： リンターが「等価」と分類したCree翻訳のペア50組を確認し、実際に同じ意味かどうかを判断します。

対象者： 二言語話者1〜2名（タスクAと同じ話者でも可）。

進め方：

50組のペアを提供します。各ペアには以下が含まれます：
- 英語のソース
- 翻訳A（参照翻訳）
- 翻訳B（リンターが等価と判定したバリアント）
- 等価の理由（例：「語順の置換」「正書法上のバリアント」「任意の助詞の削除」）
各ペアについて、話者は以下に回答します：
- 意味は同じか？ はい / いいえ / 文脈による
- どちらも自然か？ はい / Aの方が良い / Bの方が良い / どちらも不自然
- 備考（任意の自由記述）

所要時間の目安： 1ペアあたり約2分×50ペア＝約2時間。

報酬： 50〜65 CADドル/時間×2時間＝話者1名あたり100〜130 CADドル。

活用方法： 各等価クラスの適合率を算出します。「語順」等価の90%が話者によって真に等価と判定されれば、そのクラスは検証されたことになります。「補題の同義語」等価の40%が誤りと判定された場合は、そのクラスの修正または削除が必要であることがわかります。

タスクC：FST誤拒否レビュー（約1.5時間）

内容： FSTアナライザーが拒否した（有効なCree語ではないと判定した）Cree語100件を確認し、実際に有効かどうかを判断します。

対象者： Creeの語彙知識が豊富な二言語話者1名。

進め方：

436エントリーのEDTeKLAゴールドスタンダードコーパスに対してFSTアナライザーを実行し、拒否されたすべての語を収集します。
拒否された語を最大100件、文脈とともに話者に提示します。
各語について、話者は以下に回答します：
- これは有効なCree語か？ はい / いいえ / 不明
- はいの場合、種類は？ 定着した語 / 借用語 / 固有名詞 / 方言形 / 新語 / その他
- 備考（任意）

所要時間の目安： 1語あたり約1分×100語＝約1.5時間。

報酬： 50〜65 CADドル/時間×1.5時間＝75〜100 CADドル。

活用方法： FSTの誤拒否率を算出します。FSTが50語を拒否し、話者がそのうち30語を有効と判定した場合、誤拒否率は60%となり——これは許容できない高さであり、借用語・例外の許可リストが必要です。話者が有効と判定したのが5語のみであれば、誤拒否率は10%となり、メトリクスは信頼できると言えます。

3. 話者の総コミットメント

タスク	必要な話者数	話者1名あたりの時間	話者1名あたりのコスト	合計コスト
A：品質評価	3名	約8時間	400〜520ドル	1,200〜1,560ドル
B：リンター検証	2名	約2時間	100〜130ドル	200〜260ドル
C：FSTレビュー	1名	約1.5時間	75〜100ドル	75〜100ドル
合計	話者3名	約11.5時間（話者1名あたりの最大）	575〜750ドル（最大）	1,475〜1,920ドル

同じ3名の話者がすべてのタスクを担当する場合：2〜4週間にわたり各自約11.5時間、各自575〜750ドル。

タスクAのみを担当する話者1名の場合：2週間にわたり約8時間、400〜520ドル。

4. 話者の要件

必須：

Plains CreeおよびEnglishの二言語話者であること
SRO（Standard Roman Orthography）の読み書きができること
構造化された尺度で翻訳を評価することに抵抗がないこと

望ましい：

y方言の知識（EDTeKLAの参照コーパスで使用されている方言）
教育または翻訳の経験（品質判断の基準が確立されている）
異なるレジスター（フォーマル、教育的、会話的）への精通

不要：

技術的またはNLPの知識（ツールとコンテキストはすべて提供します）
計算スキル（評価インターフェースはシンプルなスプレッドシートまたはウェブフォームです）
Champollionプロジェクトへの以前の関与

5. データガバナンス

話者によるすべての貢献は、プロジェクトのOCAP®準拠データポリシーに基づいて管理されます：

所有権（Ownership）： 話者の品質評価は、話者自身の知的貢献として帰属します。話者は、いかなる出版物においても実名（または希望に応じて匿名）でクレジットされます。
管理権（Control）： 話者はいつでも評価を撤回できます。撤回により、そのデータはすべての分析から削除されます。
アクセス権（Access）： 評価データは、コミュニティガバナンス組織（設立後）が管理するインフラ、または話者が希望するプラットフォームに保存されます。
保有権（Possession）： 生の評価データは公開されません。出版物には集計統計（相関、アノテーター間一致度）のみが掲載されます。
報酬（Compensation）： 話者は、評価が使用されるかどうかにかかわらず、時間に対して報酬を受け取ります。支払いは結果に左右されません。

6. 話者が得られるもの

報酬以外に：

評価を使用した出版物への共著者としての参加（希望する場合）
すべてのプロジェクトドキュメントへの謝辞掲載
評価ツールと結果への早期アクセス
メトリクスの使用方法への意見反映——話者が「リンターのXは誤っている」と指摘した場合、リンターを修正します
問題があると判断した結果の公開に対する拒否権

7. 参加方法

参加に興味のあるCree–English二言語話者の方、または該当する方をご存知の場合：

[project email/contact]までご連絡ください——コミットメント不要、まずは会話から
タスクの説明を平易な言葉で行います（専門用語なし）
参加するタスクを選択してください（A、B、C、またはいずれかの組み合わせ）
スケジュールを調整します（2時間単位、柔軟な時間設定）
翻訳を評価します——スプレッドシートまたはウェブフォームで、どこからでも、自分のペースで
迅速に支払い——各タスクブロック完了後2週間以内

8. 検証後の展開

話者による検証データが得られれば、以下が可能になります：

メトリクスの相関を公表する——LYSSスコアが人間の判断を反映している（あるいはしていない）ことを実証する
メトリクスを再調整する——話者のフィードバックに基づき、重み、閾値、等価クラスを調整する
リンターを修正する——誤った等価関係を削除し、欠落している等価関係を追加する
FST許可リストを修正する——FSTが誤って拒否している有効な語を追加する
学術的な場に投稿する——話者を共著者として、LYSSを多合成語言語のMT評価における検証済みメトリクスとして確立する

話者による検証なしでは、LYSSはエンジニアリングツールに留まります。検証があれば、LYSSは科学的根拠に基づく評価メトリクスになります。それが「何かを作った」と「機能することを証明した」の違いです。

1. 話者が必要な理由​

2. 必要なこと：3つのタスク​

タスクA：翻訳品質評価（主要タスク——合計約8時間）​

タスクB：リンター等価性検証（約2時間）​

タスクC：FST誤拒否レビュー（約1.5時間）​

3. 話者の総コミットメント​

4. 話者の要件​

5. データガバナンス​

6. 話者が得られるもの​

7. 参加方法​

8. 検証後の展開​

1. 話者が必要な理由

2. 必要なこと：3つのタスク

タスクA：翻訳品質評価（主要タスク——合計約8時間）

タスクB：リンター等価性検証（約2時間）

タスクC：FST誤拒否レビュー（約1.5時間）

3. 話者の総コミットメント

4. 話者の要件

5. データガバナンス

6. 話者が得られるもの

7. 参加方法

8. 検証後の展開