言語コミュニティの方へ
要旨。 先住民言語および低リソース言語の話者を対象に、Arena への貢献方法(参照翻訳、翻訳レビュー、コーチングデータ)と、コミュニティが得られるもの(コードの所有権、API 収益、完全なデプロイ制御)を説明するガイドです。プログラミングの知識は不要です。
Arena に貢献するためにプログラマーである必要はありません。先住民言語または低リソース言語を話す方こそ、このエコシステムで最も重要な存在です。
ご提供いただきたいもの
参照翻訳
評価に使用するための、精選された翻訳ペアが必要です。一方に英語、もう一方にあなたの言語を対応させたものです。これらはすべての翻訳手法の採点基準となる「解答例」になります。
以下のような素材から作成できます:
- 教育資料 — 教科書の演習問題、授業計画、ワークシート
- コミュニティ文書 — 議事録、ニュースレター、お知らせ
- 日常的なフレーズ — UI 文字列、アプリのラベル、よく使う表現
- 文化的コンテンツ — 物語、歌、または説明文(適切な許可を得たもの)
フォーマットはシンプルな JSON です:
{
"entries": [
{ "id": 1, "source": "Hello", "reference": "tânisi" },
{ "id": 2, "source": "Thank you", "reference": "kinanâskomitin" }
]
}
翻訳レビュー
実用的な翻訳を生成できると主張するすべての手法には、人間による検証が必要です。バイリンガルの話者が出力結果をレビューし、コンピューターが正しく翻訳できたかどうか、そしてより重要なこととして、なぜ 誤ったのかを教えていただきます。
コーチングデータ
文法規則、辞書エントリ、形態論的パターン — これらは翻訳手法を機能させる言語リソースです。あなたの言語がどのように機能するかについての知識は、いかなる AI モデルによっても代替できません。
コミュニティが得られるもの
所有権
あなたの言語向けの翻訳手法が構築され、Arena 上で検証されると、所有権はコミュニティのガバナンス組織に移転されます。コード、モデルの重み、およびデプロイメントはコミュニティのものになります。
収益
開発者が champollion API を通じてあなたの言語の手法を使用すると、コミュニティは API 収益の 90% を受け取ります。残りの 10% はインフラコストに充てられます。
制御権
ガバナンス組織は以下を管理します:
- 手法へのアクセスを許可する対象
- 商業利用の可否
- 適用する料金条件
- 更新の時期と方法
- 追加開発に使用するデータ
参加方法
- お問い合わせ — Arena リポジトリで Issue を開くか、メンテナーにメールでご連絡ください
- 言語の説明 — どの語族に属しますか?話者数は?使用されている文字体系は?既存の計算言語学リソース(FST、辞書、コーパスなど)はありますか?
- 小さく始める — 精選された翻訳ペアが 50 件あれば、評価データセットの作成と新しいリーダーボードトラックの開設には十分です
- ガバナンスとの連携 — コミュニティ内で言語データと技術に関する権限を持つのは誰ですか?Arena の主権モデルにはガバナンスパートナーが必要です
データ主権
あなたの言語データはあなたのものです。Arena は OCAP® 原則に基づいて構築されています:
- 言語データを当社のサーバーで収集・保存することは一切ありません
- 翻訳手法は
apiアーキテクチャを使用しており、コーチングデータ、辞書、文法規則はすべてコミュニティが管理するインフラ上に保持されます - あなたの言語の手法を開発できる対象はコミュニティが決定します
- リーダーボードのスコアは手法が機能することを証明するものであり、デプロイの許可を付与するものではありません
関連情報
- データ主権 — OCAP、CARE、および Te Mana Raraunga フレームワークの詳細
- 所有権の移転 — 手法が勝利した場合に起こること
- 経済モデル — スコアが収益に変わる仕組み
- 低リソース言語のサポート — コミュニティと協働する研究者向けの技術的背景