วิธีที่ผู้พูดได้รับค่าตอบแทน
หมายเหตุด้านความโปร่งใส ตัวเลขทุกตัวในหน้านี้ปรากฏอยู่ในข้อกำหนดที่เผยแพร่แล้ว ได้แก่ Benchmark Specification §10, Speaker Validation Protocol และ Prize Specification หน้านี้รวบรวมข้อมูลเหล่านั้นไว้ในที่เดียวด้วยภาษาที่เข้าใจง่าย เพื่อที่ไม่มีใครต้องอ่านข้อกำหนดเพื่อทราบว่าเวลาของผู้พูดมีมูลค่าเท่าใดในที่นี้ หน้านี้ไม่ได้ให้คำมั่นสัญญาใดๆ นอกเหนือจากที่เอกสารเหล่านั้นระบุไว้แล้ว
ผู้พูดสองภาษาที่สามารถตัดสินได้ว่าประโยคที่เครื่องสร้างขึ้นนั้นฟังดูเป็นธรรมชาติ คล่องแคล่ว และมีความหมายถูกต้องหรือไม่ คือผู้เข้าร่วมที่หายากและมีคุณค่าที่สุดในระบบทั้งหมดนี้ ทุกสิ่งทุกอย่างที่เหลือ ไม่ว่าจะเป็น harness, เมตริก, หรือ leaderboard ล้วนมีไว้เพื่อให้เวลาอันน้อยนิดของบุคคลเหล่านั้นเกิดประโยชน์สูงสุด
ดังนั้นกฎข้อแรกจึงเรียบง่าย: ผู้พูดได้รับค่าตอบแทนสำหรับเวลาของตน ในอัตราระดับมืออาชีพ โดยไม่คำนึงถึงผลลัพธ์ที่ได้
เหตุใดการจ่ายค่าตอบแทนให้ผู้พูดจึงเป็นสิ่งที่ต้องทำโดยไม่มีข้อยกเว้น
การวิจัยด้านเทคโนโลยีภาษามีนิสัยยาวนานในการมองผู้พูดที่คล่องแคล่วว่าเป็นทรัพยากรฟรี ในรูปแบบ "การมีส่วนร่วมของชุมชน" ที่ผลิตชุดข้อมูล บทความ และเส้นทางอาชีพให้กับทุกคน ยกเว้นผู้พูดเอง เราถือว่ารูปแบบดังกล่าวเป็นการเอาเปรียบ และผู้ที่มีคุณสมบัติเหมาะสมที่สุดในการทำงานนี้คือผู้ที่เวลาของตนถูกเรียกร้องอยู่แล้วจากงานเร่งด่วนในการสอน การแปล และการเลี้ยงดูบุตรหลานในภาษานั้น
ผลที่ตามมาในด้านการออกแบบมีสามประการ:
- ไม่มีกระบวนการอาสาสมัคร เราไม่ขอให้ผู้พูดบริจาคงานประเมินผลเป็นความช่วยเหลือต่องานวิจัย การมีส่วนร่วมเป็นงานที่ได้รับค่าตอบแทน และการปฏิเสธไม่มีค่าใช้จ่ายใดๆ สำหรับผู้พูด
- การจ่ายเงินเป็นแบบไม่มีเงื่อนไข ผู้พูดได้รับค่าตอบแทนไม่ว่าการให้คะแนนของตนจะถูกนำไปใช้หรือไม่ และการจ่ายเงินไม่ขึ้นอยู่กับผลลัพธ์ โปรโตคอลที่เผยแพร่ผูกพันให้จ่ายเงินภายในสองสัปดาห์หลังจากเสร็จสิ้นแต่ละบล็อกงาน
- ค่าตอบแทนไม่ใช่ทุกสิ่ง ผู้พูดที่ให้คะแนนยังได้รับเครดิต (ระบุชื่อหรือไม่ระบุชื่อ ตามที่ตนเลือก) สิทธิ์เป็นผู้ร่วมเขียนในสิ่งพิมพ์ที่ใช้การให้คะแนนของตนโดยสมัครใจ สิทธิ์ถอนการมีส่วนร่วมได้ตลอดเวลา และอำนาจยับยั้งการเผยแพร่ผลลัพธ์ที่ตนเห็นว่ามีปัญหา เงื่อนไขเหล่านั้นอยู่ใน Speaker Validation Protocol §5–6 ไม่ใช่ในจดหมายแยกต่างหาก
อัตราที่เผยแพร่
กรอบต้นทุนของ benchmark กำหนดค่าตอบแทนผู้พูดสองภาษาที่ $50–65 CAD ต่อชั่วโมง สำหรับงาน corpus และงานตรวจสอบความถูกต้อง ซึ่งหมายความว่าอย่างไรในแต่ละบทบาท:
การสร้าง benchmark corpus
การสร้างการแปลอ้างอิงที่ทุกวิธีการได้รับการให้คะแนนเปรียบเทียบกันคืองานผู้พูดพื้นฐาน งบประมาณการจัดตั้งที่เผยแพร่ต่อภาษา:
| งาน | ช่วงที่เผยแพร่ | พื้นฐาน |
|---|---|---|
| การดูแล corpus (50–150 รายการ) | $2,500–6,000 | $50–65/ชม. เวลาผู้พูดสองภาษา |
| การตรวจสอบผลลัพธ์ของวิธีการ | $500–1,500 | อัตรารายชั่วโมงเดียวกัน |
โดยทั่วไป corpus เต็มรูปแบบใช้เวลาผู้พูดประมาณ 80 ชั่วโมง กระบวนการทำงานที่ได้รับความช่วยเหลือจาก agent ที่วางแผนไว้ (การร่างประโยคและการจัดรูปแบบดำเนินการโดยเครื่องมือ ส่วนการแปลดำเนินการโดยมนุษย์เสมอ) ได้รับการออกแบบให้ลดเวลาลงเหลือ 30–40 ชั่วโมง ซึ่งหมายถึงชั่วโมงงานซ้ำซากน้อยลง อัตรารายชั่วโมงเท่าเดิม โดยผู้พูดทำเฉพาะส่วนที่ต้องการมนุษย์จริงๆ
การตรวจสอบความถูกต้องของเมตริก
ก่อนที่คะแนนอัตโนมัติจะมีความหมาย ผู้พูดต้องตรวจสอบเทียบกับการตัดสินของมนุษย์ Speaker Validation Protocol เผยแพร่งาน ชั่วโมง และค่าตอบแทนที่แน่นอน:
| งาน | เวลา | ค่าตอบแทนต่อผู้พูด |
|---|---|---|
| A — ให้คะแนนการแปลด้วยเครื่อง 200 รายการด้านความเพียงพอและความคล่องแคล่ว | ~8 ชั่วโมง | $400–520 CAD |
| B — ตรวจสอบคู่การแปลที่ "เทียบเท่า" 50 คู่ | ~2 ชั่วโมง | $100–130 CAD |
| C — ตรวจสอบคำ 100 คำที่ตัววิเคราะห์สัณฐานวิทยาปฏิเสธ | ~1.5 ชั่วโมง | $75–100 CAD |
ผู้พูดที่ทำทั้งสามงานใช้เวลาประมาณ 11.5 ชั่วโมงในช่วงสองถึงสี่สัปดาห์ เพื่อรับ $575–750 CAD รอบการตรวจสอบความถูกต้องสามผู้พูดเต็มรูปแบบมีค่าใช้จ่ายสำหรับโครงการ $1,475–1,920 ซึ่งนั่นคือประเด็นสำคัญ: การตรวจสอบความถูกต้องของผู้พูดเป็นรายการค่าใช้จ่ายเล็กน้อยสำหรับโครงการ และไม่ควรเป็นจุดที่ "ประหยัด" ค่าใช้จ่าย
การตรวจสอบการเรียกร้องรางวัล
ไม่มีรางวัลใดที่จ่ายบนพื้นฐานของคะแนนอัตโนมัติเพียงอย่างเดียว Founder's Prize ($10,000 CAD, English→Plains Cree) กำหนดให้ผู้พูดสองภาษาอย่างน้อยสองคนตรวจสอบตัวอย่างแบบแบ่งชั้นของผลลัพธ์อย่างน้อย 30 รายการอย่างอิสระ และ 70% หรือมากกว่าต้องได้รับการให้คะแนนว่า "ยอมรับได้" หรือ "ดีเยี่ยม" การตรวจสอบดังกล่าวเป็นงานผู้พูดที่ได้รับค่าตอบแทนในอัตราเดียวกัน และยังเป็นด่านกั้น: ผู้พูดสามารถปฏิเสธการเรียกร้องรางวัลได้ และนั่นเป็นการออกแบบโดยเจตนา
วิธีที่ระบบขยายตัวตามการแข่งขัน
โมเดลนี้สร้างขึ้นเพื่อให้ค่าตอบแทนผู้พูดเติบโตไปพร้อมกับแพลตฟอร์ม แทนที่จะถูกเจือจางลง:
- แต่ละภาษาใหม่เริ่มต้นด้วยการมีส่วนร่วม corpus ที่ได้รับค่าตอบแทน ต้นทุนการจัดตั้งที่เผยแพร่ต่อภาษา ($3,350–8,500 รวมทั้งหมด) ส่วนใหญ่เป็นค่าตอบแทนผู้พูด ซึ่งเป็นองค์ประกอบเดี่ยวที่ใหญ่ที่สุดโดยเจตนา
- แต่ละกองทุนรางวัลใหม่มีการตรวจสอบที่ได้รับค่าตอบแทนของตนเอง ทุกการแข่งขันที่ได้รับการสนับสนุนซึ่งปฏิบัติตาม prize template มีข้อกำหนดการตรวจสอบโดยชุมชนเดียวกัน ซึ่งหมายความว่าทุกการแข่งขันให้ทุนงานตรวจสอบผู้พูดสำหรับภาษานั้น
- วิธีการที่ใช้งานจริงให้ทุนการตรวจสอบอย่างต่อเนื่อง เมื่อวิธีการที่ชุมชนเป็นเจ้าของได้รับรายได้จาก API 90% จะไหลไปยังองค์กรกำกับดูแลของชุมชน (the economic model) ซึ่งสามารถให้ทุนการตรวจสอบต่อเนื่อง การขยาย corpus และโปรแกรมภาษาตามที่เห็นสมควร การจัดสรรดังกล่าวเป็นการตัดสินใจของชุมชน ไม่ใช่ของเรา
สิ่งที่เรา ไม่ได้ สัญญา
ความซื่อสัตย์กำหนดให้ต้องระบุขอบเขต:
- อัตราข้างต้นเป็นอัตราที่เผยแพร่สำหรับงาน Plains Cree ในปัจจุบัน อัตราสำหรับภาษาในอนาคตจะกำหนดร่วมกับชุมชนพันธมิตรและเผยแพร่ในลักษณะเดียวกัน ในข้อกำหนด ก่อนที่งานจะเริ่มต้น
- กลไกหมุนเวียน (รายได้ → ชุมชน → งานที่ได้รับค่าตอบแทนมากขึ้น) ต้องการเงินทุนภายนอกในการเริ่มต้นและยังไม่สามารถพึ่งพาตนเองได้ economic model อธิบายกลไก ไม่ใช่การรับประกัน
- "ได้รับค่าตอบแทนอย่างเป็นธรรม" เป็นสิ่งจำเป็นแต่ไม่เพียงพอ การจ่ายเงินเพียงอย่างเดียวไม่ได้ทำให้โครงการไม่เป็นการเอาเปรียบ ความเป็นเจ้าของและการควบคุมต่างหากที่ทำให้เป็นเช่นนั้น ซึ่งเป็นเหตุผลที่ค่าตอบแทนอยู่ภายใน sovereignty architecture แทนที่จะแทนที่มัน
ความหมายสำหรับคุณ
:::info หากคุณเป็นสมาชิกชุมชน หากคุณพูดสองภาษาในภาษาที่ขาดแคลนทรัพยากรและภาษาอังกฤษ การตัดสินของคุณคือข้อมูลที่มีคุณค่าที่สุดในระบบนี้ และเงื่อนไขที่เผยแพร่คือ: $50–65 CAD/ชั่วโมง ตารางเวลาที่ยืดหยุ่น การจ่ายเงินภายในสองสัปดาห์ เครดิตตามเงื่อนไขของคุณ และสิทธิ์ถอนการมีส่วนร่วมของคุณ ไม่จำเป็นต้องมีความรู้ด้านการเขียนโปรแกรม เริ่มต้นด้วย For Language Communities หรือ Speaker Validation Protocol §7 :::
:::info หากคุณเป็นนักวิจัย ให้งบประมาณค่าตอบแทนผู้พูดเป็นต้นทุนการวิจัยระดับแรก ตัวเลขที่เผยแพร่ ($1,475–1,920 สำหรับรอบการตรวจสอบความถูกต้องของเมตริก; $2,500–6,000 สำหรับการดูแล corpus) มีขนาดเล็กตามมาตรฐานทุนวิจัย และเป็นสิ่งที่ทำให้คะแนนอัตโนมัติสามารถป้องกันได้ Corpus Partnership Strategy แสดงให้เห็นว่าภาควิชาในสถาบันการศึกษาเชื่อมต่อกับระบบนี้อย่างไรโดยมีงานผู้พูดที่ได้รับทุนรวมอยู่ด้วย :::
:::info หากคุณเป็นผู้พัฒนา คุณได้รับประโยชน์จากงานผู้พูดที่ได้รับค่าตอบแทนแม้ว่าคุณจะไม่เคยให้ทุนก็ตาม: เมตริกที่ผ่านการตรวจสอบความถูกต้องคือสิ่งที่ทำให้คะแนน leaderboard ของคุณมีความหมาย และการตรวจสอบโดยชุมชนที่ได้รับค่าตอบแทนคือสิ่งที่อยู่ระหว่างวิธีการของคุณกับรางวัล หากคุณชนะ คาดว่าผู้พูดจะได้รับค่าตอบแทนในการตรวจสอบผลลัพธ์ของคุณอย่างละเอียด และคาดว่า ความเป็นเจ้าของวิธีการของคุณจะโอนไป ยังชุมชนที่ภาษาของตนถูกนำมาใช้ :::
ดูเพิ่มเติม
- Translation Is Not Revitalization — เหตุใดอำนาจของผู้พูดจึงเป็นกรอบของทุกสิ่ง
- Reporting Errors and Owning Corrections — อำนาจของผู้พูดหลัง benchmark ด้วยเช่นกัน
- Benchmark Specification §10 — กรอบต้นทุนเต็มรูปแบบที่ตัวเลขเหล่านี้มาจาก