อะไรคือ "ภาษา" ในที่นี้?
สรุปสาระสำคัญ. Arena จัดหมวดหมู่ภาษาตามมาตรฐาน ISO 639-3 ทำการ benchmark ภาษาแต่ละภาษาโดยตรง (ไม่ใช่กลุ่มภาษาแบบ macrolanguage) รวมภาษามือในฐานะภาษาธรรมชาติ รวมภาษาประดิษฐ์ที่ ISO รับรอง ไม่รวมภาษาโปรแกรมมิ่ง และแสดงข้อโต้แย้งด้านอนุกรมวิธานโดยไม่ตัดสินฝ่ายใด หน้านี้อธิบายเหตุผลของแต่ละข้อและความหมายต่อ leaderboard
โครงการใดก็ตามที่ทำการ benchmark การแปลในหลายพันภาษาต้องเผชิญกับคำถามเก่าแก่ที่ยากเกินคาด นั่นคือ อะไรคือ "ภาษา"? นักภาษาศาสตร์รู้มานานแล้วว่าเส้นแบ่งระหว่าง "ภาษา" กับ "ภาษาถิ่น" นั้นเป็นเรื่องของสังคมและการเมืองพอๆ กับโครงสร้าง — วลีอมตะที่ว่า "ภาษาคือภาษาถิ่นที่มีกองทัพและกองทัพเรือ" ถูกทำให้เป็นที่รู้จักโดย Max Weinreich นักภาษาศาสตร์ภาษา Yiddish ในปี 1945 (เขาให้เครดิตแก่ผู้ฟังคนหนึ่งในการบรรยายของเขา) เราไม่อาจหลีกเลี่ยงคำถามนี้ได้ ต่อไปนี้คือคำตอบและเหตุผลของเรา
ภาษามือคือภาษา ไม่มีข้อยกเว้น
ภาษามือเป็นภาษาธรรมชาติ — มีไวยากรณ์ที่สมบูรณ์ เด็กสามารถเรียนรู้ได้ตามธรรมชาติ และมีชุมชนผู้ใช้ภาษาที่มีชีวิต ข้อนี้ได้รับการยืนยันทางภาษาศาสตร์ตั้งแต่ที่ William Stokoe พิสูจน์ในปี 1960 ว่า American Sign Language มีโครงสร้างภายในแบบเดียวกับภาษาพูด และงานวิจัยกว่าหกสิบปีนับจากนั้น (Klima & Bellugi 1979; Sandler & Lillo-Martin 2006) ยิ่งตอกย้ำประเด็นนี้ให้ชัดเจนยิ่งขึ้น ISO 639-3 กำหนดรหัสภาษาเฉพาะให้แก่ภาษามือแต่ละภาษา Glottolog จัดหมวดหมู่ร่วมกับตระกูลภาษาพูด แคตตาล็อกของเรารวมภาษามือมากกว่า 160 ภาษา โดยติดแท็ก modality: signed
บางภาษาเป็นภาษาพื้นเมืองที่ใกล้สูญพันธุ์ เช่น Plains Indian Sign Language (psd) ซึ่งในอดีตเป็น lingua franca ระหว่างชนเผ่าที่สำคัญทั่วทวีปอเมริกาเหนือ แต่ปัจจุบันอยู่ในภาวะใกล้สูญพันธุ์อย่างวิกฤต (Davis 2010, Hand Talk) การสูญพันธุ์ของภาษามือ คือ การสูญพันธุ์ของภาษาพื้นเมือง และอยู่ในพันธกิจของโครงการนี้
หมายเหตุขอบเขตที่ตรงไปตรงมา. ปัจจุบัน Arena ให้บริการ benchmark การแปลด้วยเครื่อง แบบข้อความ เท่านั้น การแปลด้วยเครื่องสำหรับภาษามือ — ซึ่งต้องทำงานกับวิดีโอ ไวยากรณ์เชิงพื้นที่ และภาษาที่ยังไม่มีรูปแบบการเขียนที่ใช้กันอย่างแพร่หลาย — เป็นปัญหาทางเทคนิคที่แตกต่างออกไปและยังไม่มีทางแก้ที่ครอบคลุม (ดู Yin et al. 2021, "Including Signed Languages in Natural Language Processing," ACL) เราไม่ได้ให้บริการส่วนนี้ในขณะนี้ รายการภาษามือในแคตตาล็อกของเราระบุไว้ชัดเจนว่า ยังไม่ได้ให้บริการ — ไม่ใช่ "ไม่ใช่ภาษา"
ภาษามีสองรูปแบบ และการเขียนไม่ใช่หนึ่งในนั้น
ภาษามีรูปแบบหลักสองประเภท ได้แก่ ภาษาพูด และ ภาษามือ การเขียนไม่ใช่รูปแบบที่สาม — มันคือเทคโนโลยีที่ถูกสร้างขึ้นบนภาษา และภาษาส่วนใหญ่ในโลกดำรงอยู่ได้โดยไม่มีระบบการเขียนมาตรฐาน นั่นคือเหตุผลที่การ์ดภาษาของเราติดตามข้อมูลการเขียนแยกต่างหาก (ระบุว่าภาษานั้นใช้อักษรใด หรือไม่มีระบบการเขียนมาตรฐานเลย) และระบุข้อมูลนี้อย่างตรงไปตรงมา สำหรับแพลตฟอร์ม MT แบบข้อความ การที่ภาษาหนึ่งมีระบบการเขียนหรือไม่นั้นเป็นข้อมูลสำคัญ ไม่ใช่เพียงหมายเหตุ — และภาษาที่ไม่มีระบบการเขียนก็ไม่ใช่ภาษาที่ด้อยกว่า
ภาษาประดิษฐ์: รวม ภาษาโปรแกรมมิ่ง: ไม่รวม
เราปฏิบัติตามแนวทางของ ISO 639-3 มาตรฐานนี้รับรองภาษาประดิษฐ์เฉพาะเมื่อเป็นภาษาที่สมบูรณ์ ออกแบบมาเพื่อการสื่อสารของมนุษย์ มีวรรณกรรม และมีชุมชนที่ถ่ายทอดภาษาไปยังผู้ใช้รุ่นที่สอง — และมาตรฐานนี้ยกเว้นภาษาโปรแกรมคอมพิวเตอร์อย่างชัดเจน Esperanto ซึ่งมีเจ้าของภาษาโดยกำเนิด ผ่านเกณฑ์นี้ แต่ Python ไม่ผ่าน เพราะไม่มีใครเรียนรู้ Python เป็นภาษาแรกจากพ่อแม่ แคตตาล็อกของเรารวมภาษาประดิษฐ์ประมาณสองโหลที่ ISO รับรอง โดยระบุประเภทไว้ชัดเจน และไม่มีภาษาโปรแกรมมิ่งใดๆ
เรา benchmark ภาษาแต่ละภาษา ไม่ใช่กลุ่มภาษา
ISO 639-3 แยกความแตกต่างระหว่าง ภาษาเดี่ยว กับ macrolanguage — รหัสกลุ่มภาษาอย่าง cre (Cree), ara (Arabic) หรือ zho (Chinese) ที่ครอบคลุมภาษาเดี่ยวที่มีความใกล้ชิดกันหลายภาษา หน่วย benchmark ของ Arena คือ ภาษาเดี่ยว ด้วยเหตุผลเชิงปฏิบัติ นั่นคือ ทรัพยากรการแปลมีความเฉพาะเจาะจงต่อแต่ละสำเนียง ตัวอย่างเช่น ตัววิเคราะห์สัณฐานวิทยาที่สร้างสำหรับ Plains Cree (crk) ไม่สามารถใช้กับ Moose Cree (crm) ได้ และคลังข้อมูล Egyptian Arabic ก็บอกได้น้อยมากเกี่ยวกับคุณภาพของวิธีการในภาษา Moroccan Arabic คะแนนที่ผูกกับรหัส macrolanguage จะเป็นการอ้างสิทธิ์เกี่ยวกับสำเนียงที่ไม่เคยได้รับการประเมินจริง — เราจึงไม่ทำเช่นนั้น
Macrolanguage ยังคงปรากฏในแคตตาล็อกในรูปแบบ หน้า hub ซึ่งเป็นการนำทางที่เชื่อมโยงอัตลักษณ์กลุ่มภาษาไปยังสมาชิกแต่ละภาษา สะท้อนการสังเกตของ ISO เองว่าอัตลักษณ์ทั้งสองระดับมีความเป็นจริง ในระดับต่ำกว่าภาษาเดี่ยว เราแสดงข้อมูลภาษาถิ่นและสายตระกูลจากต้นไม้ languoid ของ Glottolog (Hammarström & Forkel 2022) ซึ่งจำลองตระกูลภาษา ภาษา และภาษาถิ่นเป็นลำดับชั้นที่สามารถนำทางได้
เมื่อผู้มีอำนาจไม่เห็นด้วยกัน เราแสดงทั้งสองฝ่าย
ISO 639-3 และ Glottolog บางครั้งแยกหรือรวมภาษาต่างกัน และชุมชนบางครั้งก็ไม่เห็นด้วยกับทั้งสองฝ่าย เราไม่ตัดสิน การ์ดภาษามีส่วน หมายเหตุอนุกรมวิธาน ที่แสดงข้อโต้แย้งพร้อมแหล่งอ้างอิง และการตั้งชื่อจะยึดตามชุมชนในกรณีที่ชุมชนได้แสดงความต้องการไว้ ว่าสำเนียงหนึ่งเป็น "ภาษา" หรือไม่นั้น ท้ายที่สุดแล้วเป็นส่วนหนึ่งของคำถามเรื่องอัตลักษณ์ — และคำถามเรื่องอัตลักษณ์เป็นของชุมชนนั้นๆ เอง ซึ่งเป็นหลักการที่เรานำมาจากกรอบการกำกับดูแลข้อมูลของชนพื้นเมือง เช่น OCAP®
ทิศทางการวิจัย: benchmark ในฐานะเครื่องมือวัด
สิ่งหนึ่งที่ arena แบบนี้ผลิตขึ้นเกือบจะเป็นผลพลอยได้ คือหลักฐานประเภทใหม่เกี่ยวกับความใกล้ชิดของสำเนียงภาษาต่างๆ ใน เชิงปฏิบัติ หากวิธีการแปลเดียว ที่ตรึงไว้คงที่ สามารถให้บริการสำเนียงที่เกี่ยวข้องกันหลายสำเนียงในคุณภาพที่ใช้งานได้จริง สำเนียงเหล่านั้นจะรวมกลุ่มกันในทางปฏิบัติ แต่หากต้องการคลังข้อมูลและวิธีการแยกต่างหาก สำเนียงเหล่านั้นก็มีความแตกต่างกันในเชิงปฏิบัติ — ไม่ว่าการเมืองเรื่องการตั้งชื่อจะว่าอย่างไร แนวทางนี้คล้ายกับประเพณีเชิงประจักษ์เก่าแก่ ตั้งแต่การทดสอบความเข้าใจจากข้อความที่บันทึกไว้ไปจนถึงการวัดระยะห่างทางคำศัพท์อัตโนมัติ แต่มีมุมมองที่ยึดโยงกับการนำไปใช้งานจริง
เราเสนอสิ่งนี้อย่างระมัดระวัง ในฐานะทิศทางการวิจัยมากกว่าการอ้างสิทธิ์ ผลลัพธ์การถ่ายโอนวิธีการมีตัวแปรกวนจากขนาดคลังข้อมูล โดเมน ระบบการเขียน และการปนเปื้อนของข้อมูลฝึก และการรวมกลุ่มใดๆ ก็ตามมักสัมพันธ์กับวิธีการและเกณฑ์คุณภาพที่กำหนด สำคัญที่สุด: สัญญาณนี้สามารถ ให้ข้อมูลประกอบ การสนทนาเรื่องภาษาและภาษาถิ่นได้ แต่ไม่มีวันแทนที่วิธีที่ชุมชนระบุภาษาของตนเอง
เอกสารอ้างอิง
- Davis, Jeffrey E. (2010). Hand Talk: Sign Language among American Indian Nations. Cambridge University Press.
- Dryer, Matthew S. & Martin Haspelmath, eds. (2013). The World Atlas of Language Structures Online. https://wals.info
- Hammarström, Harald & Robert Forkel (2022). "Glottocodes: Identifiers Linking Families, Languages and Dialects to Comprehensive Reference Information." Semantic Web 13(6).
- Haugen, Einar (1966). "Dialect, Language, Nation." American Anthropologist 68(4).
- ISO 639-3 Registration Authority. "Scope of denotation" and "Types of individual languages." https://iso639-3.sil.org/about/scope · https://iso639-3.sil.org/about/types
- Klima, Edward S. & Ursula Bellugi (1979). The Signs of Language. Harvard University Press.
- Sandler, Wendy & Diane Lillo-Martin (2006). Sign Language and Linguistic Universals. Cambridge University Press.
- Stokoe, William C. (1960). Sign Language Structure. Studies in Linguistics, Occasional Papers 8.
- Weinreich, Max (1945). "Der YIVO un di problemen fun undzer tsayt." YIVO Bleter 25(1).
- Yin, Kayo, Amit Moryossef, Julie Hochgesang, Yoav Goldberg & Malihe Alikhani (2021). "Including Signed Languages in Natural Language Processing." Proc. ACL-IJCNLP 2021. https://aclanthology.org/2021.acl-long.570/
- First Nations Information Governance Centre. The First Nations Principles of OCAP®. https://fnigc.ca/ocap-training/