Pāṇini에서 Transformer까지: 언어, 계산, 그리고 미완의 번역 작업

champollion 이면의 아이디어에 관한 역사

"러시아어로 쓰인 글을 볼 때 저는 이렇게 말합니다. '이것은 사실 영어로 쓰여 있지만, 어떤 이상한 기호들로 코드화되어 있을 뿐이다. 이제 이것을 해독해 보겠다.'" — Warren Weaver, 1949

서론

인간 언어 사이를 번역할 수 있는 기계에 대한 꿈은 컴퓨터 그 자체보다도 오래되었어요. 이것은 어떤 의미에서 인공지능의 원초적인 문제예요—체스를 두는 프로그램보다, 전문가 시스템보다, 신경망보다도 오래되었죠. 이 욕망은 종종 바벨탑 같은 유럽의 우화를 통해 표현되는데, 이는 언어적 다양성을 처벌이나 해결해야 할 문제로 규정해요. 그러나 이는 접촉 이전의 원주민 사회가 보편적인 동질화를 추구하지 않고도 정교한 교역 언어(Chinook Jargon 같은)와 수화 체계(Plains Indian Sign Language 같은)를 통해 오랫동안 엄청난 언어적 다양성을 다루어 왔다는 현실을 간과하는 것이에요.

하지만 이 순간으로—대규모 언어 모델이 그럭저럭 쓸 만한 프랑스어를 번역할 수 있지만 Cree어로는 말도 안 되는 환각을 만들어내는 세계로—이어지는 역사는 일직선이 아니에요. 그것은 적어도 네 가지 뚜렷한 가닥이 엮인 끈이에요: 언어에 대한 형식적 연구, 계산에 관한 수학적 이론, 머신러닝의 통계적 혁명, 그리고 왜 기술이 가장 필요한 언어가 바로 그 기술이 존재하지 않는 언어인지를 설명하는 더 어두운 역사. 그 네 번째 가닥은 식민지 언어 억압과 문화적 집단학살의 역사예요—유럽 열강이 지배권을 확립한 모든 대륙에서 원주민 언어를 의도적이고 체계적으로 파괴한 역사죠. 그 역사를 이해하지 못하면, 기술적 문제는 데이터 부족이라는 우연처럼 보여요. 그것은 우연이 아니에요.

이 논문은 네 가지 가닥 모두를 그 기원에서부터 오늘날의 수렴 지점까지 추적해요. 솔직히 말하면 다소 휘그주의적이에요—마치 역사가 항상 이곳으로 향하고 있었던 것처럼 이야기를 풀어가니까요. 물론 역사는 자신이 어디로 향하는지 알지 못했어요. 하지만 그 가닥들은 실재하고, 연결은 진정성이 있으며, 그것들을 이해하는 것은 champollion 같은 프로젝트가 왜 존재하는지, 왜 그런 방식으로 구축되었는지, 그리고 왜 지금 중요한지를 이해하는 데 필수적이에요.

I. 모든 것의 문법: Pāṇini에서 Chomsky까지

최초의 형식 문법 (기원전 4세기경)

이야기는 유럽의 대학이 아니라 고대 인도에서, Pāṇini라는 학자와 함께 시작돼요. 기원전 4세기경, Pāṇini는 Aṣṭādhyāyī를 저술했어요—약 4,000개의 규칙으로 구성된 산스크리트어 문법이죠. 이것은 느슨한 교육적 의미의 문법이 아니었어요. 그것은 생성 문법이었어요: 원칙적으로 그 언어의 모든 유효한 발화를 생성할 수 있는 유한한 규칙 집합이었죠.

Pāṇini의 체계는 우리가 지금 형식적 재작성 규칙이라고 인식할 만한 것을 변수, 재귀, 순서 적용과 함께 사용했어요. 언어학자 Paul Kiparsky는 Aṣṭādhyāyī가 "지금까지 쓰인 어떤 언어의 생성 문법 중에서도 가장 완전한 것"이라고 주장했어요(Kiparsky, 1993). 컴퓨터 과학자 Gerard Huet는 Pāṇini의 규칙이 유한 상태 변환기(finite-state transducer)로 모델링될 수 있음을 보였어요—이는 25세기 후에 다종합어(polysynthetic language)의 형태론적 분석에서 핵심이 될 바로 그 계산 형식주의예요.

Pāṇini는 자신이 컴퓨터 과학을 하고 있다는 것을 알지 못했어요. 하지만 그는 그것을 하고 있었어요.

Rosetta Stone과 비교언어학의 탄생 (1799)

기록된 역사의 대부분 동안, 언어 연구는 주로 자기 자신의 언어에 대한 연구였어요—혹은 기껏해야 전례적 목적을 위한 신성하거나 고전적인 언어에 대한 연구였죠. 현대 언어학을 만들어낸 지적 혁명은 하나의 돌과 함께 시작되었어요.

1799년 Napoleon의 병사들이 발견한 Rosetta Stone에는 동일한 칙령이 세 가지 문자로 새겨져 있었어요: 이집트 상형문자, 민중문자(Demotic), 그리고 고대 그리스어죠. 1822년 Jean-François Champollion의 상형문자 해독은 고고학적 승리 이상이었어요. 그것은 근본적인 원리가 될 것을 입증했어요: 언어들이 서로를 통해 이해될 수 있다는 것이죠. 번역은 단순히 실용적 기술이 아니었어요. 그것은 과학적 탐구의 방법이었어요.

William Jones와 인도유럽어 가설 (1786)

Champollion보다도 이전에, 영국의 문헌학자 Sir William Jones는 1786년 Bengal의 Asiatic Society에서 유명한 강연을 했어요. 그는 산스크리트어가 그리스어 및 라틴어와 "동사 어근에서나 문법 형태에서나 우연으로 생겨났다고 보기에는 너무 강한 친연성"을 지닌다고 관찰했어요. Jones는 세 언어 모두가 "어쩌면 더 이상 존재하지 않는" 공통 조상에서 유래했다고 제안했어요.

이것이 역사언어학과 비교언어학의 탄생이었어요. 그것은 언어가 고립된 정적인 실체가 아니라 어족의 구성원—혈통으로 연결되고, 시간에 의해 형성되며, 규칙적인 변화 법칙에 종속된 존재—임을 확립했어요. 그것은 어떤 의미에서 Darwin보다 수십 년 앞선 진화 이론이었어요.

August Schleicher의 언어 계통수 (1861)

Darwin적 연관성을 명시적으로 만든 사람은 독일 언어학자 August Schleicher였어요. 1861년에—종의 기원이 출간된 지 불과 2년 후에—Schleicher는 인도유럽어의 Stammbaum(계통수) 모델을 발표했어요. 그의 도표는 생물학의 계통수와 거의 구별할 수 없을 정도예요. 언어는 종(種)처럼 갈라지고, 분기하고, 때때로 멸종했어요.

Schleicher의 계통수는 단순화였어요(언어는 접촉, 차용, 크리올화를 통해 수렴하기도 하죠). 하지만 그 모델은 엄청나게 생산적인 것으로 입증되었어요. 그것은 언어적 다양성이 무작위적인 잡음이 아니라 구조화된 데이터이며 체계적 분석이 가능하다는 원리를 확립했어요. 그리고 그것은 암묵적으로, 우리 프로젝트에 핵심으로 남아 있는 질문을 제기했어요: 죽어가는 가지들에게는 무슨 일이 일어나는가?

Ferdinand de Saussure와 언어의 구조 (1916)

다음 혁명은 Ferdinand de Saussure에게서 왔어요. 그의 Cours de linguistique générale(학생들의 노트를 바탕으로 1916년 사후 출간됨)은 구조주의 언어학을 확립했어요. Saussure는 langue(언어의 추상적 체계)와 parole(실제 발화)를 명확히 구분했어요. 그는 언어 기호가 자의적이라고 주장했어요—"나무"라는 단어는 나무와 본질적인 연관이 없죠—그리고 의미는 어떤 긍정적 내용에서가 아니라 체계 내의 차이에서 발생한다고 했어요.

Saussure의 핵심 도표—signifié(기의, 개념)와 signifiant(기표, 음성 이미지)로 나뉘고 그것들의 불가분한 관계를 보여주는 화살표로 연결된 타원—은 인문학에서 가장 많이 재현된 이미지 중 하나가 되었어요. 그것은 언어가 체계들의 체계이며, 각 요소가 다른 모든 요소들과의 관계로부터 그 가치를 끌어낸다는 원리를 확립했어요.

이것은 번역에 깊은 함의를 가졌어요. 만약 의미가 관계적이고 체계적이라면, 번역은 단어를 교체하는 문제가 아니에요. 그것은 언어의 전체 구조를 이해해야 하는 일이에요. 두 언어는 세계를 근본적으로 다른 방식으로 나눌 수 있어요—이는 후에 Edward Sapir와 Benjamin Lee Whorf에 의해 발전된(때로는 과장된) 통찰이에요.

Sapir, Bloomfield, 그리고 원주민 언어 연구

북미에서는 20세기 초에 다른 전통의 언어학 현장 조사가 등장했어요. Edward Sapir와 Leonard Bloomfield는 원주민 언어와 폭넓게 작업했어요—Sapir는 Navajo, Nootka 및 그 밖의 많은 언어와, Bloomfield는 Menomini 및 다른 Algonquian 언어와 작업했죠. 그들은 인도유럽어족의 어떤 것과도 근본적으로 다른 언어 구조를 마주쳤어요.

특히 Sapir는 여러 축을 따라 언어를 분류하는 유형론적 틀을 발전시켰어요. 여기에는 분석어(영어처럼 단어가 짧은 경향이 있고 의미가 어순에 의해 전달되는 언어)와 다종합어(Cree어처럼 단어 하나가 영어로는 문장 전체로 표현될 것을 인코딩할 수 있는 언어) 사이의 결정적 구분이 포함되었어요. 하나의 Cree 동사 형태는 주어, 목적어, 시제, 상(相), 증거성, 그리고 여러 수식 요소를 형태론적으로 복잡한 단어 하나에 통합할 수 있어요.

이 작업은 우리 프로젝트에 핵심으로 남아 있는 두 가지 사실을 확립했어요. 첫째: 세계의 언어들은 어떤 유럽 중심적 모델이 시사하는 것보다 훨씬 더 구조적으로 다양하다는 것. 둘째: 이 언어들 중 많은 수가 이미 위기에 처해 있었다는 것. 그러나 초기 구조주의 언어학자들이 이 복잡성을 기록하는 동안, 그들은 종종 "구제 인류학(salvage anthropology)"에 참여했어요—이는 원주민을 서구의 학문적 경력을 쌓기 위한 "정보 제공자"로만 취급하는 착취적 학문 모델이었어요. 이 접근법은 언어를 그 인식론적 뿌리에서 떼어냈고, 언어를 살아 있는 관계적 체계가 아니라 탈신체화되고 추출 가능한 데이터로 취급하는 길을 닦았어요.

Chomsky 혁명 (1957)

1957년, Noam Chomsky라는 28세의 MIT 언어학자가 Syntactic Structures를 출간했어요. 이는 그 분야에서 폭탄처럼 터진 얇은 책이었죠. Chomsky는 언어학의 목표가 한 언어의 생성 문법을 발견하는 것이어야 한다고 주장했어요—그 언어의 문법적인 문장만을 모두 생성할 수 있는 유한한 규칙 집합이죠.

더 도발적으로, Chomsky는 Chomsky 위계를 제안했어요: 형식 문법을 계산 능력에 따라 분류한 것이죠. 이 위계는 네 단계로 이루어져 있어요:

유형 3 (정규): 유한 오토마타로 인식됨. 단순한 패턴.
유형 2 (문맥 자유): 푸시다운 오토마타로 인식됨. 중첩된 괄호 같은 재귀 구조.
유형 1 (문맥 민감): 선형 한정 오토마타로 인식됨. 더 복잡한 의존성.
유형 0 (재귀적 열거 가능): 튜링 기계로 인식됨. 계산 가능한 모든 것.

Chomsky는 자연어가 적어도 문맥 자유 문법을, 어쩌면 그 이상을 필요로 한다고 주장했어요. 이것은 언어학과 계산에 관한 수학적 이론 사이의 직접적인 다리였어요. Alan Turing이 계산의 한계를 추론하기 위해 개발한 바로 그 형식적 도구들이 이제 인간 언어에 적용될 수 있게 되었어요.

Chomsky는 또한 *보편 문법(Universal Grammar)*이라는 아이디어를 제안했어요—언어 능력은 선천적이며, 모든 인간 언어가 깊은 구조적 속성을 공유하고, 표면 형태의 다양성이 근본적인 통일성을 가린다는 것이죠. 이것은 여전히 논쟁적이지만(많은 유형론자와 기능주의자들이 반대해요), Chomsky가 도입한 형식적 도구들—구문 구조 규칙, 변형 문법, 위계 그 자체—은 전산언어학의 토대가 되었어요.

II. 보편 번역의 꿈

Ramon Llull의 사고 기계 (1305)

사고를 기계화하려는 꿈—그리고 그와 함께 기계 번역의 꿈—은 놀랄 만큼 오래되었어요. 13세기 카탈루냐의 신비주의자 Ramon Llull은 Ars Magna를 설계했어요: 근본적인 개념들이 새겨진 회전하는 동심원판들의 체계로, 그 조합들이 가능한 모든 진리를 생성하도록 의도되었죠. Llull의 바퀴는 어떤 의미에서 최초의 조합 논리 기계였어요. Leibniz는 후에 Llull을 영감의 원천으로 인용했어요.

Athanasius Kircher와 Polygraphia Nova (1663)

위대한 예수회 박학자 Athanasius Kircher는 1663년 Polygraphia Nova et Universalis를 출간했어요—언어 장벽을 넘어 소통할 수 있게 하려는 "보편 문자" 체계였죠. Kircher의 체계는 개념에 숫자를 할당했고, 이는 적절한 표만 있으면 어떤 언어로든 해독될 수 있었어요. 그것은 본질적으로 중간언어(interlingua)—의미의 언어 독립적 표현이었어요.

그 체계는 그다지 잘 작동하지 않았어요. 하지만 그 아이디어는 지속되었어요: 어떤 두 언어 사이에도 공통의 개념 공간이 존재하며, 번역은 그것을 통해 매핑하는 문제라는 것이죠. 이 중간언어 가설은 단지 결함 있는 과학적 실험이 아니었어요. 그것은 식민지 통제의 인식론적 확장이었으며, 서로 다른 존재론을 매핑할 수 없는 것이었어요. 철학자 W.V.O. Quine은 후에 번역의 미결정성 개념(1960)으로 이 실패를 형식화하면서, 근본적 번역(radical translation)이 본질적으로 미결정적이라고 주장했어요. 근본적으로 서로 다른 언어 체계 사이의 보편적이고 문맥 독립적인 매핑은 단순한 공학적 장애물이 아니라 철학적 불가능성이에요.

John Wilkins와 철학적 언어 (1668)

Kircher보다 불과 5년 후, 영국의 자연철학자 John Wilkins는 An Essay towards a Real Character, and a Philosophical Language를 출간했어요—그 구조가 현실의 구조를 완벽하게 반영하는 언어를 만들려는 시도였죠. 모든 개념은 거대한 분류 체계 안에서 분류되고, 그 이름은 해당 분류 체계 내에서의 위치를 인코딩하게 되어 있었어요.

Wilkins의 프로젝트는 실패했어요(현실은 깔끔한 분류에 저항하는 것으로 드러났죠). 하지만 그것은 중요한 무언가를 예견했어요: 언어가 설계될 수 있다는 것, 단어와 의미 사이의 관계가 체계적이고 명시적으로 만들어질 수 있다는 아이디어죠. 이것은 깊은 의미에서, 전산언어학자들이 온톨로지와 지식 그래프를 구축할 때 하는 일이에요.

Leibniz와 Characteristica Universalis

독립적으로 미적분을 발명하고 기계식 계산기를 설계한 Gottfried Wilhelm Leibniz는 characteristica universalis—모든 인간 지식을 표현할 수 있는 보편적 형식 언어—와 calculus ratiocinator—그 언어로 추론할 수 있는 기계를 꿈꿨어요. Leibniz는 이렇게 썼어요: "논쟁이 일어난다면, 두 회계사 사이에서보다 두 철학자 사이에서 더 많은 논의가 필요하지 않을 것이다. 연필을 손에 쥐고, 칠판 앞에 앉아, 서로에게 이렇게 말하는 것으로 충분할 테니까: 계산해 봅시다."

Leibniz는 또한 이진법 산술을 발명했어요—수 세기 후에 디지털 컴퓨터의 언어가 될 수 체계죠. 그의 1703년 논문 Explication de l'Arithmétique Binaire는 어떤 수든 0과 1만 사용해 표현될 수 있음을 보였어요. 그는 이것을 신적 창조(무에서 유)의 반영으로 보았지만, 그것은 모든 디지털 계산의 토대가 될 것이었어요.

Warren Weaver의 메모 (1949)

기계 번역의 현대 시대는 하나의 메모와 함께 시작돼요. 1949년 7월, 미국의 수학자이자 과학 행정가인 Warren Weaver는 Norbert Wiener에게 편지를 써서, 새로운 전자 컴퓨터가 번역에 적용될 수 있을지 제안했어요. 그의 메모에는 이 논문의 서두에 인용된 주목할 만한 구절이 담겨 있어요: 러시아어 텍스트가 "사실 영어로 쓰여 있지만... 어떤 이상한 기호로 코드화되어 있다"는 아이디어죠.

Weaver의 비유는 전시(戰時) 암호 해독에서 끌어온 것이었어요—번역이 근본적으로 해독 문제라는 아이디어죠. 이것은 단순한 유추가 아니었어요. 적의 암호를 깨기 위해 개발된 바로 그 통계적이고 정보이론적인 도구들이, Weaver가 시사하듯, 번역 문제에 적용될 수 있을지도 몰랐어요.

그 메모는 극도로 낙관적이었지만, 하나의 연구 프로그램을 출범시켰어요. 5년 안에 최초의 기계 번역 시연이 이루어지게 돼요.

III. 사고의 기계 장치: 계산과 정보

George Boole와 논리 대수 (1854)

1854년, George Boole은 An Investigation of the Laws of Thought를 출간했어요—논리적 추론을 대수적 연산으로 환원한 저작이죠. Boole은 논리의 명제들이 대수와 동일한 규칙을 사용해 조작될 수 있음을 보였어요. AND는 곱셈에, OR는 덧셈에, NOT은 보수(complement)에 대응했죠.

불 대수는 당시에는 수학적 호기심처럼 보였어요. 그것은 지금까지 만들어진 모든 디지털 회로의 작동 원리가 될 것이었어요.

Charles Babbage와 Ada Lovelace (1837–1843)

Charles Babbage는 해석 기관(Analytical Engine)을 설계했어요(하지만 완성하지는 못했죠)—기계식, 증기 동력의 범용 컴퓨터였죠. 그의 이전 차분 기관(Difference Engine, 특화된 계산기)과 달리, 해석 기관은 메모리("Store"), 처리 장치("Mill"), 조건 분기, 그리고 반복을 갖추고 있었어요. 그것은 원칙적으로 튜링 완전(Turing-complete)했어요.

Ada Lovelace는 그 기관에 대한 설명을 바탕으로 작업하면서, 널리 최초의 출판된 컴퓨터 프로그램으로 여겨지는 상세한 주석 모음을 작성했어요: Bernoulli 수를 계산하는 알고리즘(주석 G, 1843)이죠. 하지만 Lovelace의 가장 심오한 기여는 개념적인 것이었어요. 그녀는 그 기관이 단지 숫자뿐만 아니라 기호를 조작할 수 있음을 보았어요. 그녀는 이렇게 썼어요: "해석 기관은 Jacquard 직기가 꽃과 잎을 짜듯이 대수적 패턴을 짠다." 그 함의—계산이 언어를 포함해 형식적 구조를 가진 어떤 영역에도 적용될 수 있다는 것—는 선견지명이 있었어요.

Alan Turing과 보편 기계 (1936)

1936년, Alan Turing은 "On Computable Numbers, with an Application to the Entscheidungsproblem"을 출간했어요—계산을 정의하고, 그 한계를 증명하며, (추상적 형태로) 현대 컴퓨터를 발명한 논문이었죠.

Turing의 핵심 통찰은 보편 기계였어요: 테이프에 적절한 명령어가 인코딩되면 다른 어떤 기계든 시뮬레이션할 수 있는 단일 기계죠. 이것은 하드웨어와 소프트웨어 사이에, 기계와 프로그램 사이에 본질적인 차이가 없음을 확립했어요. 적절히 프로그래밍된 단일 장치는 계산 가능한 것이라면 무엇이든 계산할 수 있었어요.

Turing의 작업은 또한 계산의 한계(정지 문제)를 확립했고, 기계 지능에 대한 그의 후기 탐구의 토대를 놓았어요. 유명한 튜링 테스트를 제안한 그의 1950년 논문 "Computing Machinery and Intelligence"는 기계 지능의 문제를 명시적으로 언어의 관점에서 틀 지었어요: 기계가 대화를 통해 인간과 구별될 수 없다면, 그 기계는 지능이 있다는 것이죠.

Claude Shannon과 정보 이론 (1948)

1948년, Claude Shannon은 Bell System Technical Journal에 "A Mathematical Theory of Communication"을 출간했어요—정보 이론 분야를 창시한 논문이죠. Shannon은 통신이 하나의 시스템으로 모델링될 수 있음을 보였어요: 정보원이 메시지를 생성하고, 송신기가 이를 신호로 인코딩하며, 신호는 (잡음에 종속된) 채널을 통과하고, 수신기가 이를 목적지를 위한 메시지로 다시 디코딩하죠.

Shannon의 핵심 기여는 엔트로피 개념이었어요—메시지의 불확실성 또는 정보 함량의 척도죠. 그는 주어진 잡음 수준을 가진 어떤 채널에 대해서도, 정보가 신뢰성 있게 전송될 수 있는 최대 속도(채널 용량)가 존재하며, 충분히 영리한 인코딩을 통해 이 속도가 달성될 수 있음을 증명했어요.

번역과의 연관성은 깊어요. Shannon 자신은 1951년 논문에서 정보 이론을 사용해 영어의 통계적 구조를 분석했어요. 그는 영어 텍스트가 매우 중복적이라는 것을 보였어요—원어민은 일련의 문자가 주어지면 다음 문자를 높은 정확도로 예측할 수 있다는 거죠. 이 중복성이 통신을 잡음에 강건하게 만들지만, 그것은 또한 언어의 정보 함량이 그 원시 기호 수가 시사하는 것보다 훨씬 낮다는 것을 의미해요.

Warren Weaver는 즉시 그 연관성을 보았어요: 번역이 해독이고, 언어의 통계적 구조가 모델링될 수 있다면, 번역은 정보이론적 문제예요. 이 통찰이 결실을 맺기까지는 수십 년이 걸렸지만, 결실을 맺었을 때 그것은 그 분야를 변혁시켰어요.

Von Neumann과 프로그램 내장형 컴퓨터 (1945)

John von Neumann의 1945년 EDVAC(Electronic Discrete Variable Automatic Computer)에 관한 보고서는 우리가 지금 폰 노이만 구조라고 부르는 것을 기술했어요: 데이터와 명령어를 위한 단일 메모리 저장소, 중앙 처리 장치, 그리고 입출력 메커니즘을 갖춘 컴퓨터죠. 이 구조—데이터와 프로그램이 동일한 메모리를 공유하고, CPU에 의해 순차적으로 처리되는—는 오늘날 사용되는 거의 모든 컴퓨터의 근본 설계로 남아 있어요.

폰 노이만 구조는 소프트웨어를 실용적으로 만들었어요. 프로그램은 저장되고, 수정되고, 심지어 다른 프로그램에 의해 생성될 수도 있었어요. 이것은 그 뒤를 이은 모든 것—컴파일러, 운영 체제, 그리고 결국 현대 기계 번역을 구동하는 신경망 프레임워크—의 기술적 전제 조건이었어요.

IV. 기계 번역: 최초의 AI 문제

Georgetown-IBM 실험과 냉전 (1954)

1954년 1월 7일, Georgetown University와 IBM의 연구자들은 최초의 공개 기계 번역 시스템을 시연했어요. 그 시스템은 250개의 어휘와 여섯 개의 문법 규칙을 사용해 60개의 러시아어 문장을 영어로 번역했어요. 문장들은 시스템의 능력 범위 안에 있도록 신중하게 선택되었지만, 그 시연은 엄청난 흥분을 불러일으켰어요.

New York Times는 그 실험이 "버튼식 전자 번역기"가 세계의 모든 과학 문헌을 즉시 접근 가능하게 만드는 미래를 예고한다고 보도했어요. 하지만 이 대중적 낙관주의는 그 프로젝트의 자금과 목적이라는 물질적 현실을 가렸어요. Georgetown-IBM 실험은—그리고 초기 기계 번역 분야 전반은—보편적 소통에 대한 유토피아적 욕망에 의해 추동된 것이 아니었어요. 그것은 소련의 과학적·군사적 텍스트를 감시하고 가로채기 위한 긴급한 냉전적 필요로서 미국 군부와 정보 기관(CIA와 DARPA를 포함)에 의해 자금을 지원받았어요.

언어를 "깨야 할 코드"로 보는 관점(Weaver가 표현했듯)은 본질적으로 군사화된 감시와 결부되어 있었어요. 연구자들은 기계 번역이 5년 안에 해결될 문제가 될 것이라고 예측했어요. 그들은 반세기 이상 틀렸어요.

ALPAC 보고서와 첫 번째 AI 겨울 (1966)

1966년, 미국 정부가 소집한 자동 언어 처리 자문 위원회(Automatic Language Processing Advisory Committee, ALPAC)는 충격적인 보고서를 발표했어요. 10년간의 MT 연구를 검토한 후, ALPAC은 기계 번역이 인간 번역보다 더 느리고, 덜 정확하며, 더 비싸다고 결론지었고, 자금을 전산언어학의 기초 연구로 전환할 것을 권고했어요.

ALPAC 보고서는 사실상 미국에서 10년 넘게 MT 연구 자금을 죽였어요. 그것은 최초의 "AI 겨울"이었어요—반복될 패턴이었죠: 과도한 약속, 미미한 결과, 환멸, 자금 붕괴.

하지만 그 보고서는 더 깊은 통찰도 담고 있었어요. 기계 번역이 실패한 것은 부분적으로 언어가 누구의 예상보다도 어려웠기 때문이에요. 규칙 기반 접근법—문장을 분석하고 생성하기 위해 명시적인 문법 규칙을 작성하는 것—은 단순한 경우에는 작동했지만 실제 텍스트에서는 처참하게 무너졌어요. 언어는 너무 모호하고, 너무 문맥 의존적이며, 깨지기 쉬운 규칙으로 포착하기에는 너무 살아 있었어요.

규칙 기반 및 전이 기반 MT (1970년대–1980년대)

연구는 1970년대와 1980년대 내내 더 조용하게 계속되었어요. SYSTRAN(유럽 집행위원회의 초기 번역 서비스를 구동한) 같은 시스템은 언어 쌍 사이를 매핑하기 위해 거대한 수작업 사전과 전이 규칙을 사용했어요. 이 시스템들은 제한된 영역에서 유용한 대략적 번역을 만들어낼 수 있었지만, 각 언어 쌍마다 엄청난 공학적 노력을 요구했고, 제한 없는 텍스트를 우아하게 처리하는 경우는 드물었어요.

근본적인 문제는 분명했어요: 언어는 암호가 아니에요. 사전에서 단어를 찾아 문법 규칙에 따라 재배열하는 방식으로는 번역할 수 없어요. 의미가 문맥에, 세계 지식에, 화자의 의도에, 대화의 전체 역사에 의존하기 때문이죠. 중간언어 접근법—추상적이고 언어 독립적인 표현을 통해 번역하는 것—은 이론적으로 우아했지만 실제로는 불가능했어요. 누구도 그 중간언어를 정의할 수 없었어요.

통계적 혁명 (1990년대)

돌파구는 더 나은 규칙이 아니라 더 나은 데이터에서 왔어요. 1980년대 말과 1990년대 초, IBM의 연구자들(Peter Brown, Stephen Della Pietra, Vincent Della Pietra, Robert Mercer)은 기계 번역을 위한 일련의 통계적 모델을 개발했어요—유명한 IBM Model 1부터 5까지죠.

핵심 통찰은 Weaver의 오래된 아이디어가 마침내 엄밀해진 것이었어요: 해독으로서의 번역이죠. 외국어 문장 f가 주어지면, P(e|f)를 최대화하는 영어 문장 e를 찾아요. Bayes 정리에 따르면, 이것은 P(f|e) × P(e)를 최대화하는 것과 동등해요—번역 모델(이 영어 문장이 주어졌을 때 이 외국어 문장이 얼마나 가능한가?)과 언어 모델(이 영어 문장이 그 자체로 얼마나 가능한가?)의 곱이죠.

IBM 모델은 이 확률들을 대규모 병렬 코퍼스—두 언어로 모두 존재하는 텍스트 모음(영어와 프랑스어 양쪽으로 출간된 캐나다 의회 의사록(Hansards) 같은)—에서 학습했어요. 수작업 규칙이 필요하지 않았어요. 그 시스템은 수백만 개의 인간 번역 사례를 관찰함으로써 번역하는 법을 학습했어요.

통계적 MT는 풍부한 병렬 데이터를 가진 언어에서 규칙 기반 MT보다 극적으로 더 잘 작동했어요. 그것은 또한 결정적인 인프라 한 조각을 도입했어요: BLEU score(Papineni et al., 2002), 기계 출력을 인간 참조 번역과 비교하여 번역 품질을 자동으로 평가하는 지표죠. BLEU는 진전을 정량적으로 측정하고 대규모 실험을 수행하는 것을 가능하게 했어요.

하지만 통계적 MT에는 치명적인 가정이 내재해 있었어요: 그것은 병렬 코퍼스를 필요로 했어요. 세계의 주요 언어 쌍—영어-프랑스어, 영어-중국어, 영어-스페인어—에는 병렬 데이터가 풍부했어요. 하지만 세계의 7,000개 언어 중 대다수에 대해서는, 그것이 그저 존재하지 않았어요.

신경망 혁명: Seq2Seq, 어텐션, Transformer (2014–2017)

다음 변혁은 딥러닝과 함께 왔어요. 2014년, Ilya Sutskever, Oriol Vinyals, Quoc Le는 MT를 위한 시퀀스-투-시퀀스(seq2seq) 모델을 시연했어요: 어떤 명시적인 정렬이나 구(句) 테이블 없이도 한 언어로 된 전체 문장을 읽고 다른 언어로 번역을 생성할 수 있는 신경망이었죠.

2015년, Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio는 어텐션 메커니즘을 도입했어요—디코더가 번역의 각 단어를 생성하면서 소스 문장의 서로 다른 부분을 "되돌아볼" 수 있게 한 것이죠. 이것은 긴 문장에서의 성능을 극적으로 향상시켰어요.

그리고 2017년, Google의 Vaswani et al.은 "Attention Is All You Need"를 출간하여 Transformer 구조를 도입했어요. Transformer는 순환(recurrence)을 완전히 없애고, 셀프 어텐션을 사용해 전체 시퀀스를 병렬로 처리했어요. 그것은 훈련이 더 빠르고, 확장이 더 쉬웠으며, 이전의 어떤 것보다 더 나은 번역을 만들어냈어요.

Transformer는 2020년대의 대규모 언어 모델(LLM)로 직접 이어졌어요: GPT, BERT, PaLM, LLaMA 및 그 후손들이죠. 인터넷에서 방대한 양의 텍스트로 훈련된 이 모델들은 수백 개의 언어 쌍 사이를 놀라운 유창함으로 번역할 수 있어요.

하지만 "놀라운 유창함"은 "신뢰할 만한 정확성"과 같지 않아요. 그리고 세계의 저자원 언어에 대해서는, 상황이 보이는 것보다 훨씬 나빠요.

V. 또 다른 역사: 언어, 권력, 그리고 문화적 집단학살

앞의 네 절은 아이디어의 이야기—기계 번역을 향해 구축해 나간 문법학자, 수학자, 공학자들의 이야기예요. 하지만 그와 병렬로 흐르는 또 다른 역사가 있고, 그것은 왜 번역 기술이 가장 필요한 언어가 바로 그 기술이 존재하지 않는 언어인지를 설명해요. 이것은 중립적 사실로서의 데이터 부족에 관한 이야기가 아니에요. 그것은 의도적인 파괴에 관한 이야기예요.

Plains Cree어가 기계 번역 지원을 받지 못하는 이유는 주로 Cree어가 컴퓨터에게 어려운 언어이기 때문이 아니에요(그렇기는 하지만요). 그 이유는, 한 세기 넘게, 캐나다와 미국 정부가 아이들의 입에서 원주민 언어를 근절하기 위한 체계적인 프로그램을 운영했기 때문이에요. 저자원 MT를 그토록 어렵게 만드는 "데이터 부족"은 대부분 문화적 집단학살의 하류 결과예요. 이 언어들이 왜 기술을 필요로 하는지에 대한 어떤 정직한 설명도 애초에 왜 이 언어들이 멸종의 가장자리로 내몰렸는지를 따져봐야 해요.

접촉 이전: 언어의 대륙

접촉 이전 아메리카 대륙의 언어적 다양성은 엄청났어요. 유럽과의 접촉 당시, 북미만 해도 추정 300개에서 600개의 서로 다른 언어의 본거지였고, 수십 개의 서로 관련 없는 어족으로 조직되어 있었어요—유럽 전체보다 더 큰 유전적 다양성이었죠. 남미는 1,500개 이상이었을 수도 있어요(Campbell, 1997). 호주에는 250개가 넘는 언어가 있었어요. 태평양 섬들, 사하라 이남 아프리카, 동남아시아 본토도 비슷하게 다양했어요.

이것들은 "원시적"이거나 "단순한" 언어가 아니었어요. 지금까지 기록된 가장 구조적으로 복잡한 언어들 중 많은 수가 원주민 언어예요. Algonquian 언어(Cree, Ojibwe, Blackfoot 포함)의 다종합적 형태론, Navajo의 성조 체계, Quechua의 정교한 증거성 표시, Khoisan 언어의 흡착음(click consonant)—이것들은 인간 언어가 무엇이 될 수 있는지의 전 범위를 대표해요. 그것들은 친족, 생태, 법, 영성, 역사에 관한 정교한 지식 체계를 인코딩해요. 각 언어는 하나의 도서관이에요—한 공동체가 세계를 이해하고 조직하는 방식에 대한 대체 불가능한 기록이죠.

Edward Sapir는 이것을 분명히 인식했어요. 1921년에 쓰면서, 그는 이렇게 관찰했어요: "언어 형식에 관한 한, Plato는 마케도니아 돼지치기와, 공자는 Assam의 식인 야만인과 나란히 걷는다." 원주민의 언어는 열등하지 않았어요. 그것들은 달랐어요—그리고 그것들의 차이는 다른 어떤 언어도 갖지 못한 지식을 담고 있었어요.

언어 죽음의 메커니즘

언어는 자연사하지 않아요. 언어는 그 전승의 조건이 교란될 때—아이들이 그것을 배우기를 멈출 때, 화자들이 그것을 사용한다고 처벌받을 때, 사회적·경제적 유인이 변해서 지배 언어를 말하는 것이 생존의 조건이 될 때—죽어요.

이 교란은 경제적·인구학적 압력을 통해 점진적으로 일어날 수 있어요. 하지만 식민지 세계 전반에 걸쳐, 그것은 압도적으로 의도적이었어요. 원주민 언어의 억압은 식민화의 부작용이 아니었어요. 그것은 명시된 정책 목표였어요.

캐나다: 기숙학교 제도 (1831–1996)

캐나다에서 인디언 기숙학교(Indian Residential School) 제도는 원주민 언어와 문화를 제거한다는 명시적 목표를 가지고 160년 넘게 운영되었어요. 추정 15만 명의 First Nations, Métis, Inuit 아이들이 가족과 공동체로부터 떼어내어져 정부 지원의 교회 운영 기숙학교에 배치되었어요.

핵심 정책은 1920년 인디언 사무국 부총감 Duncan Campbell Scott에 의해 소름 끼치는 명료함으로 표현되었어요: "나는 인디언 문제를 없애고 싶다... 우리의 목표는 캐나다에 정치 공동체에 흡수되지 않은 인디언이 단 한 명도 남지 않고, 인디언 문제도 인디언 사무국도 없을 때까지 계속하는 것이다."

그 메커니즘은 언어였어요. 아이들은 모어를 말하는 것이 금지되었어요. 원주민 언어를 말한 것에 대한 처벌은 구타에서 독방 감금, 혀에 바늘을 찌르는 것에 이르렀어요. 아이들은 Cree, Ojibwe, Inuktitut, Dene, Haida, 혹은 수십 가지 다른 언어를 말하며 도착했어요. 그들은 그것을 멈출 때까지 처벌받았어요.

캐나다 진실화해위원회(Truth and Reconciliation Commission of Canada, 2015)는 이 공격의 체계적 본질을 기록했어요. 그 최종 보고서는 기숙학교 제도가 문화적 집단학살—한 집단이 집단으로서 계속될 수 있게 하는 구조와 관습의 파괴—을 구성했다고 결론지었어요. 언어가 주요 표적이었어요. 언어 없이는, 의례가 교란되고, 구전 역사가 끊기고, 친족 체계가 이해 불가능해지며, 지식의 세대 간 전승이 중단돼요.

캐나다에서 마지막 연방 운영 기숙학교는 1996년에 문을 닫았어요. 오늘날 자기 언어의 마지막 유창한 화자인 많은 Elder들이 기숙학교 생존자예요. 그들의 유창함은 단지 언어적 자원이 아니에요. 그것은 저항의 행위예요.

미국: 인디언 기숙학교 (1860년대–1960년대)

미국은 병렬적인 제도를 운영했어요. 1879년 Carlisle Indian Industrial School의 설립자 Richard Henry Pratt 대위는 그 시대를 정의한 문구를 만들어냈어요: "인디언을 죽이고, 인간을 구하라." 350개가 넘는 정부 지원 기숙학교가 미국 전역에서 운영되었으며, 그 정책은 캐나다의 것과 거의 동일했어요. 원주민 아이들은 자기 언어를 말하는 것이 금지되었고, 영어 이름을 채택하도록 강요받았으며, 체계적인 문화적 말소를 당했어요.

2022년 미국 내무부의 보고서는 37개 주에서 400개가 넘는 연방 인디언 기숙학교를 확인했으며, 그 제도에서 최소 500명의 아이들이 사망한 것을 기록했어요—이 보고서가 거의 확실히 상당한 과소 추정임을 인정한 수치죠. 그 조사는 그 제도가 단지 교육하기 위해서가 아니라 "인디언 아이들을 가족과 공동체로부터 강제로 이주시켜 문화적으로 동화시키기" 위해 설계되었음을 발견했어요.

언어적 결과는 파국적이었어요. 미국이 된 영토에서 사용되던 약 300개의 원주민 언어 중, 절반 이상이 이제 멸종했어요. 살아남은 것들 중, 대부분은 1,000명 미만의 유창한 화자를 가지고 있고, 많은 수는 10명 미만이에요. Endangered Languages Project는 살아남은 아메리카 원주민 언어의 대다수를 "심각하게(severely)" 또는 "위급하게(critically)" 위기에 처한 것으로 분류해요.

호주: 도둑맞은 세대 (1910–1970)

호주에서는 1910년과 1970년 사이의 정부 정책이 Aboriginal과 Torres Strait Islander 아이들을 가족으로부터 강제로 떼어냈어요. 도둑맞은 세대(Stolen Generations)로 알려진 이 아이들은 선교 시설, 보호 구역, 백인 위탁 가정에 배치되었어요. 명시적 목표는 동화였어요: 몇 세대 안에 Aboriginal 정체성을 솎아내는 것이었죠.

Aboriginal 언어는 선교 시설과 정부 기관에서 억압되었어요. 자기 언어를 말한 아이들은 처벌받았어요. 호주 인권위원회가 작성한 Bringing Them Home 보고서(1997)는 이러한 분리의 체계적 본질과 언어, 문화, 가족에 미친 파괴적 영향을 기록했어요.

유럽과의 접촉 당시 사용되던 추정 250개의 호주 Aboriginal 언어 중, 오늘날 아이들에게 전승되고 있는 것은 20개 미만이에요(Marmion et al., 2014). 100개가 넘는 언어가 완전히 멸종했어요. 남은 언어들은 대체로 노년의 화자들이 언어학자 및 공동체 조직과 함께 시간과의 경주를 벌이는 노력을 통해 살아남고 있어요.

스칸디나비아: Sámi 언어

원주민 언어의 억압은 남반구의 정착민 식민 국가에만 국한되지 않았어요. 노르웨이, 스웨덴, 핀란드에서는 19세기 중반부터 1960년대까지 Sámi 아이들이 기숙학교 제도(internatskoler)에 종속되었어요. Sámi 언어는 학교에서 금지되었고, 아이들은 그것을 말한다고 처벌받았어요. 노르웨이의 "노르웨이화"(fornorskingspolitikk) 정책은 명시적으로 Sámi 언어를 제거하고 노르웨이어로 대체하는 것을 목표로 했어요.

살아남은 아홉 개의 Sámi 언어 중, 여럿은 500명 미만의 화자를 가지고 있어요. Ume Sámi는 약 20명이에요. Pite Sámi는 30명 미만이고요. 그 언어들은 부분적으로 1970년대에 시작된 부흥 프로그램—Sámi어 학교와 미디어의 설립을 포함한—덕분에 살아남고 있어요. 이 프로그램은 일부 방언에는 때마침 도착했고 다른 방언들에는 너무 늦게 도착했어요.

Aotearoa 뉴질랜드: Te Reo Māori

Māori어(te reo Māori)는 20세기 중반까지 Aotearoa의 다수 언어였어요. 1860년대에 시작된 영국 식민지 교육 정책은 학교에서 te reo를 점진적으로 주변화시켰어요. 1970년대까지, Māori의 20% 미만이 유창한 화자였고, 그 언어는 한 세대 안에 멸종할 위험에 처해 있었어요.

Māori의 대응은 세계에서 가장 이르고 가장 성공적인 언어 부흥 운동 중 하나였어요. 1982년에 설립된 미취학 아동을 위한 Kōhanga reo(언어 둥지)는 영유아를 태어날 때부터 te reo에 몰입시켰어요. Kura kaupapa Māori(Māori어 교육 학교)가 뒤따랐어요. 이 프로그램들은, te reo를 공용어로 만든 1987년 Māori 언어법(Māori Language Act)과 더불어, 그 언어를 안정시켰어요—비록 유창한 화자가 여전히 Māori 인구의 소수를 차지하지만요.

뉴질랜드는 또한 원주민 데이터 거버넌스를 위한 가장 중요한 틀 중 하나를 만들어냈어요: Te Mana Raraunga, Māori 데이터 주권 네트워크죠. 이 틀은 Māori 데이터—언어 데이터를 포함한—가 kaitiakitanga(수호)의 권리와 책임에 종속되는 taonga(보물)라고 주장해요. 그것은 원주민 데이터 거버넌스를 위한 CARE 원칙의 개발에 직접 영향을 주었고, champollion의 데이터 주권 메커니즘에 대한 토대가 되는 참조예요.

패턴: 식민 권력의 표적으로서의 언어

지리적·문화적 세부 사항은 다르지만, 그 패턴은 놀랄 만큼 일관적이에요. 캐나다, 미국, 호주, 스칸디나비아, 뉴질랜드 전역에서—그리고 타이완에서 시베리아, 안데스 고지대에 이르는 다른 많은 곳에서—식민지 및 탈식민지 국가들은 원주민 언어를 동화의 장애물로 규정하고 제거 대상으로 삼았어요. 그 도구는 어디서나 비슷했어요: 아이들을 가족으로부터 떼어내고, 원주민 언어 사용을 금지하고, 위반을 처벌하고, 식민지 언어의 채택을 보상하는 것이었죠.

이것은 역사적 각주가 아니었어요. 캐나다의 마지막 기숙학교는 1996년에 문을 닫았어요. 미국의 마지막 인디언 기숙학교는 1960년대에 문을 닫았어요. 이 제도들을 견뎌낸 많은 사람들이 아직 살아 있어요. 그 트라우마는 세대를 넘나들어요. 그리고 언어적 손상은 진행 중이에요: 기숙학교 시대에 한 세대의 화자를 잃은 언어들이 이제 마지막 유창한 Elder들을 잃고 있어요.

문화적 집단학살에서 "데이터 부족"으로

이 역사는 기계 번역의 기술적 문제와 직접적으로 관련이 있어요. 컴퓨터 과학자들이 한 언어를 "저자원"이라고 묘사할 때, 그들은 보통 이런 것을 의미해요: 디지털 텍스트가 거의 없고, 병렬 코퍼스가 거의 없고, 사전이 거의 없고, 주석이 달린 데이터셋이 거의 없다는 것이죠. 그 틀 짓기는 중립적이에요. 마치 데이터 부족이 비가 거의 내리지 않는 사막처럼 자연의 행위인 것처럼요.

그것은 그렇지 않아요. 원주민 언어의 "데이터 부족"은 언어 억압 정책의 하류 결과예요. 학교에서 금지된 언어는 더 적은 문어 텍스트를 만들어냈어요. 화자들이 말한다고 처벌받은 언어는 더 적은 제도적 사용을 발전시켰어요. 한 세대의 전승을 잃은 언어는 병렬 코퍼스를 만들 수 있는 이중언어 화자를 더 적게 만들어냈어요.

문화적 집단학살에서 데이터 부족으로 이어지는 파이프라인은 직접적이에요:

억압 → 아이들이 언어를 말한다고 처벌받음
교란된 전승 → 더 적은 아이들이 언어를 배움
줄어든 화자 기반 → 더 적은 성인들이 일상에서 그것을 사용함
줄어든 제도적 사용 → 더 적은 문어 문서, 더 적은 디지털 텍스트
데이터 부족 → ML 모델이 훈련할 것이 없음
MT 지원 없음 → 그 언어가 기술에게 보이지 않음
가속화된 쇠퇴 → 기술이 정책이 시작한 주변화를 강화함

이 파이프라인은 원주민 언어를 다루는 모든 기술 프로젝트가 그것을 인정하든 안 하든 정치적·도덕적 맥락을 물려받는다는 것을 의미해요. Cree 언어 데이터를 모델이 삼킬 원자재로 취급하는 기계 번역 시스템은, 아무리 의도치 않더라도, 기숙학교에서 시작된 착취적 역학을 이어가는 거예요. 그 데이터는 폭력에 의해 부족해졌어요. 존재하는 데이터를 만든 화자들은 엄청난 역경을 무릅쓰고 그렇게 했어요. 그 데이터를 공동체의 의미 있는 통제 없이 사용하는 어떤 시스템도 원래의 해악을 가중시키는 거예요.

과학의 공모와 서구 이데올로기

과학과 기술이 이 식민지 프로젝트의 무고한 방관자가 아니었음을—그들은 능동적인 참여자였음을—인식하는 것이 결정적으로 중요해요. 세계를 분류하고, 정량화하고, 표준화하려 한 "계몽주의" 이데올로기는 종종 원주민과 그들의 언어를 단지 연구 대상이나 "구제 인류학"을 위한 호기심거리로 취급했어요. 이 착취적 관행은 지식을 서구의 대학에 가두면서도 그 공동체들을 파괴하는 정치적 기계 장치를 멈추기 위해서는 거의 아무것도 하지 않았어요.

이 프로젝트는 BIPOC 사람들을 실험 대상이나 원시 데이터의 수동적 제공자로 취급하는 Tuskegee 매독 연구나 착취적 언어 인류학 같은 방법론과 극명하게 대조돼요. 우리는 원주민을 대상으로 실험하거나, 그들의 지식을 추출하거나, 서구의 문화적으로 단일한 이데올로기를 그들에게 강요하기 위해 여기 있는 것이 아니에요. 우리의 목표는 그들 자신의 앎의 방식과 그들 자신의 가치 기준을 촉진하는 거예요. 우리는 인프라를 제공하고, 언어 공동체가 테스트 세트를 구축하고, 지표를 정의하고, 참여 동의(buy-in)를 유지해요. 그들의 참여 동의 없이는, 이 중 어느 것도 작동하지 않아요.

이 역사가 우리 설계를 형성하는 이유

이것이 champollion의 거버넌스 모델이 하나의 기능이 아니라—토대인 이유예요. 이 프로젝트의 모든 주요 설계 결정은 위에 기술된 역사에 대한 직접적인 응답이에요. 목표는 데이터 주권이에요: 공동체가 자신들의 살아 있는 언어를 전적으로 그들 자신의 조건으로 유지하고, 부흥시키고, 다스리는 것을 지원하는 것이죠.

테스트 데이터가 암호화되어 공동체 신탁(community trusts)이 보유하는 이유. 한 세기 넘게 원주민 언어 데이터가 동의 없이 추출되고, 출판되고, 착취되어 왔기 때문이에요. Summer Institute of Linguistics(SIL)의 노력 같은 선교 언어학은 역사적으로 착취적이고 동화주의적인 틀 아래에서 원주민 병렬 코퍼스를 독점했어요. 더 나아가, 저자원 언어를 위한 주요 병렬 코퍼스로 번역된 성경에 크게 의존하는 많은 현대 NLP 프로젝트들과 달리, 우리는 명시적으로 번역된 성경을 코퍼스로 사용하지 않아요. 공동체의 거버넌스 조직만이 키를 보유하는 암호화된 테스트 세트는 착취적 패턴의 반복을 구조적으로 불가능하게 만드는 기술적 메커니즘이에요.

우리가 개방된 테스트 세트 대신 샌드박스 실행(sandboxed execution)을 사용하는 이유. 언어 데이터가 일단 개방적으로 출판되면, 공동체가 그것에 대한 통제를 영구히 잃기 때문이에요. 기존의 ML 벤치마크는 테스트 세트를 공개해요—누구나 그것을 다운로드하고, 그것으로 훈련하고, 어떤 목적으로든 사용할 수 있죠. 이 현대적 AI 데이터 스크래핑은 "데이터 식민주의"와 "디지털 인클로저(digital enclosure)"의 새로운 형태를 나타내요. 언어가 힘에 의해 거의 근절된 공동체에게, 남은 언어 자원에 대한 통제를 잃는 것은 사소한 불편이 아니에요. 그것은 역사적 영토 박탈의 직접적인 연장이에요. 샌드박스 실행은 공동체의 데이터가 결코 그들의 인프라를 떠나지 않도록 보장해요.

방법(method)의 소유권이 공동체로 이전되는 이유. 원주민 공동체를 "돕는" 역사가 압도적으로 외부인들이 원주민을 위해서 또는 함께 무언가를 만드는 것이 아니라 원주민에 관한 것을 만드는 역사이기 때문이에요. 학술 논문이 출판되고, 보조금이 수령되고, 경력이 진전돼요—그리고 공동체에게는 아무것도 남지 않죠. 소유권 이전 메커니즘은 ML 엔지니어가 Plains Cree어를 위한 작동하는 번역 방법을 구축할 때, Plains Cree 공동체가 그 방법을 소유하도록 보장해요. 엔지니어는 크레딧과 귀속을 유지해요. 공동체는 그 자산을 유지하고요.

수익 모델이 90%를 공동체에 보내는 이유. 언어 부흥은 비용이 많이 들고, 가장 힘든 일을 하는 공동체들—가르치는 Elder들, 아이들을 몰입 학교에 보내는 부모들, 언어 둥지를 운영하는 활동가들—이 만성적으로 자금 부족에 시달리기 때문이에요. 더 나아가, 우리가 사용하는 바로 그 AI 인프라(예: 데이터센터, 광물 채굴, 물 사용)는 전 세계 원주민 토지에 불균형적인 물질적 대가를 부과해요. Cree 번역 API가 수익을 창출한다면, 그 수익의 90%는 Cree 언어 프로그램에 자금을 대야 해요. 기술은 공동체를 섬기는 도구여야지, 그들에게서 가치를 추출하는 메커니즘이 되어서는 안 돼요.

우리가 "OCAP®-준수(compliant)"가 아니라 "OCAP®-지향(forward)"이라고 말하는 이유. OCAP® 원칙(소유권, 통제, 접근, 점유)은 First Nations 정보 거버넌스 센터(First Nations Information Governance Centre)에 의해 특히 First Nations 맥락을 위해 개발되었어요. 다른 원주민 데이터 거버넌스 틀들—CARE(집단적 이익, 통제 권한, 책임, 윤리), Te Mana Raraunga(Māori 데이터 주권), FAIR 원칙—은 다른 문화적·법적 입장에서 유사한 우려를 다뤄요. 우리는 OCAP®을 완전히 구현한다고 주장하지 않아요. 그 판단은 First Nations 공동체에 속해요. 우리는 우리의 설계가 OCAP®-지향이라고 말해요: 그것은 공동체가 자신들의 데이터와 그로부터 파생된 기술에 대한 소유권, 통제, 접근, 점유를 행사할 수 있도록 구축되어 있어요. 그 구조는 주권을 가능하게 해요. 그것이 주권을 달성하는지는 공동체가 결정할 일이에요.

플랫폼이 모델이 아니라 방법을 벤치마킹하는 이유. 원주민 언어 공동체가 어떤 단일 기업의 모델에 의존해서는 안 되기 때문이에요. "방법"의 개방된 구조는 그 해결책이 비용이 많이 들고 물질 집약적인 LLM일 필요조차 없다는 것을 의미해요. 그것은 전통적인 컴퓨팅 하드웨어에서 실행되는, 매우 효율적이고 공동체가 호스팅하는 규칙 기반 시스템일 수 있어요. 오늘날 Cree어를 위한 최고의 번역 방법이 Google의 Gemini를 사용한다면, 공동체는 내일 모든 것을 재구축하지 않고도 오픈소스나 결정론적 대안으로 전환할 수 있어야 해요. 방법 수준의 벤치마킹은 공동체의 자산이 의존성이 아니라 레시피임을 보장해요.

공동체가 지금 이 인프라를 구축해야 하는 이유. AI의 물질적 추출을 비판하면서 AI를 활용하는 역설은 가혹한 전략적 현실에 의해 해소돼요: 이 문제가 공동체에 의해 그들 자신의 주권적 조건으로 해결되지 않는다면, 그것은 필연적으로 빅테크(Google, Meta, OpenAI)에 의해 착취적 조건으로 "해결"될 거예요. 거대 기업이 결국 주어진 원주민 언어를 위한 번역 모델을 구축하더라도, 공동체는 그들이 공동체 기준에 따라 실제로 언제 그리고 과연 성공했는지를 검증하고—그 성공의 가치를 공동체가 포착하도록 보장하기 위해—자신들의 독립적이고 샌드박스화된 벤치마킹 인프라를 필요로 해요.

이것은 기술에 덧붙여진 정치가 아니에요. 이것은 역사를 이해하는 사람들에 의해 설계된 기술이에요.

VI. 현재의 순간: 뒤처진 6,800개의 언어

문제의 규모

오늘날 지구상에서 사용되는 약 7,000개의 살아 있는 언어 중, 200개 미만이 어떤 기계 번역 지원이라도 가지고 있어요. 나머지 6,800개 이상은 그 기술에게 보이지 않아요—그것들이 덜 가치 있어서가 아니라, 현대 MT를 지배하는 통계적·신경망적 접근법이 근본적으로 데이터에 굶주려 있기 때문이에요. 그것들은 학습할 수백만 개의 병렬 문장을 필요로 해요. 세계 언어의 대부분에 대해서는, 그 문장들이 존재하지 않아요.

가장 영향을 받는 언어는 바로 가장 위기에 처한 언어들이에요: 원주민 언어, 소수 언어, 제한된 문어 기록을 가진 구전 전통이죠. 이것들은 화자가 종종 노년이고, 공동체가 작으며, 정치적 권력이 미미한 언어들이에요. 그것들은 보존과 부흥을 위해 기술적 지원이 가장 필요한 언어들이에요—그리고 그것들은 기존 기술이 가장 쓸모없는 언어들이죠.

다종합어의 도전

문제는 단지 데이터 부족만이 아니에요. 세계에서 가장 위기에 처한 언어들 중 많은 수가 다종합어예요—표준 NLP의 가정을 근본적으로 깨뜨리는 비범한 복잡성의 형태론 체계를 가지고 있죠.

캐나다 대초원 전역에서 사용되는 Algonquian 언어인 Plains Cree(nêhiyawêwin)를 생각해 보세요. 하나의 Cree 동사는 영어로는 절 전체에 걸쳐 퍼뜨릴 정보를 인코딩할 수 있어요: 주어, 목적어, 시제, 상, 증거성, 양태, 그리고 다양한 다른 문법 범주들이 접두사, 접미사, 내부 변형의 체계를 통해 단어 하나에 담기는 거죠.

이것은 표준 MT 접근법에 여러 문제를 일으켜요:

토큰화 실패. 영어 같은 분석어를 위해 설계된 BPE(Byte Pair Encoding) 같은 서브워드 토큰화기는 다종합어 단어를 의미 없는 파편으로 산산조각 내요. 형태론적 구조는 모델이 그것을 보기도 전에 파괴돼요. BPE는 중립적이지 않아요. 그것은 다종합어에 내재된 깊고 규칙 기반의 형태론적 위계와 근본적으로 충돌하는 순수하게 경험주의적이고 표면 수준의 인식론을 대표해요. 그것은 구조적 형태론을 능동적으로 해체하는 구조적 편향이에요.
조합 폭발. 다종합어는 단일 동사 어근에 대해 수백만 개의 가능한 단어 형태를 가질 수 있어요. 어떤 훈련 코퍼스도, 아무리 크더라도, 그것들 중 극히 일부만을 담을 수 있어요. 신경망 모델은 보지 못한 형태로 일반화할 방법이 없어요.
환각. 대규모 언어 모델은 다종합어로 번역하라는 요청을 받으면 종종 형태론적으로 유효하지 않은 형태—어떤 원어민도 결코 만들어내지 않을 단어—를 생성해요. 그 모델은 제한된 데이터에서 통계적 패턴을 학습했지만 그 언어의 형태론적 규칙에 대한 이해가 없어요.

유한 상태 변환기: 다리

그러나 형태론적 복잡성을 잘 처리하는 기술이 하나 있어요: 유한 상태 변환기(Finite State Transducer), 즉 FST죠. FST는 일련의 상태 전이를 통해 입력 문자열과 출력 문자열 사이를 매핑하는 형식적 계산 장치예요. 형태론적 분석을 위해, FST는 표면 단어 형태를 그 기저의 형태론적 구조로(그리고 그 반대로) 매핑할 수 있으며, 언어 형태론의 전체 조합적 복잡성을 처리해요.

FST는 Pāṇini의 재작성 규칙의 직접적인 후손이에요. 그것들은 계산 형태로 된 Chomsky의 유형 3(정규) 문법이에요. 그것들은 형식 언어학과 계산 사이의 연결을 살아 있게 구현한 것이에요.

FST를 LLM과 결합함으로써, champollion는 결정적인 철학적 종합을 실행해요: 그것은 합리주의적 구조 전통(규칙)과 경험주의적 통계 패러다임(확률)을 화해시켜 현대 AI의 데이터에 굶주린 다수파적 편향에 대응해요.

다종합어에 대해, FST는 신경망 모델이 할 수 없는 것을 제공할 수 있어요: 결정론적 검증이죠. 단어 형태가 주어지면, FST는 그것이 그 언어에서 유효한 형태인지 아닌지를 확정적으로 말할 수 있어요—확률적으로가 아니라, "이것은 맞아 보인다"가 아니라, 예 또는 아니오로 말이죠. 이것은 저자원 언어에 대한 신경망 MT를 괴롭히는 핵심 질문에 대한 답이에요: 사람이 개입하지 않고 생성된 단어가 실재하는지를 어떻게 검증할 것인가?

기술적 답은 이거예요: 형식 문법을 사용하세요. Pāṇini가 25세기 전에 발명한 바로 그 도구들을, Turing과 Chomsky가 엄밀하게 만든 계산 형식주의로 인코딩하여 사용하는 거죠.

그러나, 우리는 이 결정론적 힘이 그 자체의 위험을 수반한다는 것을 인식해야 해요. 구전적이고 유동적인 언어에 "예" 또는 "아니오" 검증을 강제하는 것은 경직된 표준어 이데올로기(Standard Language Ideology)를 부과할 위험이 있어요. FST가 무엇이 "올바른지"를 지시할 때, 그것은 의도치 않게 그것이 회피하도록 설계된 바로 그 식민지적 규범성을 재현할 수 있어요—방언적 변이를 평탄화하고, 코드 전환(code-switching)을 처벌하고, 다양한 공동체에 단일하고 정규화된 문법을 강제하면서요. FST는 형식적 정확성의 한 가지 지표만을 대표하기 때문에, 그 경직된 경험주의는 누그러져야 해요. 이것이 바로 공동체가 펜을 쥐어야 하는 이유예요. 공동체가 기준을 정하고, 규칙을 구축하고, 기계가 유효한 것으로 받아들이는 것을 정의하며, 구전적 유동성과 지역 방언을 위한 공간을 마련하는 FST를 설계해요. 형식 문법은 컴퓨터 과학자들이 전해 준 보편적 진리가 아니에요. 그것은 화자들 스스로가 운영하는 인프라예요.

champollion: 가닥들이 수렴하는 곳

이것이 champollion 프로젝트가 이야기에 등장하는 지점이에요. 그것은 우리가 추적해 온 모든 가닥의 정확한 수렴 지점에 자리해요:

Pāṇini로부터: 언어가 형식적이고 생성적인 규칙으로 기술될 수 있다는 원리.
Schleicher와 Sapir로부터: 세계의 언어들이 다양하고, 구조화되어 있으며, 종종 위기에 처해 있다는 이해.
기숙학교와 그 여파로부터: "데이터 부족"이 중립적 기술적 사실이 아니라 의도적인 언어 억압의 결과라는 이해—그리고 이 언어들을 다루는 어떤 기술도 주권을 토대로 구축되어야 한다는 이해.
Chomsky로부터: 언어학을 계산에 연결하는 문법의 형식적 위계.
Shannon으로부터: 통신, 잡음, 신호를 이해하기 위한 수학적 틀.
Turing과 von Neumann으로부터: 어떤 계산 가능한 함수든 실행할 수 있는 보편 기계들.
Weaver와 IBM Model들로부터: 번역이 통계적 문제로 다루어질 수 있다는 통찰.
Transformer 혁명으로부터: 번역할 수 있는—하지만 충분한 데이터가 있을 때만 그럴 수 있는—강력한 신경망 모델들.
FST 전통으로부터: 신경망 모델이 실패하는 곳에서 형태론적 복잡성을 처리할 수 있는 형식적 도구들.
OCAP®, CARE, Te Mana Raraunga로부터: 기술이 공동체로부터 추출하기보다 공동체를 섬기도록 보장하는 거버넌스 틀들.

champollion은 머신러닝 커뮤니티의 경쟁적 에너지를 시장이 버린 언어들로 향하게 하도록 설계된 플랫폼이에요. 그것은 누구나 번역 방법—신경망, 규칙 기반, 하이브리드, 또는 새로운 것—을 제출하고 엄격한 기준에 맞춰 평가받을 수 있는 벤치마킹 인프라를 제공해요. 결정적으로, 그것은 FST 기반 검증을 사용해 생성된 형태가 형태론적으로 유효함을 보장하고, 궁극적인 근거 진실(ground truth)로서 원어민 검증에 의존해요.

이 플랫폼은 이 역사가 분명히 하는 여러 원리를 구현해요:

어떤 단일 접근법도 충분하지 않아요. MT의 역사는 패러다임 전환의 역사예요—규칙에서 통계로, 신경망으로요. 각각의 새로운 패러다임은 이전 것이 풀 수 없었던 문제들을 풀었지만, 각각은 또한 맹점이 있었어요. 저자원 다종합어에 대해, 답은 거의 확실히 하이브리드예요: 형식적 정확성에 의해 제약된 신경망의 유창함이죠.

데이터 주권은 선택 사항이 아니에요—그것은 역사적 해악에 대한 구조적 응답이에요. 제V절이 상세히 기록하듯, 원주민 언어는 단지 우연히 "데이터가 부족한" 것이 아니에요. 그것들은 의도적인 정책에 의해 부족해졌어요. 이 프로젝트의 OCAP®-지향 설계—언어 데이터가 원주민 공동체의 통제 아래 남아 있도록, 복호화 키가 공동체 신탁에 의해 보유되도록, 알고리즘 소유권이 화자들에게 이전되도록 보장하는 것—는 사후적 고려가 아니에요. 그것은 외부인에 의한 기숙학교 시대의 기록화에서 현대의 데이터셋 스크래핑에 이르는 수 세기에 걸친 착취적 관행에 대한 직접적인 응답이에요. 그 구조는 이러한 패턴의 반복을 기술적으로 불가능하게 만들어요.

장기적 목표는 부흥이에요. 번역은 시험장이지만, 진짜 상은 가르침을 통한 언어 부흥이에요. 기계 번역을 위해 구축된 형식 문법과 형태론적 모델은 바로 기계 보조 언어 학습에 필요한 기술적 토대예요. 우리가 번역 시스템을 위해 Cree 동사 형태를 검증하는 FST를 구축할 수 있다면, 우리는 또한 그 FST를 사용해 학생이 Cree 동사를 활용하는 법을 배우도록 도울 수 있어요.

왜 이 순간인가

우리는 언어 기술의 역사에서 독특한 순간을 살고 있어요. 여러 요인이 수렴했어요:

오픈소스 도구가 성숙했어요. FST 툴킷(HFST와 Foma 같은), 신경망 MT 프레임워크(OpenNMT와 Fairseq 같은), 그리고 평가 인프라는 이제 소규모 팀이 최소 비용으로 조립할 수 있어요.
공동체 조직화가 가속화되고 있어요. 원주민 언어 공동체는 기술 활용과 데이터 주권 주장에서 점점 더 정교해지고 있어요. First Voices 이니셔티브, Canadian Indigenous Languages Technology Project, 그리고 수많은 공동체 주도 노력 같은 조직들이 기술만으로는 제공할 수 없는 인적 인프라를 구축하고 있어요.
AI 역량이 임계점에 도달했어요. 대규모 언어 모델은, 저자원 MT에는 그 자체로 불충분하지만, 하이브리드 시스템에서 강력한 구성 요소로 기능할 수 있어요—이후 형식적 방법에 의해 검증되고 제약되는 후보 번역을 생성하면서요.
비용이 붕괴했어요. 1954년에는 정부 연구소가, 2000년에는 대기업이 필요했을 것이 이제는 클라우드 컴퓨팅 크레딧과 오픈소스 소프트웨어로 가능해요. 병목은 더 이상 기술이나 돈이 아니에요. 그것은 의지예요.

질문은 그 기술이 구축될 수 있느냐가 아니에요. 그것은 가능해요. 질문은 그것이 올바르게 구축될 것인가—올바른 거버넌스, 올바른 유인, 그리고 그것이 섬기고자 하는 공동체에 대한 올바른 존중과 함께—예요.

그것이 이 프로젝트가 답하기 위해 존재하는 질문이에요.

참고문헌

Bahdanau, D., Cho, K., & Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR.
Boole, G. (1854). An Investigation of the Laws of Thought. Walton and Maberly.
Bringing Them Home: Report of the National Inquiry into the Separation of Aboriginal and Torres Strait Islander Children from Their Families. (1997). Australian Human Rights Commission.
Brown, P., Della Pietra, S., Della Pietra, V., & Mercer, R. (1993). The Mathematics of Statistical Machine Translation. Computational Linguistics, 19(2).
Campbell, L. (1997). American Indian Languages: The Historical Linguistics of Native America. Oxford University Press.
Champollion, J.-F. (1822). Lettre à M. Dacier relative à l'alphabet des hiéroglyphes phonétiques.
Chomsky, N. (1957). Syntactic Structures. Mouton.
Chomsky, N. (1956). Three Models for the Description of Language. IRE Transactions on Information Theory, 2(3).
Huet, G. (2006). Lexicon-directed Segmentation and Tagging of Sanskrit. In Proceedings of the XIIth World Sanskrit Conference.
Jones, W. (1786). The Third Anniversary Discourse. Asiatick Researches, 1.
Kiparsky, P. (1993). Paninian Linguistics. In R. E. Asher (Ed.), The Encyclopedia of Language and Linguistics. Pergamon.
Kircher, A. (1663). Polygraphia Nova et Universalis.
Leibniz, G. W. (1703). Explication de l'Arithmétique Binaire. Mémoires de l'Académie Royale des Sciences.
Llull, R. (c. 1305). Ars Magna.
Lovelace, A. (1843). Notes by the Translator (Note G). In L. F. Menabrea, Sketch of the Analytical Engine Invented by Charles Babbage.
Marmion, D., Obata, K., & Troy, J. (2014). Community, Identity, Wellbeing: The Report of the Second National Indigenous Languages Survey. Australian Institute of Aboriginal and Torres Strait Islander Studies.
National Research Council. (1966). Language and Machines: Computers in Translation and Linguistics (ALPAC Report). National Academy of Sciences.
Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A Method for Automatic Evaluation of Machine Translation. ACL.
Saussure, F. de. (1916). Cours de linguistique générale (C. Bally & A. Sechehaye, Eds.). Payot.
Schleicher, A. (1861). Compendium der vergleichenden Grammatik der indogermanischen Sprachen.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3).
Shannon, C. E. (1951). Prediction and Entropy of Printed English. Bell System Technical Journal, 30(1).
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. NeurIPS.
Truth and Reconciliation Commission of Canada. (2015). Honouring the Truth, Reconciling for the Future: Summary of the Final Report. Government of Canada.
Turing, A. M. (1936). On Computable Numbers, with an Application to the Entscheidungsproblem. Proceedings of the London Mathematical Society, 2(42).
Turing, A. M. (1950). Computing Machinery and Intelligence. Mind, 59(236).
Vaswani, A., et al. (2017). Attention Is All You Need. NeurIPS.
von Neumann, J. (1945). First Draft of a Report on the EDVAC. University of Pennsylvania.
Weaver, W. (1949). Translation. Memorandum, Rockefeller Foundation.
Wilkins, J. (1668). An Essay towards a Real Character, and a Philosophical Language. Royal Society.
U.S. Department of the Interior. (2022). Federal Indian Boarding School Initiative Investigative Report. Bureau of Indian Affairs.

이 문서는 champollion 프로젝트 문서의 일부예요. 그것은 프로젝트 자체와 동일한 라이선스로 배포돼요.

서론​

I. 모든 것의 문법: Pāṇini에서 Chomsky까지​

최초의 형식 문법 (기원전 4세기경)​

Rosetta Stone과 비교언어학의 탄생 (1799)​

William Jones와 인도유럽어 가설 (1786)​

August Schleicher의 언어 계통수 (1861)​

Ferdinand de Saussure와 언어의 구조 (1916)​

Sapir, Bloomfield, 그리고 원주민 언어 연구​

Chomsky 혁명 (1957)​

II. 보편 번역의 꿈​

Ramon Llull의 사고 기계 (1305)​

Athanasius Kircher와 Polygraphia Nova (1663)​

John Wilkins와 철학적 언어 (1668)​

Leibniz와 Characteristica Universalis​

Warren Weaver의 메모 (1949)​

III. 사고의 기계 장치: 계산과 정보​

George Boole와 논리 대수 (1854)​

Charles Babbage와 Ada Lovelace (1837–1843)​

Alan Turing과 보편 기계 (1936)​

Claude Shannon과 정보 이론 (1948)​

Von Neumann과 프로그램 내장형 컴퓨터 (1945)​

IV. 기계 번역: 최초의 AI 문제​

Georgetown-IBM 실험과 냉전 (1954)​

ALPAC 보고서와 첫 번째 AI 겨울 (1966)​

규칙 기반 및 전이 기반 MT (1970년대–1980년대)​

통계적 혁명 (1990년대)​

신경망 혁명: Seq2Seq, 어텐션, Transformer (2014–2017)​

V. 또 다른 역사: 언어, 권력, 그리고 문화적 집단학살​

접촉 이전: 언어의 대륙​

언어 죽음의 메커니즘​

캐나다: 기숙학교 제도 (1831–1996)​

미국: 인디언 기숙학교 (1860년대–1960년대)​

호주: 도둑맞은 세대 (1910–1970)​

스칸디나비아: Sámi 언어​

Aotearoa 뉴질랜드: Te Reo Māori​

패턴: 식민 권력의 표적으로서의 언어​

문화적 집단학살에서 "데이터 부족"으로​

과학의 공모와 서구 이데올로기​

이 역사가 우리 설계를 형성하는 이유​

VI. 현재의 순간: 뒤처진 6,800개의 언어​

문제의 규모​

다종합어의 도전​

유한 상태 변환기: 다리​

champollion: 가닥들이 수렴하는 곳​

왜 이 순간인가​

참고문헌​

서론