본문으로 건너뛰기

화자 검증 프로토콜

목적. 이 문서는 LYSS 평가 지표를 검증하기 위해 Cree–영어 이중 언어 화자에게 필요한 사항이 정확히 무엇인지 정의해요. 이 검증이 없으면 우리의 자동화된 점수는 입증된 품질 측정값이 아니라 엔지니어링 추정치에 불과해요. 이것은 프로젝트에서 가장 중요한 단일 공백이에요.

대상. 커뮤니티 파트너, 잠재적 협력자, 보조금 심사위원, 그리고 프로젝트 팀이에요.

마지막 업데이트: 2026-06-07


1. 화자가 필요한 이유

LYSS 평가 프레임워크(Linguistically-informed Yield & Structural Scoring)는 영어 → Plains Cree 번역에 대한 자동화된 품질 점수를 계산해요. 세 가지 핵심 신호를 사용해요:

  • LYSS-fst: 출력에 유효한 Cree 단어가 포함되어 있나요? (GiellaLT 유한 상태 변환기로 확인)
  • LYSS-eq: 출력이 참조 번역의 수용 가능한 변형인가요? (linter의 동등성 클래스로 확인)
  • LYSS-sem: 출력이 원문의 의미를 보존하나요? (의미 검증기로 확인)

이러한 지표는 숫자를 산출해요. 우리는 그 숫자들이 어떤 의미가 있는지 알지 못해요. FST는 인식하지 못하는 유효한 단어(차용어, 신조어, 고유명사)를 거부할 수 있어요. linter는 유효한 동등성을 놓치거나 유효하지 않은 것을 수용할 수 있어요. 의미 검증기는 의미를 잘못 판단할 수 있어요. 이중 언어 화자가 우리의 자동화된 점수가 번역 품질에 대한 인간의 판단과 일치하는지 알려주기 전까지, 우리는 추측하고 있을 뿐이에요.

모든 주요 MT 평가 지표(BLEU, COMET, chrF++)는 자동화된 점수를 수천 건의 인간 품질 평가와 비교하여 검증되었어요. 우리도 동일한 작업이 필요해요 — 자원이 제한적이기 때문에 더 작은 규모이지만, 동일한 엄밀성을 가지고 진행해요.


2. 우리에게 필요한 것: 세 가지 과제

과제 A: 번역 품질 평가 (주요 — 총 약 8시간)

무엇: 기계가 생성한 영어 → Cree 번역 200건을 두 가지 척도로 평가해요.

누가: SRO(Standard Roman Orthography)에 대한 읽기 유창성을 갖춘 Plains Cree–영어 이중 언어 화자 3명 이상이요.

작동 방식:

  1. 200개 행이 있는 스프레드시트 또는 웹 양식을 제공해요. 각 행에는 다음이 있어요:

    • 영어 원문 문장
    • 기계가 생성한 Cree 번역
    • (선택적으로) 비교를 위한 참조 Cree 번역
  2. 각 번역에 대해 화자는 두 가지를 평가해요:

    충실성(Adequacy) (올바른 내용을 말하나요?):

    점수레이블의미
    1None번역이 원문과 전혀 관련이 없어요
    2Little몇몇 단어는 일치하지만 전체적인 의미가 틀렸어요
    3Much핵심 의미는 있지만 중요한 부분이 누락되거나 틀렸어요
    4Most거의 모든 것이 정확하고, 사소한 의미 공백만 있어요
    5All번역이 원문의 의미를 완전히 전달해요

    유창성(Fluency) (실제 Cree처럼 들리나요?):

    점수레이블의미
    1Incomprehensible이것은 Cree가 아니에요
    2Disfluent개별 단어는 Cree일 수 있지만 문장이 깨져 있어요
    3Non-native이해할 수 있지만 Cree 화자가 말하는 방식이 분명히 아니에요
    4Good사소한 어색함이 있지만 자연스럽게 들려요
    5FlawlessCree 화자가 작성했을 법해요
  3. 선택적으로, 화자는 자신의 평가를 설명하는 자유 텍스트 메모를 추가할 수 있어요 (예: "동사에서 유정/무정 일치가 틀림", "이것은 th-방언이지만 y-방언 기준으로 평가함").

시간 추정: 번역당 약 2.5분 × 번역 200건 = 약 8시간이에요. 여러 세션으로 나눌 수 있어요 (예: 2주에 걸쳐 2시간 세션 4회).

보상: 시간당 50–65 CAD (BENCHMARK_SPEC §10.3 화자 보상률에 부합). 화자당 총액: 400–520 CAD. 화자 3명의 경우: 1,200–1,560 CAD.

우리가 하는 일: 우리의 자동화된 LYSS 점수와 화자 평가 사이의 상관관계를 계산해요. LYSS-fst가 유창성 평가와 상관관계가 있고 LYSS-sem이 충실성 평가와 상관관계가 있으면, 지표가 검증되는 거예요. 그렇지 않다면, 어디를 고쳐야 하는지 알게 돼요.


과제 B: Linter 동등성 검증 (약 2시간)

무엇: linter가 "동등"하다고 분류하는 Cree 번역 50쌍을 검토하고 실제로 같은 의미인지 알려줘요.

누가: 이중 언어 화자 1–2명 (과제 A와 동일한 화자일 수 있어요).

작동 방식:

  1. 50쌍을 제공해요. 각 쌍에는 다음이 있어요:

    • 영어 원문
    • 번역 A (참조)
    • 번역 B (linter가 동등하다고 말하는 변형)
    • 동등성 사유 (예: "어순 순열", "철자 변형", "선택적 불변화사 제거")
  2. 각 쌍에 대해 화자는 다음에 답해요:

    • 같은 의미인가요? 예 / 아니요 / 맥락에 따라 다름
    • 둘 다 자연스러운가요? 예 / A가 더 나음 / B가 더 나음 / 둘 다 자연스럽지 않음
    • 메모 (선택적 자유 텍스트)

시간 추정: 쌍당 약 2분 × 50쌍 = 약 2시간이에요.

보상: 시간당 50–65 CAD × 2시간 = 화자당 100–130 CAD.

우리가 하는 일: 각 동등성 클래스의 정밀도(precision)를 계산해요. 화자가 "어순" 동등성의 90%가 실제로 동등하다고 말하면, 그 클래스는 검증되는 거예요. "표제어 동의어" 동등성의 40%가 틀렸다고 말하면, 그 클래스를 고치거나 제거해야 한다는 것을 알게 돼요.


과제 C: FST 오거부 검토 (약 1.5시간)

무엇: FST 분석기가 거부하는(유효한 Cree 단어가 아니라고 하는) Cree 단어 100개를 검토하고 실제로 유효한지 알려줘요.

누가: 풍부한 Cree 어휘 지식을 갖춘 이중 언어 화자 1명이요.

작동 방식:

  1. 436개 항목의 EDTeKLA 골드 스탠더드 코퍼스에서 FST 분석기를 실행하고 거부하는 모든 단어를 수집해요.
  2. 거부된 단어를 최대 100개까지 문장 맥락과 함께 화자에게 제시해요.
  3. 각 단어에 대해 화자는 다음에 답해요:
    • 이것은 유효한 Cree 단어인가요? 예 / 아니요 / 불확실
    • 그렇다면 어떤 종류인가요? 정착된 단어 / 차용어 / 이름 / 방언형 / 신조어 / 기타
    • 메모 (선택 사항)

시간 추정: 단어당 약 1분 × 100단어 = 약 1.5시간이에요.

보상: 시간당 50–65 CAD × 1.5시간 = 75–100 CAD.

우리가 하는 일: FST의 오거부율(false rejection rate)을 계산해요. FST가 50개 단어를 거부하고 화자가 그중 30개가 유효하다고 말하면, 오거부율은 60%로 — 받아들일 수 없을 정도로 높아서 차용어/예외 허용 목록이 필요해요. 화자가 5개만 유효하다고 말하면, 오거부율은 10%로 — 지표가 신뢰할 만해요.


3. 총 화자 참여

과제필요한 화자 수화자당 시간화자당 비용총 비용
A: 품질 평가3약 8시간$400–520$1,200–1,560
B: Linter 검증2약 2시간$100–130$200–260
C: FST 검토1약 1.5시간$75–100$75–100
합계화자 3명약 11.5시간 (화자당 최대)$575–750 (최대)$1,475–1,920

동일한 화자 3명이 모든 과제를 수행하는 경우: 2–4주에 걸쳐 각자 약 11.5시간, 각자 $575–750.

과제 A만 수행하는 단일 화자는 2주에 걸쳐 약 8시간, $400–520을 참여해요.


4. 화자 자격

필수:

  • Plains Cree와 영어 이중 언어 사용
  • SRO(Standard Roman Orthography)에 대한 읽기 유창성
  • 구조화된 척도로 번역을 평가하는 데 익숙함

선호:

  • y-방언 경험 (EDTeKLA의 참조 코퍼스에 사용된 방언)
  • 교육 또는 번역 경험 (보정된 품질 판단을 제공)
  • 다양한 레지스터(격식체, 교육용, 대화체)에 대한 친숙함

불필요:

  • 기술 또는 NLP 지식 (우리가 모든 도구와 맥락을 제공)
  • 컴퓨팅 기술 (평가 인터페이스는 간단한 스프레드시트 또는 웹 양식이에요)
  • Champollion 프로젝트에 대한 사전 참여

5. 데이터 거버넌스

모든 화자 기여는 프로젝트의 OCAP® 지향 데이터 정책의 적용을 받아요:

  • 소유권: 화자의 품질 평가는 그들의 지적 기여로 남아요. 어떤 출판물에서든 이름으로 (또는 선택에 따라 익명으로) 크레딧이 부여돼요.
  • 통제: 화자는 언제든지 자신의 평가를 철회할 수 있어요. 철회하면 모든 분석에서 데이터가 제거돼요.
  • 접근: 평가 데이터는 (설립될 경우) 커뮤니티 거버넌스 조직이 통제하는 인프라 또는 화자가 선호하는 플랫폼에 저장돼요.
  • 소유: 원시 평가 데이터는 절대 공개되지 않아요. 집계 통계(상관관계, 주석자 간 일치도)만 출판물에 나타나요.
  • 보상: 화자는 우리가 그들의 평가를 사용하든 안 하든 시간에 대한 보상을 받아요. 지급은 결과에 좌우되지 않아요.

6. 화자가 얻는 것

보상 외에도:

  • 그들의 평가를 사용하는 모든 출판물에 대한 공동 저자권 (원할 경우)
  • 모든 프로젝트 문서에서의 감사 표기
  • 평가 도구 및 결과에 대한 조기 접근
  • 지표가 어떻게 사용되는지에 대한 의견 제시 — 화자가 "당신의 linter가 X에 대해 틀렸다"고 말하면, 우리는 linter를 고쳐요
  • 문제가 있다고 생각하는 결과의 출판에 대한 거부권

7. 시작하는 방법

참여에 관심이 있는 Cree–영어 이중 언어 화자이거나, 그럴 만한 사람을 알고 있다면:

  1. [프로젝트 이메일/연락처]로 문의해 주세요 — 약속 필요 없이, 그냥 대화면 돼요
  2. 우리가 과제를 설명해요 — 평이한 언어로 (전문 용어 없이)
  3. 관심 있는 과제를 선택하세요 (A, B, C, 또는 조합)
  4. 여러분에게 맞는 일정을 잡아요 (2시간 단위, 유연한 시간대)
  5. 번역을 평가하세요 — 스프레드시트 또는 웹 양식을 통해 어디서나, 여러분의 시간에 맞춰
  6. 신속하게 지급해요 — 각 과제 블록 완료 후 2주 이내

8. 이후에 일어나는 일

화자 검증 데이터가 있으면, 우리는 다음을 할 수 있어요:

  1. 지표 상관관계 발표 — LYSS 점수가 인간의 판단을 반영함을 증명 (또는 반증)
  2. 지표 재보정 — 화자 피드백을 기반으로 가중치, 임계값, 동등성 클래스 조정
  3. linter 수정 — 잘못된 동등성 제거, 누락된 것 추가
  4. FST 허용 목록 수정 — FST가 잘못 거부한 유효한 단어 추가
  5. 학술 발표처에 제출 — 화자를 공동 저자로 하여, LYSS를 다종합어(polysynthetic language) MT 평가를 위한 검증된 지표로 확립

화자 검증이 없으면 LYSS는 엔지니어링 도구로 남아요. 그것이 있으면 LYSS는 과학적으로 근거 있는 평가 지표가 돼요. 그것이 "우리는 무언가를 만들었다"와 "우리는 그것이 작동함을 증명했다"의 차이예요.