Jump to content

Community Wishlist/Wishes/Wikipedia Machine Translation Project/ko

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Community Wishlist/Wishes/Wikipedia Machine Translation Project and the translation is 100% complete.
위키백과 기계 번역 프로젝트 Open

Edit wish Discuss this wish

Description

기계 번역은 점점 더 좋아지고 있으며 완벽과는 거리가 멀지만 적어도 일부 언어 쌍의 경우 위키백과 문서의 전체 텍스트에 대한 기계 번역은 곧 완벽에 가까워지고 있습니다. 여전히 오류가 있습니다. 종종 많은 오류가 있지만 1) 수년에 걸쳐 점점 더 나아질 것이고 2) 기계 번역 후 오류 수정 및 조정(아래에 설명되어 있으며 이 제안의 핵심 부분)을 위한 방법을 만들 수 있다는 점을 명심하세요.

저는 다른 어떤 것도 이것만큼 위키백과 독자층과 사람들이 자신의 언어로 볼 수 있는 문서의 포괄성을 증가시킬 수 있다고 생각하지 않습니다. 지금 여기에서 간략히 설명하는 것이 현실로 만드는 데 한 걸음 더 나아가는 것이기를 바랍니다. 기여를 엄청나게 늘리고, 콘텐츠를 훨씬 더 널리 볼 수 있게 하고, 비영어권 세계에서 위키백과 콘텐츠를 더 많이 읽을 수 있게 하고, 번역 작업을 훨씬 더 효율적으로 만들 것입니다. 이 제안은 이 다이어그램에 요약되어 있습니다:

기계 번역된 위키백과 개요 (tl;dr)

여기서 다루는 문제 또는 이것이 필요한 이유

위키백과 적용 범위(출처 수, 시청자/독자 수, 문서 길이 등과 같은 측정 항목은 고려하지 않음)
  • 대부분 위키백과는 영어 위키백과보다 훨씬 적은 문서를 가지고 있습니다. 게다가 품질이나 포괄성도 보통 상당히 낮습니다.
    • 번역은 영어 위키백과(ENWP)에만 기반할 필요는 없습니다. 다른 위키백과를 기본 텍스트로 사용할 수도 있으며, 주로 특정 국가/언어에 대한 주제에 관한 것입니다.
    • 예를 들어, 이 연구에 따르면 가장 광범위한 언어판조차도 ENWP에 있는 기후 변화 관련 문서의 약 3분의 1 정도만 다루고 있는 것으로 나타났습니다.
  • 다른 위키백과는 일반적으로 영어 위키백과나 해당 주제와 관련된 위키백과만큼 최신 정보가 제공되지 않습니다.
  • 수동으로 번역된 문서의 경우 변경 사항은 다른 언어 위키백과에 동기화되지 않습니다. 물론 기계 번역을 번역에 사용했는지 여부는 중요하지 않습니다. 원본 문서가 변경되면 이러한 변경 사항은 다른 언어 위키백과에도 적용되지 않습니다. 문서는 누락된 정보로 확장되고, 최신 정보로 업데이트되고, 전면적으로 수정되거나 재구성됩니다.
    • 예를 들어, 저는 영어 위키백과에 문서를 쓴 후 이를 번역하여 새로운 독일어 문서를 만들었습니다. 그리고 얼마 후에 영어 위키백과 문서를 광범위하게 편집했지만 이제 독일어 문서에는 이러한 변경 사항이 없습니다.
  • 문서를 수동으로 번역하는 것은 자원봉사 활동으로는 그다지 만족스럽지 않습니다. 아마 예외가 있겠지만 대부분 사람들은 새로운 것을 쓰는 것을 더 좋아합니다. 모든 언어 위키백과에는 만들어지지 않았지만 ENWP에서 번역되었을 수 있는 중요한 주목할 만한 문서가 무수히 많습니다.
  • 반 수동 번역은 느리고 매우 불완전할 것입니다 - 비슷한 규모로 이루어지지 않으며 사람들이 다른 위키백과를 영어 위키백과만큼 포괄적으로 만들 수 있는 규모와 속도로 문서를 번역하지 않는다는 것이 분명합니다. 영어 위키백과에 있는 주요 주제에 대한 섹션에 대한 문서가 없는 스페인어나 독일어 위키백과와 같은 가장 큰 언어의 경우에도 마찬가지입니다. 일부 위키백과가 반 수동 번역에 매우 많은 자원 봉사 시간을 사용하여 영어 위키백과에 근접한 문서 수를 달성하더라도 이러한 문서는 빠르게 오래되어 소스 문서와 동기화되지 않습니다.
  • 작은 규모의 문서/위키백과는 ENWP만큼 모니터링, 편집, 읽기 및 검토를 받지 않으므로 편견이 더 심해질 가능성이 더 큽니다.
  • 종종 사람의 언어로 주제에 대한 문서가 없는 경우가 많습니다. 해당 주제에 대한 최고 또는 EN 위키백과 문서의 기계 번역 버전이 옵션으로 해당 문서가 없는 것보다 낫습니다. 사용자는 기계 번역이라는 사실을 알게 됩니다. 또한 ENWP의 콘텐츠는 이제 다른 언어로 웹을 읽거나 검색하는 사람도 접근할 수 있으므로 더 많은 도달 범위를 의미하며, 기여가 노력할 가치가 있고 무료 지식이 증가합니다.
  • 언어의 위키백과에 문서가 있는 주제의 경우, 그 문서는 매우 짧거나 형편없는 상태일 수 있지만, 다른 위키백과(보통 영어 위키백과)에는 양질의 포괄적인 문서가 있습니다. 영어 위키백과 문서는 보통 훨씬 더 포괄적입니다. 그런 경우 독자는 기계 번역된 버전을 열어보려고 하거나 그로부터 이익을 얻을 수 있습니다. 이는 일반적으로도 적용됩니다. 사람들은 추가 옵션만 있고, 모국어 위키백과를 여전히 읽을 수 있고 읽을 것입니다. 예를 들어, 어떤 독자는 짧은 문서가 있고 100% 완벽한 것을 가치 있게 여기는 반면, 다른 독자는 적어도 사례별로 두세 개의 사소한 오역이 포함되어 있더라도 영어 위키백과에서 자신의 언어로 번역된 보다 포괄적인 문서를 선호할 수 있습니다. 그들은 자신의 언어로 주제를 검색할 때 웹 검색 엔진에서 기계 번역 위키백과 문서를 보거나 자신의 언어 위키백과에 문서가 없거나 너무 짧은 문서만 있는 경우 기계 번역 위키백과 문서로 전환할 것입니다.

이는 국제화/다국어주의와 개방적 지식을 개선하기 위한 제안이며, 현재 기계 번역이 해당 언어에서 가장 잘 작동하고 ENWP가 글로벌 위키백과라는 사실에도 불구하고 ENWP만 소스로 사용되는 것은 아닐 것입니다(예외가 있을 수 있음: 언어/국가별 주제, 다른 언어로 번역하면 품질이 훨씬 더 뛰어난 경우, ENWP 문서가 없는 경우).

제3자 구현

여기에 핵심 고려 사항이 있습니다. 위키미디어 운동이 그러한 프로젝트를 설정하지 않는다면 언젠가 외부 행위자나 조직이 그렇게 할 것이고, 위키미디어인인 우리가 직접 설정하는 것이 더 낫습니다. 예를 들어, 그러면 우리는 의사 결정에 참여하고, 중립성을 더 잘 보장하고, 아래에 설명된 모듈에 기여할 수 있으며, 문서의 언어 드롭다운에 추가 버튼을 통해 위키백과와 더 잘 통합될 수 있습니다.

위키백과의 텍스트 내용은 CC BY-SA입니다. 저는 이 문제가 그것이 이루어질지 "여부"보다는 "언제" 그리고 "어떻게" 이루어질지의 문제라고 생각합니다.

기계 번역 후 오류 수정 모듈

기계 번역된 페이지는 일반적인 방식으로 편집할 수 없습니다(따라서 기계 번역된 문서가 설정되면 문서가 포크되지 않음). 대신 이러한 문서는 원본 문서가 변경될 때마다(또는 그 후 잠시 동안) 변경되므로 동기화됩니다. 즉, 원본 문서가 해당 기간 동안 편집되었다고 가정할 때 예를 들어 1개월 정도만 오래될 뿐입니다. 사람들은 번역을 개선할 수만 있으므로(소위 사후 편집) 부분을 제거하거나 추가할 수 없고 번역만 조정할 수 있습니다(의미적 변경은 원본 문서에서 수행해야 함). 중요한 점은 원본 문서가 변경되고 번역된 문서가 업데이트된 후에도 수정 사항이 자동으로 적용된다는 것입니다(원본 문서가 수정된 경우 예를 들어 매월 발생할 수 있음).

  • DeepL구글 번역 같은 도구는 위키링크나 인용 템플릿을 변환하지 않습니다. 이 시스템은 위키텍스트 마크업과 위키백과 틀을 이해/사용하도록 구축될 수 있습니다.
    • 위키링크의 문서가 단어를 번역한 것이 아니라 대상 언어로 이미 존재하는 경우, 해당 문서의 제목을 대상 언어로 사용할 수 있습니다.
    • 인용 템플릿을 해당 언어의 위키백과 인용 템플릿으로 변환할 수 있습니다. 예를 들어, en:Template:cite journallast1=es:Plantilla:Cita publicaciónapellidos=과 같습니다.
    • 위키텍스트는 기계 번역 도구가 텍스트를 번역하기 어렵게 만듭니다. 현재는 처음에 오류가 더 많거나 사용자가 먼저 위키텍스트를 제거하거나 위키텍스트 없이 텍스트를 복사하여 붙여넣고 [1][2]과 같은 것을 제거해야 합니다. 간소화된 위키백과 기계 번역 시스템을 사용하면 위키텍스트는 결과 기계 번역에서 제거/무시됩니다.
  • 앞서 언급했듯이 대략적으로 구상된 시스템에는 종종 잘못된 번역이 있습니다:
    • 한 번만 수정하면 위키백과 문서가 변경되어 번역된 문서가 업데이트될 때 이전 수정 사항을 그대로 유지합니다(구문을 인식하거나 이전에 변경한 내용을 '기억'하고 변경된 문장에 다시 적용).
    • 이러한 시스템을 사용하면 새로운 AI NLP 모델을 더 많이 사용하여 번역을 개선하고(이 연구 참조) 모든 다른 언어의 위키백과 문서를 가상 컨텍스트로 번역하여 모호한 단어를 올바르게 번역하는 등 번역 품질을 개선하는 등 더 많은 작업을 수행할 수 있습니다(phab:T155847 참조).
    • 대부분의 오류는 일반적인 결함의 '인스턴스'일 뿐(일반적인 오류/문제)이므로 이러한 오류 중 다수는 한 번에 수정하거나 규칙 유형 방식으로 가능한 오류로 표시할 수 있습니다.
      • 예를 들어, 이 연구에서는 번역된 텍스트에 대한 인간 평가를 사용하여 MT 출력의 다양한 문제를 체계적으로 식별했습니다. 예를 들어, 원본 텍스트에 오류가 있거나 올바른 번역을 위해 상식과 같은 의미 언어 처리 또는 맥락이 필요한 모호한 부분이 있을 수 있습니다.
      • 이 논문에서는 "기계 번역 연구자들이 위키백과인들이 자신의 언어로 문서를 번역하는 데 사용할 수 있는 모델을 확장할 수 있는 기회를 찾을 수 있다고 언급합니다." 여기에 제안된 내용은 협업을 통해 그리고 위키미디어의 집단 지능을 통해 번역 오류를 식별하고 기계 번역의 전반적인 상태를 개선하여 결국 MTWP 상태를 개선함으로써 큰 ​​혜택을 볼 수 있는 조직과 연구자들에게 흥미로울 수 있습니다.
      • 수정이 이루어질 때마다 오역이 등록되므로 다른 문서에서 같은 오류가 더 많이 발견되면 어느 시점에 '표시'하여 대규모로 수정하고, 전반적인 사이트의 번역 품질을 향상시킬 수 있습니다(참고: 가장 큰 위키백과에 철자 오류가 있는 것은 사이트를 쓸모없게 만드는 것이 아니며, 여기서도 마찬가지이며 이 문제에 대한 작업을 빨리 시작할수록 좋다고 생각합니다). 일부는 자동으로 수정되고, 일부는 사람이 검토하도록 표시됩니다.

기본적으로 기계 번역을 사용하여 수정을 할 경우, 이러한 수정 사항이 투명하다면 전반적인 기계 번역을 개선하고 유사한 사례를 변경하거나 인간의 검토를 위해 플래그를 지정하는 데 사용할 수 있습니다. 또한 두 개의 다른 기계 번역을 사용한 다음 diff를 사용하여 사용자가 어느 것이 더 나은지 또는 기계 번역을 지원하기 위해 변경해야 하는지 결정하도록 할 수 있습니다. 예를 들어, 이 자막의 경우 두 개의 다른 MT 도구를 사용한 다음 diff를 사용하여 결과를 편집했습니다. 체계적인 투명한 수정으로 수정할 수 있는 '실수' 중 하나는 96과 같은 큰 숫자는 이 경우 "sechsundneunzig"가 아닌 숫자로 번역해야 한다는 것입니다. 원본 문서에서 숫자일 때 항상 큰 숫자가 이렇게 번역되도록 MT 규칙을 만들 수 있으며, 이는 사람들이 하는 모든 투명한 조정에서 학습하여 암묵적으로 식별할 수도 있습니다.

이는 또한 이러한 문서를 검색 가능한 정적 웹 사이트에 게시하는 것이 여기서 핵심인 이유를 더 명확하게 해줍니다. 이는 구글 번역이 문서를 동적으로 번역하도록 허용하는 것과는 매우 다릅니다(어쨌든 대부분의 사람들은 사용하지 않음). 이는 최대 300개 언어에 대해 수백만 개의 MT 문서를 별도/하위 사이트에 동시에 게시함으로써 구현되지 않습니다. 점진적으로 구현되며 기계 번역이 충분히 잘 작동하는 언어 쌍에 대해서만 수행됩니다.

번역 도구/MinT에서 구문에 대해 '올바른 번역에 대한 낮은 신뢰도'를 지정할 수 있는 경우(예: 일부 단어의 의미가 모호하여 두 의미가 맥락에서 모두 의미가 있어 올바르게 번역되었다는 확신이 낮은 경우) 이러한 구문도 검토가 필요하다고 플래그가 지정됩니다. MTWP 기여자는 플래그가 지정된 많은 구문을 빠르게 살펴볼 수 있는 특수 인터페이스를 갖게 됩니다.

사용자가 최근에 편집한/많이 편집한/관심 있는 문서의 기계 번역된 문서에서 플래그가 지정된 문구를 확인 및/또는 확인하는 것은 관련 소원에서 제안된 작업 대시보드의 작업 유형이 될 수 있습니다. 숙련된 편집자를 위한 기여 내역(사용자 관심사)에 따른 제안된 작업도 있습니다. 예를 들어, 독일어와 영어를 구성한 경우(또는 언어가 구성되지 않은 경우 두 위키백과에 많은 기여가 있는 경우) 최근에 ENWP 기사 X를 편집한 경우 문서 X의 기계 번역된 독일어 버전을 확인하면 작업에 표시되고, 클릭하면 검토가 필요한 플래그가 지정된 문구에서 EN 버전이 왼쪽에 있고 DE 버전이 오른쪽에 있는 분할 보기로 이동합니다. 모든 플래그가 지정된 문구가 조정/수정되면 사용자는 전체 문서를 검토하여 플래그가 지정되지 않은 문제를 잠재적으로 발견할 수 있습니다.

게다가, 기계 번역 후 편집 프로세스에서 미디어는 번역된 미디어로 전환될 수도 있습니다. 비디오를 다른 언어나 번역된 버전으로 다시 더빙합니다(위키미디어 공용 또는 위키데이터의 |other_versions= 필드에 다른 언어 버전이 지정된 파일의 경우 부분적으로만 자동으로 수행될 수는 있지만 완전히 수행되지는 않습니다).

새로운 위키미디어 프로젝트 또는 큰 기능을 추가하는 프로젝트? 다음 단계

이것이 새로운 프로젝트 제안으로 바뀔 수도 있습니다. 이것에 관심이 있으시다면 토론 페이지에 댓글을 달거나 가입해주세요. 이것은 개발자, 연구자, 편집자의 참여를 포함한 집단적인 노력이 필요합니다.

저는 구글, DeepL 또는 이와 유사한 것과 제휴하지 않았습니다(또한 모듈식 접근 방식이 가장 좋을 것이고 MinT를 사용할 수도 있을 것입니다). 이 프로젝트는 퍼블릭 도메인, 무료 지식 및 글로벌 교육에 큰 도움이 될 것이며 우리 모두를 훨씬 더 생산적으로 만들 것입니다. 위키미디어 프로젝트가 AI의 혜택을 받는 것이 아니라 그 반대가 되도록 하는 데 도움이 될 것입니다.

최근 승인된 추상 위키백과와 비슷하게 들립니다. "추상 위키백과에서는 사람들이 언어에 독립적인 방식으로 위키백과 문서를 만들고 유지할 수 있지만" 매우 다릅니다. 추상 위키백과는 ENWP 문서의 깊이와 질에 거의 맞는 긴 위키백과 문서를 갖지 못할 것입니다. 그렇게 한다고 해도(그리고 그것이 프로젝트의 목표가 아닌 것 같습니다) 수백만 개의 문서가 없을 것이라는 다른 접근 방식을 함께 구현할 수 없다는 의미는 아닙니다. 다시 말하지만 추상 위키백과의 ENWP 문서만큼 긴 문서를 갖는 것은 불가능합니다. 이 프로젝트가 존재한다고 해서 위키백과의 범위/영향/범위 및 혁신을 늘리는 다른 방법에 대한 임시방편이 되어서는 안 됩니다.

아마도 별도의 프로젝트가 되지 않고 일종의 '기능' 또는 위키백과의 일부로 구현될 수도 있지만, 어떤 경우든 별도의 사이트가 가장 좋을 것 같습니다. 새로운 위키미디어 프로젝트가 되거나 되어야 한다면 표준 위키백과 측면에서도 변경이 있을 수 있습니다. 예를 들어 문서의 언어 드롭다운에 링크를 표시하는 것과 같습니다.

좀 더 관련성 있는 데이터 그래픽은 다음과 같습니다:

Assigned focus area

Unassigned.

Type of wish

Feature request

Wikipedia

새로운 프로젝트

Affected users

주로 영어로 된 위키백과를 읽는 것을 선호하지 않는 위키백과 독자

Other details