Jump to content

학습 패턴/위키미디어 공용에 데이터 전송: 기관 아카이브 공유

From Meta, a Wikimedia project coordination wiki
학습 패턴콘텐츠 출시 파트너십
위키미디어 공용으로 데이터 전송: 기관 아카이브 공유
문제무료 미디어 아카이브 위키미디어 공용의 표준 업로드 기능은 주로 소량의 데이터/미디어 파일을 업로드하기 위해 설계되었습니다.
해결 방법더 큰 데이터 세트 또는 전체 아카이브를 전송하려면 일반적으로 데이터의 특성 및 관련 메타데이터에 따라 약간의 준비가 필요합니다. 이 학습 패턴은 가장 일반적인 도구 및 절차를 통해 첫 번째 지침을 제공하려고 합니다.
지지
생성2015년 12월 2일


이것이 어떤 문제를 해결합니까?

왜 문화 기관은 자신의 아카이브를 대중에게 공개해야 합니까?

기관의 아카이브에서 무료 미디어 아카이브로 귀중한 데이터 세트를 전송하면 많은 이점이 있습니다. 제3자에 의한 재사용, 상황화 및 배포가 단순화됩니다. 예를 들어 데이터는 위키백과에 통합되거나 과학적 맥락에서 장벽 없이 사용될 수 있습니다. 아카이브를 기반으로 새롭고 창의적이고 혁신적인 기술 응용 프로그램을 개발할 수 있습니다. 이전에 알려지지 않은 배경 세부 정보는 자원봉사자가 식별하고 탐색할 수 있습니다.

지금까지 수많은 기관이 무료 데이터의 이점을 인식했습니다. 2008년 초 독일 Bundessarchiv(연방 기록 보관소)는 재고에서 80,000장 이상의 사진을 공개했습니다. 예를 들어 수천 명의 독자가 본 수많은 위키백과 문서를 설명하는 데 사용되었습니다. 날마다. 베이코스 아카이브는 40,000개 이상의 공개 도메인 인장으로 구성된 고유한 컬렉션을 공용에 기증했으며, 이는 위키미디어 프로젝트의 자원 봉사 커뮤니티에 의해 즉시 분류, 분류 및 할당되었습니다.

다른 예는 베를린 응용과학 대학(Hochschule für Technik und Wirtschaft)의 역사적인 직물 샘플 컬렉션의 데이터 세트, 구청 기록 보관소의 역사적인 18세기 저작물을 제공한 무료 문화 해커톤인 다빈치 코딩에서 나왔습니다. 베를린 샤를로텐부르크-빌머스도르프, 베를린 시립박물관의 지질 컬렉션 이미지, 베를린 민족학 박물관의 오디오비디오 파일 등이 있습니다.

그러나 무료 미디어 아카이브 위키미디어 공용의 표준 업로드 기능은 주로 소량의 데이터/미디어 파일 업로드용으로 설계되었습니다.

해결책은 무엇입니까?

더 큰 데이터 세트 또는 전체 아카이브를 전송하려면 일반적으로 데이터의 특성 및 관련 메타데이터에 따라 약간의 준비가 필요합니다. 이 학습 패턴은 가장 일반적인 도구와 절차를 통해 첫 번째 지침을 제공하려고 합니다:

어떤 형식으로 미디어 파일을 공용에 업로드할 수 있나요?

파일 유형

공용의 경우 여기에 나열된 모든 파일 형식이 적합합니다.

해상도 / 압축 / 파일 크기

미디어 파일의 지속적인 재사용으로 인해 발생할 수 있는 모든 가능성을 최대한 활용하려면 파일 크기가 최대한 크고 무손실로 업로드되어야 합니다. 이미지를 줄이고 압축하는 것은 많은 작업이지만 단점도 많고 장점도 거의 없습니다.

그러나 기술적인 이유로 공용 기본 설정에서의 업로드는 제한됩니다. 파일 크기에 대한 자세한 내용은 여기에서 확인할 수 있습니다.

파일 이름

파일 이름은 설명 제목과 인벤토리 또는 개체 번호로 구성되는 것이 가장 좋습니다. 예를 들어 예술 작품의 경우 작가 이름, 작품 이름, 개체 번호로 구성될 수 있습니다. 도서 스캔의 경우 저자 이름, 제목, 페이지 번호 등의 구조가 유용한 것으로 입증되었습니다. 파일 이름 지정에 대한 보다 일반적인 정보는 여기에서 확인할 수 있습니다.

데이터 세트를 공용에 업로드하려면 무엇이 필요합니까?

미디어 파일을 무료 미디어 저장소 공용으로 전송하려면 인터넷 연결, 무료 공용 사용자 계정 및 데이터 전송을 위한 무료 도구(아래 섹션 참조)가 필요합니다. 또한 업로드 기관은 해당 파일을 무료 라이선스로 공개하려면 해당 파일의 저작권 소유자여야 합니다(이미 공개 도메인 저작물이 아닌 경우).

위키미디어 공용에 대한 자세한 내용은 다음 페이지를 참조하십시오:

공용 사용자 계정은 어떻게 생성하나요?

공용에 대한 사용자 계정은 여기(또는 공용 베타에 테스트 업로드하려면 [[1]])에서 생성할 수 있습니다. 이 계정은 위키백과 및 기타 여러 위키미디어 프로젝트에도 유효합니다. 편집하려는 기관의 모든 사람에 대해 별도의 계정을 만들고 "개인 이름(기관 이름)" 형식의 사용자 이름을 선택하는 것이 가장 좋습니다. 사용자 계정 생성에 대한 자세한 내용은 여기에서 확인할 수 있습니다.

일부 위키미디어 프로젝트는 귀하 기관의 여러 사람이 귀하 기관의 이름을 딴 단일 계정을 공유해도 괜찮습니다. 다른 사람들은 그렇지 않습니다. 특히 영어 위키백과에서는 각 계정을 한 사람만 사용하고 공유하지 않는다는 점을 매우 단호하게 규정하고 있습니다. 따라서 영어 위키백과를 편집할 계획이라면 기관의 각 개인이 별도의 계정을 갖는 것이 중요합니다.

그 후에는 계정을 확인하는 것이 좋습니다(투명성 및 안전상의 이유로 현재 독일어 위키백과 및 공용에서만 사용 가능). 기관/조직의 사용자 계정 확인에 대한 모든 정보는 여기(독일어), 공용은 여기에서 확인할 수 있습니다.

귀하의 사용자 페이지에서 귀하는 귀하와 귀하의 기관 및/또는 귀하가 제공한 미디어 파일을 소개할 수 있습니다(아래 "내 프로젝트를 어떻게 발표합니까?" 참조). 이해 상충이 있는 경우 이를 사용자 페이지에 공개해야 합니다. 특히, 위키미디어 편집에 대해 보상을 받는 경우, 귀하에게 보상을 제공하는 사람이 누구인지 사용자 페이지에 명시해야 합니다. 메타위키에 사용자 페이지를 생성하면 다른 모든 위키미디어 위키에 자동으로 복사됩니다. 사용자 페이지에 대한 추가 정보는 여기에 나열되어 있습니다.

GWToolset의 기술 요구 사항

어떤 업로드 도구를 사용해야 합니까?

단일 또는 여러 개의 파일을 업로드하려면 사용하기 쉬운 업로드마법사로 충분할 수 있습니다. 이미 웹에서 사용할 수 있는 단일 파일을 업로드하려면 URL2 공용이 매우 간단하고 유용한 도구임이 입증되었습니다.

더 많은 양의 데이터를 업로드하려면 VicuñaUploader 또는 Pattypan을 대신 사용하는 것이 좋습니다. 데이터 세트가 이미 온라인에서 사용 가능하고 단일 미디어 파일에 이미 개별 메타데이터가 있는 경우 GWToolset을 사용하여 데이터를 공용으로 전송할 수 있습니다. 이 두 프로그램에 대해서는 아래에서 자세히 설명하겠습니다.

Vicuna Uploader

"VicuñaUploader" 사용(오프라인에서 사용할 수 있는 데이터의 전체 폴더 업로드용)

VicuñaUploader에 대한 간략한 설명을 보려면 여기를 읽어보세요. VicuñaUploader 소프트웨어의 무료 다운로드영어 지침도 제공됩니다.

Vicuña를 사용한 파일 업로드 지침:

  • 파일 → 파일 읽기를 통해 업로드할 파일을 선택하세요.
  • 모든 파일을 업로드 대상으로 표시하려면 편집 → 모두 선택을 선택하세요.
  • 편집 → 선택한 파일 설명 편집으로 이동하십시오.
  • 이제 설명 아래에 {{en|Description Text in English}} 형식으로 설명 텍스트를 삽입할 수 있습니다.
  • 다른 언어로 된 설명은 선택적으로 가능합니다. {{de|Description Text in German}} {{fr|Description Text in French}}
  • 날짜 메뉴 항목에서는 날짜 템플릿을 사용하여 파일의 날짜를 지정할 수 있습니다.
  • 분류를 사용하면 파일을 특정 분류에 할당할 수 있습니다(카테고리 사용에 대한 자세한 내용은 아래를 참조하세요).
  • 도구 → 설정에서 저작권, 출처, 라이선스와 같은 추가 세부정보를 지정할 수 있습니다. 자유 텍스트 필드 라이선스에서 이중 중괄호 안에 프로젝트 또는 데이터 세트 템플릿을 입력할 수 있습니다(프로젝트 또는 데이터 세트 템플릿에 대한 자세한 내용은 아래를 참조하십시오).

"GWToolset" 사용(이미 온라인에서 사용 가능한 데이터 전송용)

자세한 내용은 공용:GLAMwiki_Toolset#안내를 참조하세요.

전제조건 및 준비사항

참고: GWToolset을 통해 업로드하려면 프로그래밍에 대한 기본 지식이 필요합니다.

  • 업로드는 먼저 공용 베타에서 테스트하는 것이 좋습니다. 이것이 성공하면 공용 자체에서 업로드를 반복할 수 있습니다.
  • GWToolset을 사용하여 온라인에서 사용 가능한 데이터를 공용으로 전송하려면 공용 사용자 계정에 특별한 사용자 권한이 필요합니다. 여기에서 요청하실 수 있습니다. 승인을 받으면 GWToolset에 접근하고 사용할 수 있습니다.
  • 다음 단계로 소스 데이터가 포함된 서버를 화이트리스트에 추가해야 합니다. 이는 파브리케이터의 이 링크를 통해 요청할 수 있습니다. 파브리케이터에 로그인하려면 공용 또는 위키백과 계정("로그인 또는 미디어위키 등록" 아래)을 사용할 수 있습니다. 요청이 승인될 때까지 약간의 시간(약 1주일)이 걸릴 수 있습니다. 보류 중인 문제와 관련하여 추가 질문이 있을 수 있으므로 요청이 있는 경우 수시로 파브리케이터에서 상태를 확인하는 것이 좋습니다.
  • 일부 서버(예: 사진 포털 플리커)는 이미 GWToolset에 허용 목록에 등록되어 있습니다. 파일이 플리커에 있는 경우 간단하고 설명이 필요 없는 flickr2commons 도구업로드마법사("URL로 업로드" 사용자 권한이 있는 경우)를 사용하여 플리커에서 직접 전송할 수도 있습니다. 하지만 참고하세요: 이 방법을 사용하면 플리커에 지정된 추가 정보(예: 이미지 설명)도 전송됩니다.

GWToolset을 통해 업로드하기 위한 XML 파일 만들기

GWToolset을 사용하여 업로드하려면 모든 이미지/파일에 대한 메타데이터가 포함된 플랫 XML 파일을 생성해야 합니다. 이러한 파일을 생성하는 방법과 이 프로세스에 대한 몇 가지 유용한 팁이 아래 단계에 설명되어 있습니다. 데이터 변환 및 처리를 위해서는 프로그래밍에 대한 기본 지식이 필요합니다. XML 파일을 생성하는 과정은 대략 5단계로 나눌 수 있습니다:

  1. 메타데이터 파일을 기계가 읽을 수 있는 형식으로 변환
  2. 파일을 데이터 구조로 가져오기
  3. 데이터 필드 사용자 정의
  4. 카테고리 데이터 필드 생성
  5. XML 파일 생성

1. 메타데이터 파일을 기계가 읽을 수 있는 형식으로 변환

각 사진에 대해 메타데이터 파일에는 최소한 파일 이름, 제목 및 이미지 URL이 포함되어야 합니다. 많은 문화 기관에서는 스프레드시트를 사용하여 메타데이터를 관리하므로 다음 단계에서 이를 예로 사용할 것입니다. JSON 및 XML과 같은 다른 형식도 널리 사용됩니다. 스프레드시트를 기계가 읽을 수 있는 형식으로 변환하는 가장 쉬운 방법은 CSV로 내보내는 것입니다. 이렇게 하려면 스프레드시트 프로그램에서 메타데이터 파일을 열고 프로그램의 내보내기 기능을 사용하여 CSV로 변환하세요.

2. 파일을 데이터 구조로 가져오기

다음 단계를 위해서는 Ruby, PHP, Perl 또는 파이썬과 같은 스크립팅 언어로 작성된 코드가 필요합니다. 아래 예제 코드는 Ruby로 작성되었습니다. 이것은 다음에 표시된 발췌 내용을 기반으로 한 작업 예제 프로그램입니다.

먼저 파일을 한 줄씩 읽어야 하며 데이터 필드는 적절한 데이터 구조(지도, 사전 등)로 전송되어야 합니다. CSV 파일에 '제목', 'URL', '설명', '분류', '생성 연도'라는 5개의 열이 있다고 가정해 보겠습니다. 이제 다음 코드 예제를 사용하여 추출할 수 있습니다:

metadata = []

CSV.read(file, col_sep: ';').each do |row|
 metadata << {
   title: row[0],
   url: row[1],
   description: row[2],
   categories: row[3],
   year: row[4]
 }
end

3. 데이터 필드 사용자 정의

주어진 메타데이터 파일의 일부 필드가 그대로(예: 정렬 패턴, 명명 규칙 등의 차이로 인해) 공용으로 전송되어서는 안 되는 경우가 종종 발생합니다. 이를 자동으로 조정할 수 있는 경우 원시 메타데이터를 처리하는 클래스를 만들 수 있습니다.

데이터 읽기:

class ImageMeta
 attr_reader :title, :url, :description

// creating instance variables from the fields hash
 def initialize(fields)
   fields.each { |field, value| instance_variable_set "@#{field}", value.strip unless value.nil? }
 end
end

해당 클래스 내에서 변경해야 하는 필드에 대한 메서드를 만들 수 있습니다. 위의 예에서 "창조 연도"는 다음과 같이 MediaWiki-date 템플릿으로 보완될 수 있습니다:

def year
 "{{Date|#{@year}}}"
end

다른 필드의 사용자 정의도 동일한 방식으로 작동합니다. 2단계에서 읽은 메타데이터에서 이제 정의된 클래스의 개체를 만들 수 있습니다.

metadata.map! { |fields| ImageMeta.new(fields) }

4. 분류 데이터 필드 생성

GWToolset을 통해 업로드된 이미지를 올바르게 분류하려면 각 분류가 메타데이터 파일의 별도 XML 태그에 있어야 합니다. 원시 분류 데이터를 분류 목록으로 변환하려면 먼저 CSV 파일에서 해당 데이터를 추출한 다음 각 분류에 투영해야 합니다. 예를 들어, CSV 파일의 열에서 분류가 쉼표로 구분된 경우 ImageMeta 클래스 분류는 다음과 같이 추출될 수 있습니다:

def raw_categories
 @categories.split(',').map(&:strip)
end

분류 전송의 유연성을 유지하기 위해 다음과 같은 클래스를 만들 수도 있습니다:

class CategoryMapping
 MAPPING = {
   'Radierung' => 'Etchings',
   'Lithografie' => 'Lithographs',
   'Aquatinta' => 'Aquatint',
   'Mappe' => 'Portfolios'
 }

def initialize(raw_categories)
   @raw_categories = raw_categories
 end

def mapped_categories
   return [] if @raw_categories.nil?

categories = []
   @raw_categories.each do |category|
     categories << MAPPING[category] if MAPPING[category]
   end

categories.uniq
 end
end

5. XML 파일 생성

이제 모든 데이터를 사용할 수 있으며 XML 파일을 만들 수 있습니다. GWToolset에서는 XML 요소의 이름을 임의로 지정할 수 있지만 이 도구에는 특정 XML 구조가 필요합니다. 루트 요소에는 각 이미지에 대한 XML 요소가 포함되어 있으며, 여기에는 메타데이터가 포함되어 있습니다. 그러나 이미지 요소 내에서는 더 이상의 중첩이 허용되지 않습니다.

이 예의 XML 구조는 다음과 같습니다:

builder = Nokogiri::XML::Builder.new(encoding: 'UTF-8') do
 images do
   metadata.each do |image|
     image do
       title image.title
       description image.description
       year image.year
       imageUrl image.url

mapping = CategoryMapping.new(image.raw_categories)
       mapping.mapped_categories.each_with_index do |category, i|
         send "category#{i}", category
       end
     end
   end
 end
end

builder.to_xml

이후에 builder.to_xml의 출력을 파일에 쓸 수 있으므로 GWToolset 업로드를 위한 XML 파일이 완료됩니다.

전송 프로세스 시작

메타 데이터 검출
메타 데이터 분류
일괄 미리보기

특정 단계와 해당 입력 필드에 대한 세부 정보는 다음 스크린캐스트에서 설명합니다.

  • GWToolset을 시작합니다. "https://commons.wikimedia.org/ → 특수 페이지 → GWToolset"에서도 찾을 수 있습니다.
  • 메타데이터 감지에 대한 요청 입력을 입력하고 "→ 제출"로 이동합니다.
  • 메타데이터 매핑에 대한 요청 입력을 입력하고 "→ 일괄 미리보기"로 이동합니다. "'중요": 범주 사용의 경우 먼저 아래의 "공용에서 데이터를 구성하고 분류하는 방법?" 섹션을 읽어보세요.
  • 미리보기를 확인하세요. 이후 공용에 파일을 예치하는 순서와 일치하는 경우 "프로세스 스택"을 클릭하여 전송을 시작합니다.

GWToolset을 통해 전송 요청이 전송되면 브라우저 창을 닫고 컴퓨터를 끌 수 있습니다. 백그라운드에서 서버 간에 전송이 진행됩니다. 파일은 새 파일 목록과 업로드 중에 제공한 분류/분류에 점차적으로 표시되어야 합니다.

업로드 후 데이터를 어떻게 제시할 수 있나요?

새로 업로드한 컬렉션을 소개하고, 위키미디어 프로젝트의 자원봉사 커뮤니티에 연락하는 것이 좋습니다. 데이터 세트에 대한 프로젝트 페이지를 만들 수 있습니다. 해당 페이지에서 업로드한 컬렉션, 프로젝트 또는 데이터가 제공된 맥락의 협력을 소개할 수 있습니다. 이렇게 할 때 공용이 아닌 것이 무엇인지 명심하세요!

일반적으로 프로젝트 페이지는 갤러리로 만들어지며, 그런 다음 자유롭게 디자인할 수 있습니다. 이를 수행하는 방법에 대한 설명은 여기에서 찾을 수 있습니다.

기존 프로젝트 페이지의 몇 가지 예:

공용에서 데이터를 어떻게 구성하고 분류하나요?

카테고리 구조는 공용에서 파일을 구성하고 제대로 찾을 수 있도록 하는 데 선호되는 방법입니다. 각 파일은 분류 구조에서 찾을 수 있어야 합니다. 이를 보장하기 위해 각 파일은 카테고리에 직접 할당되거나 갤러리 페이지에 나타나야 하며, 갤러리 페이지는 카테고리화됩니다. 각 분류 자체는 계층적 구조(가족 트리와 유사)가 생성되도록 카테고리화되어야 합니다.

이 작업이 어떻게 자세히 수행되는지는 다음 에서 볼 수 있습니다.

이미지의 실제 모티프에서 범주를 선택하는 것 외에도, 이전에 다른 많은 기관이나 협력 기관에서 했던 것처럼 업로드하는 기관의 유형별로 각 파일을 추가적으로 분류하는 것이 종종 권장됩니다.

예를 들어, 각 파일에 템플릿을 추가하여 이를 처리할 수 있습니다. 템플릿에는 카테고리 정보 외에도 업로드 기관에 대한 추가 정보가 포함됩니다(아래 "데이터 세트 템플릿/프로젝트 템플릿 사용" 참조).

데이터 세트 템플릿/ 프로젝트 템플릿 사용

데이터 세트 템플릿이란 무엇인가요?

소위 "데이터 세트 템플릿"은 개별 미디어 파일의 설명 페이지에 포함될 수 있습니다. 여기에는 기관에 대한 간략한 설명과 해당 파일이 속한 데이터 세트에 대한 설명이 포함됩니다. 또한 프로젝트 템플릿으로 파일을 분류하여 특정 데이터 세트 또는 업로드 기관의 다른 모든 파일을 찾을 수 있습니다. 템플릿 및 미디어위키에 대한 자세한 정보는 여기에서 확인하세요.

내 프로젝트나 공용 파트너십을 위한 템플릿은 어떻게 만들 수 있나요?

이 페이지에서는 공동 공용 파트너십을 위한 템플릿의 예를 찾을 수 있습니다. 템플릿을 만드는 데 도움이 필요하면 위키프로젝트 템플릿에 연락하여 새 요청을 할 수 있습니다.

실제 프로젝트 템플릿에 포함된 정보는 다음과 같이 별도로 설정해야 하는 다른 템플릿에서 가져옵니다:

Template:기관명-source

→ 하위 템플릿의 정보가 매핑되는 메인 템플릿. 또한, 이 템플릿을 사용하는 모든 파일이 할당되는 범주가 정의됩니다.

Template:기관명-source/layout

→ 레이아웃을 정의합니다. 예를 들어, 여기서 로고를 삽입하고 텍스트 배치를 정의할 수 있습니다.

Template:기관명-source/lang

→ 기존 언어 버전에서 설명 텍스트를 제공합니다.

Template:기관명-source/en

→ 영어로 된 설명 텍스트가 포함되어 있습니다

Template:기관명-source/de

→ 독일어 설명 텍스트가 포함되어 있습니다

추가 언어에 대한 템플릿을 만들고 "Template:기관명-source/lang"에 링크하는 것을 적극 권장합니다.

"베를린 기술경제대학교"(응용 과학 대학)과의 파트너십을 위한 템플릿의 각 구성 요소에 대한 예:

"편집" 버튼을 클릭하면 각 템플릿의 소스 코드를 보고 복사할 수 있습니다.

템플릿을 파일에 통합하는 방법

파일에 템플릿을 추가하려면 다음 코드를 파일 설명 페이지에 삽입하세요. 일반적으로 라이선스에 대한 문단 바로 아래에 삽입합니다. {{template name}}

위에 설명된 업로드 도구 중 하나를 사용할 때 코드가 삽입되는 위치는 다양합니다. 자세한 내용은 도구 설명(위 참조)을 참조하세요.

추가 템플릿

일반적으로 공용과 기관의 전담 협력을 의미하는 프로젝트 템플릿 외에도, 기관을 위한 특정 귀가의 기관 템플릿을 만들 수도 있습니다. 이 템플릿은 파일 설명 페이지에 추가할 수 있으며, 예를 들어 위치, 설립 날짜 또는 기관 웹사이트와 같은 추가 세부 정보를 포함할 수 있습니다.

추가 지원은 어디에서 받을 수 있나요?

"Medienschatz" 또는 "GLAM"(갤러리, 도서관, 기록 보관소 및 박물관)과 같은 프로그램과 프로젝트를 통해 위키미디어 독일은 자원봉사자와 기관이 저장된 데이터를 공개하고 전송하도록 지원하고 이를 연결하는 데 도움을 줍니다.

문의사항이 있으시면 다음 주소로 문의해주세요:

  • community@wikimedia.de(자원봉사자용)
  • glam@wikimedia.de(문화 기관용)

GWToolset에 대한 질문이 있으면 전담 메일링 목록에서 도움을 받을 수 있습니다.

같이 보기

다른 매뉴얼

관련 패턴

외부 링크

References