Jump to content

Mix'n'match/Manual

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Mix'n'match/Manual and the translation is 77% complete.

Mix'n'match (ミクスンマッチ、原義は様々なものを取っかえ引っかえして良い組み合わせを見出すこと) はMagnus Manske作のツールで、外部ソースに由来する話題の一覧を数多く含んでいて、それをWikidata の項目とマッチさせることで、Wikidataに既にある項目か未登録のものかを識別できるようにするものです - 「ステロイドにおける赤リンク一覧についてをご参照ください 。」

現在2,500 件以上のカタログがあり、たとえばオックスフォード英国人名事典Oxford Dictionary of National Biography (完了)、オーストラリア人名事典Australian Dictionary of Biography (完了)、国立肖像画美術館の収蔵品台帳National Portrait Gallery (52.5% 照合済み) などがあります。

この方法で照合すると、特定の言語版のウィキペディアで未掲載の項目、あるいは特定の話題を最もよく網羅した言語版など検討しやすくなります。

動作の仕組み

Mix'n'match では項目を次の5つに分類します。

あるカタログの照合状況のサンプル。
  1. 照合完了(従来の手動で照合): 利用者がカタログ中の項目をウィキデータの項目と照合した (ウィキデータからインポートした項目もここに含まれる)。
  2. 暫定的に照合(従来の自動で照合): システムがウィキデータの項目に対応する1または複数の項目を推定したが、人間の目で確認が必要。
  3. ウィキデータになし(非推奨): カタログ中の項目と対応するウィキデータの項目が存在しない。
  4. ウィキデータに該当しない (N/A): この項目はウィキデータには無関係だとマークされた (たとえば重複項目であるとか、プレースホルダやリダイレクトか、不適切な話題か。)
  5. 未照合: この項目は照合されておらず、自動処理による提案もされていない。

目的はもちろん、可能な限り多くの掲載内容を手動で照合してマーク (あるいはウィキデータと一致する可能性がないことを確認) することです。このツールを使用するには必ずウィキメディアプロジェクトにアカウントを登録し、WiDaRツールを認証します。

Mix'n'matchを開くと、カタログの一覧が表示されます(特定のカタログを選ぶこともできます)。その後以下のことができます:

  • ヘッダバーにある検索ボックスを使って特定の名前を検索する。これにより検索結果ページに移行します。
    • 検索結果のリストの使い方については後述の一覧モードを参照してください。
    • 検索結果ページにおいて、検索を特定のカタログだけに限定することもできます。
    • Qidを検索することもできます。その項目に対応づけられているすべてのエントリが表示されます。外部IDの検索には対応していません。
    • 検索結果ページに、特定の名前に一致する全てのエントリが含まれることは保証されません。とくに、検索結果が多い場合には一覧が途中で切り捨てされるでしょう。
  • 特定のカタログを選び、カタログページに移行します。

カタログページでは、5分類それぞれの項目数と、照合数の履歴を見ることができます。5分類のどれかをクリックすると、リストモードに移行します。また"Action"メニューがあり以下が含まれています:

  • Fully matched, Preliminarily matched, Unmatched, No Wikidata, Not applicable to Wikidata – links to List mode for all entries in this specific category.
  • Multiple matches – links to List mode for all preliminarily matched entries with multiple automatically-suggested matches.
  • Site stats
  • Download
  • Match mode - see below.
  • Recent Changes in this catalog
  • Aliases
  • Jobs
  • Search only in this catalog
  • Names in other catalogs
  • Manually sync catalog
  • Catalog editor
  • Mobile matching
  • Visual tool
  • Find images
  • Changes last week
  • Catalog report

照合モード

ゲームモードのサンプル

照合モード(従来は半自動モードあるいはゲームモードと呼ばれていた)を選択すると、ページ最上部にカタログの識別子 (Catalog ID) と題名 (Catalog Name)、そしておそらくはそのカタログから提供された簡単な説明 (Catalog description) が表示されます。カタログの種別や誰が対象か知る手がかりです。

エントリが未照合の場合、選択肢は3つです。

  • Set Q (青色のボタン): カタログと突合せてウィキデータのどの項目と照合するか識別後、この欄にウィキデータの当該のページの Q番号を記入[1]
  • New item (緑色のボタン): ウィキデータに該当する項目がないと確証がある場合。エントリに対応する新規のWikidata項目が作成されます。
  • N/A (赤色のボタン): この項目に該当する正規のウィキデータ項目は成立しない場合。The description of newly created item may be inappropriate for Wikidata and may be improved manually

疑わしいもしくは確証がない場合、あるいは対応するWikidata項目がないけれども今すぐ項目を作成したくない場合は、"Next entry"をクリックすることでスキップして次の項目へ進むことができます。

エントリが暫定的に照合の場合には、選択肢は2つです。

  • Confirmed(緑色のボタン): 提案された項目は正しいと確認する。
  • Remove(赤色のボタン): 提案された項目は正しくないと確認する。このエントリは未照合となり、別の(おそらく新規の)項目と対応付けできるようになります。

自動的に提案された候補が複数ある場合には、表示され"Confirmed"をクリックしたときに使われるのは、そのうち最初のものだけです。項目名の右にあるリンクを使って、その他の候補を見たり選択したりすることができます。

画面をさらに下にたどると英語版ウィキペディアへのお勧めリンクや、Wikidataの項目へのリンクがあります。適切な項目が存在する場合、右側のリンク (例えば「Q384941」) をクリックするだけで項目の一致を登録できます。提案された項目が適合しない場合でも、Google検索でウィキペディアやウィキソースのすべての言語版、またはウィキデータを調べることができます。

カタログの掲載内容とウィキデータの項目を結びつけるたび、システムによってウィキデータが自動更新されます。これは投稿記録欄に編集として表示されます。

(Mix'n'matchの掲載内容のなかにはプロパティが未設定のものがある可能性にご注意ください - そういうものを対象に作業する場合、項目の適合は先に保存され、後で必要に応じて更新されます)

一覧モード

手動モードのサンプル

エントリの一覧は以下の時に表示されます:

  • カタログページで特定の(たとえば「未照合」)カテゴリをクリックした場合 - そのカテゴリの全エントリがページ当たり50件表示されます。
  • 検索結果ページを見ている場合

従来は手動モードと呼ばれ、全カテゴリを通して50件が表示されていました。このモードは削除されました。

一覧の最初の行には、エントリの名前と(もしあれば)説明が表示されます。またそれぞれのエントリの状態が表示されます。

未照合

候補が提案されていない項目では、2行目に自動検索リンクとしてウィキペディア、ウィキデータもしくはGoogle (検索対象を前者2件に限定) の3件と、項目の新規作成のリンクが表示されます。右側の列には、次の3つの選択肢があります。

  1. Set Q (緑色のリンク):これをクリックするとウィキデータの項目番号の入力用ダイアログボックスが表示されます (項目番号の先頭にQがあってもなくてもかまいません)。
  2. New item (赤色のリンク): これをクリックすると対応する新規のウィキデータ項目を作成し、自動的に項目名と説明 (存在する場合) そしてカタログ中でのIDを記入します。
  3. N/A (黄色いリンク): これをクリックするとその項目をウィキデータに含めてはいけない ことを示し、項目を廃止します。

もしウィキデータの項目番号を入力した場合は、システムが対応するウィキデータの入力を WiDaR 経由で更新し、その流れは照合モードと同様です。

暫定的に照合

自動的に提案された候補がある場合、2行目にウィキデータへのリンクと、自動生成したウィキデータの項目内容のまとめが配置されます。右列には次の3つの選択肢が現われます。

  1. 確認 (緑色のリンク): 提案内容が正しい場合には、これをクリックして確認します。
  2. 除去(赤色のリンク): 提案された項目は正しくないと確認する。このエントリは未照合となり、別の(おそらく新規の)項目と対応付けできるようになります。

ほかの候補の一覧がある場合もあります。

前述のとおり利用者が照合を確認すると、システムが WiDaR 経由でウィキデータに必要な編集を行います。

照合済

すでに照合済みの項目は、2行目にウィキデータへのリンクと自動生成したウィキデータの登録内容のまとめが表示されるか、"Not applicable to Wikidata"と表示されます。

右側の列に項目を作成した利用者の名前と並んで、赤字で「除去」リンクが表示されます。このリンクは他の人が作成した組み合わせが誤りだと確信する場合に限定して使用します。組み合わせが適切なら、そのままにして次に進みます。

照合した場合にはウィキデータの項目が更新されますが、照合を除去した場合には (現状では) 更新されない点に注意してください。もし項目から照合を除去する場合は、そのウィキデータ項目を新しいタブで開き該当するプロパティも削除するほうが良いでしょう - そうしないと、将来的に mix'n'match に再登場する可能性があります。

新規作成の候補

各種カタログにはウィキデータに (まだ) 未登録の掲載内容が多数あります。なかにはウィキデータ項目の条件に適合しないものもあるものの、複数のカタログに掲載され外部の典拠もあり、「特筆性」の後付があるものもあります。新規項目作成候補用ツールCreation candidatesを使うと、複数 (最低3件) のカタログで同名の掲載内容があるのにウィキデータと一致しない項目が検出できます。

新規項目の候補のサンプル。

掲載内容一覧には通常の検索オプションが設定され、既にウィキデータに登録された項目と重複しないよう配慮されています。するとラベル名 (英語) が自動入力され、ウィキデータの新規項目を登録できます。その後、Set Q (Q番号設定) を使うとその新規項目と適合する掲載内容を照合できます。またそのラベル名でコモンズを検索してください。その人物の画像がすでに登録されている場合があります!

注意点: これらの掲載内容に同名が記述してあるという理由だけで、すべてが同じエンティティを参照するわけではありません。個々のカタログを慎重に検証してください!

照合のコツ

掲載内容をウィキデータの項目と照合するには、次のヒントに留意します。

  • 推測はだめ: 推測が混じるとデータにエラーが発生します。疑わしい場合は、カタログ項目からリンクをたどり項目の下部に記されたその他のカタログを参照するか、または他の情報 (座標位置など) を確認します。掲載内容との照合はいつでも中断し、他の人に作業を代わってもらうことができますし、もっと知識のある分野の別のカタログの照合に移行することもできます。
  • 新規項目の作成は大胆に: もし概念が異なるなら、新規項目を作成してください。照合が終わってから重複項目を結合するほうが、1件の項目を2件にわけるよりも数段も手間がかからないからです。たとえば、特定の都市にある「世界遺産」は多くの場合、市域全体が指定範囲には当該しないため、項目を新規に作成する必要があります。
  • 曖昧さ回避項目と照合しない: ウィキデータには、ウィキペディアの曖昧さ回避ページの項目が登録されています。リンク集として機能するためであり、照合に適した概念ではありません。たとえばBambaia (Q4853316)とは照合してはいけないし、Agostino Busti (Q395600)は照合の対象です。
  • 曖昧さ回避の項目と照合しない:一部の典拠データベースには曖昧さ回避または別名ページがあります。
    • 例えば以前、RKD(オランダ国立美術研究所)美術家カタログの「Bambaia」(バンバイア) の項目はウィキデータに誤ってマッピングされていました。(現在は修正済み、RKD BambaiaRKD Augustino Bustiにリダイレクト。)
    • 統合典拠ファイル (GND) の「未識別の名称」と照合しない
  • 自動照合を確認する: 多くの場合、自動照合は性格ですが、同名の項目間で混乱が発生する可能性はあります。
  • 「なし」という状態とはどんな条件でもウィキデータに掲載できない掲載内容、もしくは同じカタログに重複する項目があることを示します。
  • Use the 'jobs' option: The 'action' drop-down menu on any catalogue has a 'jobs' option. This gives you a list of tasks that will help with matching. For example, 'auxiliary matcher' will check the dataset for additional identifiers such as VIAF IDs and check them against existing records in Wikidata. If the automatching process has thrown up a lot of low-quality matches, there is the option to 'purge automatches'.

カタログリストの並べ替え

カタログリストは既定ではABC順に並んでいます。sort_mode パラメータを使い、キーワードを1件以上入れると並べ方が変わります。

  • sort_mode=groups によりカタログを種別・主題ごとにグループ分けし、グループは点数の多い順に、同一グループ内はABC順に並べます。照合が完了したカタログは、一覧の末尾にまとめます。
  • sort_mode=groups,by_easiest は上記と働きが同様で、処理は「最も簡単」 (#auto-matched+2*#unmatched) 。
  • sort_mode=by_easiest,no_complete はグループ化をしないで並べ替えのみ実施することから処理が「最も簡単」に終わり、作業が完了したカタログは非表示にします。(既定で「最も簡単」に指定)
  • sort_mode=groups,complete_inline はグループ化をして、作業を完了したカタログはそれぞれの主題ごとに分類します。

もし使い慣れたカタログの名前が「載っていない」、あるいは分類先が間違っている場合は、Magnus Manske (会話) にご一報ください。

新しいカタログを作成

新規カタログを作成し、対応関係の候補一覧 (表組みソフトから転写するのが最適) もしくはスクリプトの作成によって、対応関係の候補を自動的に取得することができます。あるいはまた、Magnus Manske (会話) に依頼して、特定のカタログのインポートをしてもらいます。

コツ

  • ウィキデータのプロパティ欄 (Wikidata property) は外部識別子に対応するプロパティがある場合に使います。入力内容の推薦はWikidata:Property proposalで協議してください。
  • 項目の説明欄 (Entry description) は多くの人がカタログを照合する役に立つよう、できるだけ細かい説明を書き込むと、やがては一致エラーを減らしてデータの品質向上に役立ちます。
  • You can add aliases to items to help with the matching process. To import aliases, go to the catalogue and use the drop down 'action' menu in the top right. The 'aliases' option takes you to a page where you can import alternative labels for entries in the mix'n'match dataset. It will need to be in a tab separated format, and will use the dataset's external IDs for matching.

Managing catalogs

There is a catalog editor, accessible at mix-n-match/#/catalog_editor/<id> for the catalog creator and a subset of users (“catalog editors”). There it is possible to change some of the catalog properties (name, description, URL, type, language and Wikidata property) and to disable a catalog.

Scraper-based catalogs can be updated by following the catalog creation process, and entering an existing ”Catalog ID”.

参考文献

  1. 接頭辞Qのあるなしは問わず、「Q123」「123」のどちらでも記入できます。またQ番号さえ正しければ、カッコやカンマなど他の文字を入力しても正しく処理します。

外部リンク