Jump to content

PetScan

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page PetScan and the translation is 100% complete.
Coolest Tool Award 2022 logo
PetScan

2022 Coolest Tool
Award Winner

in the category
Reusable

PetScan ist ein mächtiges Abfragewerkzeug. Eine Abfrage wird im PetScan-Formular erstellt. Sieh Dir auch die Grundgedanken zu diesem Werkzeug an.

Einleitung

PetScan ist ein Werkzeug, das es Benutzern ermöglicht, Daten zu extrahieren, Listen von Wikipedia-Seiten (und verwandten Projekten) oder Wikidata-Datenobjekten zu erzeugen, die bestimmten Kriterien entsprechen, wie beispielsweise alle Seiten einer bestimmten Kategorie oder alle Datenobjekte mit einer bestimmten Eigenschaft, und Daten aus Wikimedia-Projekten zu extrahieren und zu analysieren. PetScan kann auch einige temporäre Listen (hier "Quellen" genannt) auf verschiedene Arten kombinieren, um eine neue zu erzeugen. Quellen sind:

Seiten von Wiki(m/p)edia

Diese werden über die Kategorien-, Seiteneigenschaften- und Vorlagen & Verknüpfungen-Reiter ausgewählt. Du kannst Seiten aus Kategoriebäumen, mit bestimmten Vorlagen oder Verknüpfungen von/zu bestimmten Seiten anfragen; Deine Ergebnisse auf einen bestimmten Namensraum, Bot-/menschliche Bearbeitungen, kürzliche Bearbeitungen/Seitenerstellungen begrenzen, usw. Diese drei Reiter repräsentieren die frühere CatScan2-Funktionalität. Ihr Abfrageergebnis wird nachfolgend als "Kategoriequelle" gespeichert.

Andere Quellen

In diesem Reiter kannst Du weitere Quellen hinzufügen, wie Wikidata-SPARQL-(WDQS)-Abfragen oder PagePile-Listen. Du kannst auch festlegen, wie die unterschiedlichen Quellen kombiert werden sollen. Standardmäßig wird die Schnittmenge (das sind nur die Seiten, die in allen Quellen auftauchen) im Ergebnis zurückgegeben. Du kannst auch angeben, auf welches Wiki Deine Liste zeigen soll, z.B. wenn Du Wikipedia- und Wikidata-Ergebnisse kombinieren möchtest.

Wikidata

In diesem Reiter kannst Du Deine Ergebnisse weitergehend kommentieren oder "filtern", z.B. nur Wikidata-Datenobjekte zurückgeben lassen, die keine Aussagen enthalten. Die Verwendung eines dieser Filter wird Deine Liste in Wikidata konvertieren.

Ausgabe

Hier kannst Du Einstellungen für Deine Liste anpassen, z.B. das Format (Web-Seite, Wiki, PagePile, usw.). Du kannst Deine Ergebnisse auch noch weitergehend filtern, z.B. mit regulären Ausdrücken die Seitentitel/Objektbezeichnungen. Du kannst auch die Ergebnisliste mit einer sortierten Liste fehlender Themen ("Rote Verweise") ersetzen.

Deine Abfrage definieren

Die im Abfrageformular ausfüllbaren Felder sind wie folgt:

Feld Bedeutung Voreinstellung Hinweis
Sprache Wähle einen Projekt-Sprachcode aus, z. B. "en" für Englisch oder "de" für Deutsch. Wähle "commons" für Wikimedia Commons aus. "en"
Projekt Das zu durchsuchende Wikimedia-Projekt (wikipedia, wiktionary, wikiversity, usw.) "wikipedia" NOTE: If you choose "Commons," be sure to go to the "Page properties" tab and check the "File" namespace to get useful results.
Tiefe Suchtiefe im Kategoerienbaum. 0 bedeutet, dass keine Unterkategorien berücksichtigt werden. "0"
Kategorien Liste der Kategorien, eine pro Zeile ohne den "Kategorie:"-Teil Leer Das Anhängen von '|' und einer Zahl setzt die Suchtiefe für diesen Kategoriebaum und überschreibt, was im Feld Tiefe ausgewählt wurde. Durch Angabe einer Kategorie kannst du die Suchergebnisse eingrenzen und dich auf Seiten fokussieren, die sich auf ein bestimmtes Thema beziehen.
Auzuschließende Kategorien Liste von Kategorien wie oben. Nur Artikel, die nicht zu diesen Kategorien gehören, werden berücksichtigt. Leer
Kombination Wie zuvor aufgeführte Kategorien zu verwenden sind:
  • Kategorienliste: Listet Unterkategorien
  • Schnittmenge: Alle Seiten, die in allen Kategoriebäumen vorkommen
  • Vereinigung: Alle Seiten, die mindestens in einem Kategoriebaum vorkommen
  • Differenz: Alle Seiten, die nur in einem der Kategoriebäume vorkommen
  • Mindestens (N): Alle Seiten, die in mindestens N Kategoriebäumen vorkommen

Gegenwärtig verfügbare Optionen sind "Schnittmenge" oder "Vereinigung".

"Teilmenge"
Namensräume Die Namensräume, die als potentielle Seiten in Betracht kommen Artikel
Weiterleitungen Beides
Vorlagen Verwende nur Seiten, die
  • Feld 1: alle genannten Vorlagen verwenden
  • Feld 2: eine der genannten Vorlagen verwenden
  • Feld 3: keine der genannten Vorlagen verwenden

Gibt eine Vorlage pro Zeile ohne den "Vorlage:"-Teil ein. Jedes Feld kann durch die Auswahl von "Verwende Diskussionsseite stattdessen" qualifiziert werden

Leer Diese Option scheint nur zusammen mit Vorlagen aus dem Namensraum "Vorlage:" zu funktionieren. Sie kann nicht zusammen mit Vorlagen aus dem Namensraum "Benutzer:" genutzt werden. Sie kann nicht in den Namensräumen "Creator:" oder "Institution:" genutzt werden, die in Wikimedia Commons Verwendung finden.
Verknüpft von:
Letzte Bearbeitung Zeigt Seiten, deren letzte Beabeitung von einem Bot oder anonymen Benutzer vorgenommen oder nicht vorgenommen wurde oder markiert ist Beides, beides, beides
Letzte Änderung Datum oder Zeitraum der letzten Änderung der Seite im Format YYYYMMDDHHMMSS (kürzeres erlaubt) "Nur Seiten, die während des obigen Zeitfensters erstellt wurden" erlaubt Dir stattdessen nach Erste Änderung zu suchen
Größe Dateigröße oder Größenbereich in Bytes Leer Erlaubt die Auswahl von Artikeln, deren Dateien größer als ein Grenzwert und/oder kleiner als ein anderer Grenzwert sind
Verknüpfungen Anzahl oder -bereich der internen Verweise auf der Seite Leer Erlaubt die Auswahl von Artikeln mit vielen oder wenigen Verknüpfungen
Rote Verweise
Hauptkategorien Funktion, die bisher nicht verfügbar ist.
Sortieren Funktion, die bisher nicht verfügbar ist und die Sortierregeln für die Ausgabe bestimmt.
Manuelle Liste Erlaubt es, eine Liste von Seitennamen oder Wikidata-Datenobjekten (mit vorangestelltem Namensraum) von einem bestimmten Projekt anzugeben Der knifflige Teil ist es, die Projekte richtig anzugeben:
  • Englische Wikipedia: enwiki
  • Deutsche Wikisource: dewikisource oder dewikisourcewiki
  • Griechisches Wiktionary: elwiktionarywiki
  • Englische Wikinews: enwikinews
  • Wikidata: wikidatawiki
Wikidata Hole Wikidata-Daten, falls möglich.
Format Ausgabeformate der Suchergebnisse:
HTML : Web-Seiten
CSV  : Werte ​​in Anführungszeichen, getrennt durch Kommata
TSV : Tabulator-getrennte Werte
WIKI : als Wikitabelle
PHP : als PHP-Datei
XML : als XML-Datei
Los geht's! Klicke hier, um die von Dir definierte Abfrage zu starten.

Hintergrundwissen

PetScan-ID (PSID)

Mit Stand vom 4. April 2016 wird jede Abfrage, die in PetScan ausgeführt wird (anonym!) aufgezeichnet und ihr wird ein einzigartiger, stabiler, numerischer Identifikator zugeordnet, die PSID. Du kannst die PSID nutzen, um

  • diese PetScan-Abfrage als Eingabe für andere Werkzeuge, die PSID unterstützen (wie WD-FIST), auszuführen
  • eine "Kurz-URL" zu verwenden: https://petscan.wmflabs.org/?psid=PSID wird die Abfrage mit PSID ausführen und alle Einstellungen berücksichtigen
  • eine vorherige Abfrage zu erweitern, indem du Parameter "überschreibst": https://petscan.wmflabs.org/?format=wiki&psid=PSID wird die gleiche Abfrage wie zuvor ausführen, jedoch wird als Ausgabeformat Wikitext verwendet (statt des Standards HTML oder was auch immer ursprünglich ausgewählt wurde).

Hinweise:

  • Es wird nur die Abfrage gespeichert, nicht ihre Ergebnisse!
  • Große Abfragen (z.B. mit vielen händisch angegebenen Objekten) werden nicht gespeichert. In diesem Fall wird keine PSID angezeigt.
  • Ergebnisse mit einer leeren Überprüfungsbox haben mögliche Treffer innerhalb des Wikidata-Sets.
  • Der Interwikilink petscan: kann genutzt werden, um Kurzlinks für dauerhafte Abfragen zu erstellen, z.B. [[petscan:PSID]]
  • Aufgezeichnete Abfragen werden nicht entdupliziert, sodass jedes Mal eine neue PSID generiert wird, es sei denn eine vorhandene PSID wird ohne Veränderungen angerufen.

Erstelle Wikidata-Datenobjekte für Wikipedia-Artikel die noch keine haben (Erstellerfunktionalität)

  • Setze eine Anfrage auf, die eine Liste von Wikipedia-Seiten (oder Seiten aus einem anderen Nicht-Wikidata-Projekt) ausgibt oder Füge eine Liste in "Andere Quellen/Manuelle Liste" ein
  • Unter dem Reiter "Seiteneigenschaften" solltest du "Redirects=No" auswählen Dies geschieht nun automatisch; du kannst das zurück ändern, wenn du wirklich Weiterleitungen in deiner Liste haben möchtest!
  • Wähle unter dem Reiter "Wikidata" "Nur Seite ohne Datenobjekt" für die Option "Wikidata" aus
  • Führe die Abfrage aus
  • Deine Ergebnisse werden neben der Überschrift "Ergebnisse" weitere Elemente besitzen (es sei denn, du bist nicht bei WiDaR angemeldet, in diesem Fall wirst du einen entsprechenden Link sehen)
  • Alle Seiten, bei denen es keine exakte Übereinstimmung mit einer Bezeichnung oder einem Alias in Wikidata gibt, werden standardmäßig ausgewählt.
  • Sofern dies erforderlich ist, kannst du nun manuell Kästchen ankreuzen oder bei ihnen das Kreuz entfernen.
  • Du kannst in das Feld für Aussagen Standard-Aussagen einfügen, die zu allen deinen neuen Datenobjekten hinzugefügt werden. Falls du nur Datenobjekte für Personen erstellst, füge P31:Q5 hinzu. Du kannst so mehrere Aussagen hinzufügen (eine je Zeile). Beachte, dass P/Q großgeschrieben werden müssen – ansonsten funktioniert der Befehl nicht.
  • Du kannst Standard-Beschreibungen zu neuen Datenobjekten hinzufügen, wie Dde:"some description" für eine deutsche Beschreibung.
  • Klicke auf die grüne Schaltfläche "QS starten". Dadurch wird eine neue Seite geöffnet.
  • Du kannst auf "Start" klicken, um einen Stapel in deinem Browser laufen zu lassen oder auf "Start (im Hintergrund)", um ihn von einem Wikimedia-Server aus auszuführen. Siehe Hilfe:QuickStatements für weitere Informationen.


Hinzufügen/Entfernen von Aussagen zu Wikidata-Datenobjekten

Es ist möglich mit PetScan Aussagen zu Wikidata-Datenobjekte hinzuzufügen oder von ihnen zu entfernen. Dafür ist es entscheidend, dass Du "Wikidata" in "Andere Quellen -> Verwende Wiki" auswählst. Dann wirst Du ein Befehlsfeld neben der Zahl sehen und kannst wie im vorigen Abschnitt beschrieben fortfahren.

Weiterleiter

(nur in V2) Wenn du PetScan von einem anderen Werkzeug aus öffnest, dass den Benutzer eine Abfrage erstellen lässt, kannst du die Parameter referrer_url und referrer_name (standardmäßig referrer_url) übergeben. Die referrer_url sollte eine {PSID}-Zeichenkette enthalten, die durch die PSID ersetzt wird, die der Benutzer sieht. Nachdem eine Abfrage ausgeführt wurde, verweist eine Box oben auf der Seite den Benutzer zurück auf das ursprüngliche Werkzeug, wofür die mit der PSID modifizierte referrer_url verwendet wird.

Beispiele

Artikel in einem Wiki-Projekt

Eine Anfrage von der Diskussionsseite dieses Handbuchs: Finde alle Artikel aus dem Hauptnamensraum innerhalb des "WikiProject UK geography". Füge einfach ausgehend von einem Standard-PetScan-Eingabeformular "WikiProject UK geography" zur ersten Box der Vorlagen-Zeile hinzu und wähle darunter "Stattdessen Diskussionsseiten nutzen" aus. Hier ist die Abfrage ausgefüllt. Klicke auf "Ausführen!" unten. Bei der Ausführung am 16. August 2015 benötigte die Abfrage 1,5 Sekunden und ergab eine Liste von 21.408 Artikeln. Die Liste erscheint UNTER dem Eingabeformular (das auf deinem Bildschirm bleibt), sodass du herunterscrollen musst, um die Ergebnisse zu sehen.

Autoren, die an Begriffsklärungen arbeiten, versuchen, Seiten innerhalb eines Inhaltsbereichs eines WikiProjekts, hier des WikiProjekts Kanada, zu erhalten, um zu helfen. Ein PetScan-Bericht wurde entwickelt, um alle Artikel mit Links auf Begriffsklärungsseiten zu finden, die sich innerhalb des angegebenen WikiProjekts befinden. Angewendete Kriterien:

  1. Artikel mit Links auf Begriffsklärungsseiten befinden sich in der "Category:All articles with links needing disambiguation", füge also "All articles with links needing disambiguation" in das Feld PetScan-Kategorien ein.
  2. Die Tiefe wird willkürlich auf 9 gesetzt, was bedeutet, dass Artikel bis zu 9 Unterkategorien unterhalb der übergeordneten Kategorie "Begriffsklärung erforderlich" gefunden werden. (In dieser Tiefe zu suchen ist in diesem Fall nicht notwendig, schadet aber nicht.)
  3. Artikel innerhalb des WikiProjekts Kanada haben die "Template:WikiProject Canada" auf ihren Diskussionsseiten, füge also "WikiProject Canada" in das Feld "Hat eine dieser Vorlagen" von PetScan ein und wähle direkt darunter "Auf der Diskussionsseite suchen" als Qualifikator aus.
  4. Nur normale Artikel, keine Begriffsklärungsseiten, sind erwünscht, und Begriffsklärungsseiten zeichnen sich dadurch aus, dass sie die Vorlage Disambiguation haben. Füge also "Disambiguation" in das Feld "Hat keine dieser Vorlagen" von PetScan ein und vergewissere dich, dass "Auf der Diskussionsseite suchen" nicht ausgewählt ist .
  • Diese Kriterien werden durch dieses ausgefüllte PetScan-Formular umgesetzt. Um die Anfrage zu senden, wähle "Los!" ganz unten.
  • Als die Abfrage am 16. August 2015 gesendet wurde, dauerte die Ausführung 31 Sekunden und das Ergebnis war eine Liste mit 255 Artikeln. Die Ergebnisse werden UNTER dem PetScan-Formular, das an Ort und Stelle bleibt, angezeigt, sodass du möglicherweise keine Änderung auf deinem Bildschirm siehst. Du musst wissen, dass du nach unten scrollen musst, um die Ergebnisse zu finden! Diese Anfrage wurde mit dem Standardausgabeformat "HTML" ausgeführt.
  • Um die Ergebnisse in einer Wikitabelle zu erhalten, um sie auf einer Unterseite des WikiProjekts zu teilen, könnte die Anfrage überarbeitet werden, um das Format "WIKI" auszuwählen. Diesmal ersetzen die Ergebnisse in Wikitable-Markup das PetScan-Formular auf deinem Bildschirm.
  • Um eine nützlichere Liste für Begriffsklärungen zu erstellen, richten DabSolver so ein, dass jedes angeklickte Element geöffnet wird. Hier wurden die Ergebnisse stattdessen im tabulatorgetrennten Format gespeichert und dann in Excel gebracht. Dann wurde eine Spalte erstellt, die einfache Textzeichenfolgen mit den Ergebnissen verkettete und dann wurde diese resultierende Spalte kopiert und eingefügt. Die Ergebnisse wurden auf der englischsprachigen Wikipedia-Seite w:Wikipedia:Canadian Wikipedians' notice board/ArticlesNeedingDisambiguation2015-08-17 eingefügt und auch in einem scrollbaren Fenster zur Diskussion auf der Diskussionsseite des WikiProjekts Kanada veröffentlicht. --Doncram (talk) 19:50, 24 August 2015 (UTC) Link angepasst. DexDor (talk) 06:58, 29 March 2016 (UTC)[reply]

Seiten erkennen, die eine ungewöhnliche Kombination von Namensraum und Kategorie/n ausweisen

PetScan kann genutzt werden, um Seiten zu finden, die in einer Kategorie (oder einer Kombination von Kategorien) enthalten sind, die für Seiten in einem bestimmten Namensraum nicht angemessen sind - z.B. Wikipedia-Administrationsseiten, die sich in einer Kategorie befinden, die nur enzyklopädische Artikel enthalten sollte. Dies kann behoben werden (z.B. durch Verschieben eines Artikels in den korrekten Namensraum oder durch Bearbeitung einer Diskussionsseite, um einen fehlenden ":" einzufügen, wenn sich eine Kategorie darauf bezieht). Bei diesem Prozess werden im ersten Schritt (über PetScan) Kategorien definiert, die eine fehlerhafte Kategorisierung verursachen (z.B. Wikipedia-Administrationsseiten, die sich in Artikel-Kategorien befinden).

Unkategorisierte Fotobeiträge in Commons in einer bestimmten Sprache finden

(Basierend auf Learning patterns/Treasures or landmines: detecting uncategorized, language-specific uploads in Commons. Siehe die Motivation und vollständige Erklärung dort! Danke an Wikimedianer User:Spiritia und andere Beitragende/Kommentatoren für den Beitrag hierzu!)

Starte eine PetScan-Abfrage mit den folgenden Einstellungen:

Language = commons
Project = wikimedia
Depth = 1
Categories = Nicht kategorisierte Dateien
Combination = ☑ Subset
Namespaces = ☑ File
Templates : Has all of these templates = <dein Sprachcode> 
Format:  ☑ Extended data for files     ☑ File usage data

Der Sprachcode für Deutsch ist "de"; der Sprachcode für Rumänisch ist "ro". Um nicht kategorisierte Fotos zu finden, die von Benutzern mit rumänischer Spracheinstellung hochgeladen wurden, ist eine Version der Abfrage (mit HTML-Ausgabe und ohne automatische Ausführung):

https://petscan.wmflabs.org/?language=commons&project=wikimedia&depth=1&categories=Uncategorized+files&ns%5B6%5D=1&templates_yes=ro&ext_image_data=1&file_usage_data=1

Am 15. März 2016 benötigte die Abfrage nach dem Klick auf "Los!" 105 Sekunden und führte 1748 nicht kategorisierte Fotos auf.

Hinweise:

  1. Das Feld "Sprache =" wird nicht genutzt, um die gewünschte Sprache auszuwählen; der gewünschte Sprachcode wird stattdessen in das Feld "Vorlagen" eingesetzt.
  2. Der Sprachcode in der Abfrage berücksichtigt Groß- und Kleinschreibung! Nutze beispielsweise "ro", nicht "RO".
  3. Um die Ergebnisse dort zu erhalten, wurde das Format ☑ Wiki statt der Standardausgabe in HTML genutzt.

Viel Spaß! Nochmal besonderen Dank an User:Spiritia!

Datenobjekte ohne Aussagen

Die Option "Hat keine Aussage" kann genutzt werden, um folgendes zu finden:

Schritte, um die Vorlage zu importieren, davon manche mit PetScan.

  • Gib im Reiter 'Kategorien' das Projekt an, z.B. de für Sprache und wikipedia in Projekt, um die deutschsprachige Version der Wikipedia zu nutzen
  • Gib in Andere Quellen deine SPARQL-Abfrage ein
  • Stelle sicher, von Kategorien in den Optionen Nutze Wiki auszuwählen
  • Klicke auf Los!

Dies kann nützlich sein, um die Seitenaufrufe einer bestimmten Gruppe von Seiten, basierend auf einer SPARQL-Abfrage, zu erhalten. Du kannst dies als Pagepile speichern (wähle den Reiter Ausgabe), gib dann die Pagepile-ID in Massviews Analysis ein (wähle 'Page Pile' aus der ausklappbaren Liste Quelle aus).

Eine Liste von Wikidata-Datenobjekten mit Ausnahmen basierend auf einer SPARQL-Abfrage erhalten

Gehen wir davon aus, dass du eine Liste von Personen mit Wikidata-IDs (QIDs) hast, bei denen du die Tätigkeit (P106) 'Schmuckdesigner' (Q2519376) ergänzen möchtest, vielleicht mit einem Werkzeug wie QuickStatements. Du möchtest diese Tätigkeit jedoch nicht zu Datenobjekten hinzufügen, die bereits diese Tätigkeit haben. Hier siehst du, wie man das mit PetScan macht:

  • Hab eine Liste von QIDs in einer Textdatei, wobei jede QID sich in einer eigenen Zeile befindet
  • Kopiere diesen Text in dem Reiter 'Andere Quellen' in das Feld 'Manuelle Liste'
  • Gib in das Feld 'Wiki' die Zeichenkette wikidatawiki ein
  • Gib in das Feld 'SPARQL' deine SPARQL-Abfrage ein. In diesem Beispiel gibt uns die Abfrage alle Menschen mit der Tätigkeit 'Schmuckdesigner' aus:
    select ?item where { ?item wdt:P31 wd:Q5; wdt:P106 wd:Q2519376. }
  • Schließlich möchtest du eine Ausnahme machen, also gib in das Feld 'Kombination' die Zeichenkette manual NOT sparql ein, um alle QIDs aus der 'manuellen Liste' zu erhalten, jedoch ohne die Datenobjekte aus der SPARQL-Abfrage.
  • Klicke auf 'Los!'

Füge hier Dein Beispiel hinzu...

Fehlerberichte, Funktionswünsche, Code-Basis

Siehe auch