PetScan
PetScan ist ein mächtiges Abfragewerkzeug. Eine Abfrage wird im PetScan-Formular erstellt. Sieh Dir auch die Grundgedanken zu diesem Werkzeug an.
Einleitung
PetScan ist ein Werkzeug, das es Benutzern ermöglicht, Daten zu extrahieren, Listen von Wikipedia-Seiten (und verwandten Projekten) oder Wikidata-Datenobjekten zu erzeugen, die bestimmten Kriterien entsprechen, wie beispielsweise alle Seiten einer bestimmten Kategorie oder alle Datenobjekte mit einer bestimmten Eigenschaft, und Daten aus Wikimedia-Projekten zu extrahieren und zu analysieren. PetScan kann auch einige temporäre Listen (hier "Quellen" genannt) auf verschiedene Arten kombinieren, um eine neue zu erzeugen. Quellen sind:
Seiten von Wiki(m/p)edia
Diese werden über die Kategorien-, Seiteneigenschaften- und Vorlagen & Verknüpfungen-Reiter ausgewählt. Du kannst Seiten aus Kategoriebäumen, mit bestimmten Vorlagen oder Verknüpfungen von/zu bestimmten Seiten anfragen; Deine Ergebnisse auf einen bestimmten Namensraum, Bot-/menschliche Bearbeitungen, kürzliche Bearbeitungen/Seitenerstellungen begrenzen, usw. Diese drei Reiter repräsentieren die frühere CatScan2-Funktionalität. Ihr Abfrageergebnis wird nachfolgend als "Kategoriequelle" gespeichert.
Andere Quellen
In diesem Reiter kannst Du weitere Quellen hinzufügen, wie Wikidata-SPARQL-(WDQS)-Abfragen oder PagePile-Listen. Du kannst auch festlegen, wie die unterschiedlichen Quellen kombiert werden sollen. Standardmäßig wird die Schnittmenge (das sind nur die Seiten, die in allen Quellen auftauchen) im Ergebnis zurückgegeben. Du kannst auch angeben, auf welches Wiki Deine Liste zeigen soll, z.B. wenn Du Wikipedia- und Wikidata-Ergebnisse kombinieren möchtest.
Wikidata
In diesem Reiter kannst Du Deine Ergebnisse weitergehend kommentieren oder "filtern", z.B. nur Wikidata-Datenobjekte zurückgeben lassen, die keine Aussagen enthalten. Die Verwendung eines dieser Filter wird Deine Liste in Wikidata konvertieren.
Ausgabe
Hier kannst Du Einstellungen für Deine Liste anpassen, z.B. das Format (Web-Seite, Wiki, PagePile, usw.). Du kannst Deine Ergebnisse auch noch weitergehend filtern, z.B. mit regulären Ausdrücken die Seitentitel/Objektbezeichnungen. Du kannst auch die Ergebnisliste mit einer sortierten Liste fehlender Themen ("Rote Verweise") ersetzen.
Deine Abfrage definieren
Die im Abfrageformular ausfüllbaren Felder sind wie folgt:
Feld | Bedeutung | Voreinstellung | Hinweis |
---|---|---|---|
Sprache | Wähle einen Projekt-Sprachcode aus, z. B. "en" für Englisch oder "de" für Deutsch. Wähle "commons" für Wikimedia Commons aus. | "en" | |
Projekt | Das zu durchsuchende Wikimedia-Projekt (wikipedia, wiktionary, wikiversity, usw.) | "wikipedia" | NOTE: If you choose "Commons," be sure to go to the "Page properties" tab and check the "File" namespace to get useful results. |
Tiefe | Suchtiefe im Kategoerienbaum. 0 bedeutet, dass keine Unterkategorien berücksichtigt werden. | "0" | |
Kategorien | Liste der Kategorien, eine pro Zeile ohne den "Kategorie:"-Teil | Leer | Das Anhängen von '|' und einer Zahl setzt die Suchtiefe für diesen Kategoriebaum und überschreibt, was im Feld Tiefe ausgewählt wurde. Durch Angabe einer Kategorie kannst du die Suchergebnisse eingrenzen und dich auf Seiten fokussieren, die sich auf ein bestimmtes Thema beziehen. |
Auzuschließende Kategorien | Liste von Kategorien wie oben. Nur Artikel, die nicht zu diesen Kategorien gehören, werden berücksichtigt. | Leer | |
Kombination | Wie zuvor aufgeführte Kategorien zu verwenden sind:
Gegenwärtig verfügbare Optionen sind "Schnittmenge" oder "Vereinigung". |
"Teilmenge" | |
Namensräume | Die Namensräume, die als potentielle Seiten in Betracht kommen | Artikel | |
Weiterleitungen | Beides | ||
Vorlagen | Verwende nur Seiten, die
Gibt eine Vorlage pro Zeile ohne den "Vorlage:"-Teil ein. Jedes Feld kann durch die Auswahl von "Verwende Diskussionsseite stattdessen" qualifiziert werden |
Leer | Diese Option scheint nur zusammen mit Vorlagen aus dem Namensraum "Vorlage:" zu funktionieren. Sie kann nicht zusammen mit Vorlagen aus dem Namensraum "Benutzer:" genutzt werden. Sie kann nicht in den Namensräumen "Creator:" oder "Institution:" genutzt werden, die in Wikimedia Commons Verwendung finden. |
Verknüpft von: | |||
Letzte Bearbeitung | Zeigt Seiten, deren letzte Beabeitung von einem Bot oder anonymen Benutzer vorgenommen oder nicht vorgenommen wurde oder markiert ist | Beides, beides, beides | |
Letzte Änderung | Datum oder Zeitraum der letzten Änderung der Seite im Format YYYYMMDDHHMMSS (kürzeres erlaubt) | "Nur Seiten, die während des obigen Zeitfensters erstellt wurden" erlaubt Dir stattdessen nach Erste Änderung zu suchen | |
Größe | Dateigröße oder Größenbereich in Bytes | Leer | Erlaubt die Auswahl von Artikeln, deren Dateien größer als ein Grenzwert und/oder kleiner als ein anderer Grenzwert sind |
Verknüpfungen | Anzahl oder -bereich der internen Verweise auf der Seite | Leer | Erlaubt die Auswahl von Artikeln mit vielen oder wenigen Verknüpfungen |
Rote Verweise | |||
Hauptkategorien | Funktion, die bisher nicht verfügbar ist. | ||
Sortieren | Funktion, die bisher nicht verfügbar ist und die Sortierregeln für die Ausgabe bestimmt. | ||
Manuelle Liste | Erlaubt es, eine Liste von Seitennamen oder Wikidata-Datenobjekten (mit vorangestelltem Namensraum) von einem bestimmten Projekt anzugeben | Der knifflige Teil ist es, die Projekte richtig anzugeben:
| |
Wikidata | Hole Wikidata-Daten, falls möglich. | ||
Format | Ausgabeformate der Suchergebnisse: HTML : Web-Seiten CSV : Werte in Anführungszeichen, getrennt durch Kommata TSV : Tabulator-getrennte Werte WIKI : als Wikitabelle PHP : als PHP-Datei XML : als XML-Datei |
||
Los geht's! | Klicke hier, um die von Dir definierte Abfrage zu starten. |
Hintergrundwissen
PetScan-ID (PSID)
Mit Stand vom 4. April 2016 wird jede Abfrage, die in PetScan ausgeführt wird (anonym!) aufgezeichnet und ihr wird ein einzigartiger, stabiler, numerischer Identifikator zugeordnet, die PSID. Du kannst die PSID nutzen, um
- diese PetScan-Abfrage als Eingabe für andere Werkzeuge, die PSID unterstützen (wie WD-FIST), auszuführen
- eine "Kurz-URL" zu verwenden:
https://petscan.wmflabs.org/?psid=PSID
wird die Abfrage mit PSID ausführen und alle Einstellungen berücksichtigen - eine vorherige Abfrage zu erweitern, indem du Parameter "überschreibst":
https://petscan.wmflabs.org/?format=wiki&psid=PSID
wird die gleiche Abfrage wie zuvor ausführen, jedoch wird als Ausgabeformat Wikitext verwendet (statt des Standards HTML oder was auch immer ursprünglich ausgewählt wurde).
Hinweise:
- Es wird nur die Abfrage gespeichert, nicht ihre Ergebnisse!
- Große Abfragen (z.B. mit vielen händisch angegebenen Objekten) werden nicht gespeichert. In diesem Fall wird keine PSID angezeigt.
- Ergebnisse mit einer leeren Überprüfungsbox haben mögliche Treffer innerhalb des Wikidata-Sets.
- Der Interwikilink petscan: kann genutzt werden, um Kurzlinks für dauerhafte Abfragen zu erstellen, z.B. [[petscan:PSID]]
- Aufgezeichnete Abfragen werden nicht entdupliziert, sodass jedes Mal eine neue PSID generiert wird, es sei denn eine vorhandene PSID wird ohne Veränderungen angerufen.
Erstelle Wikidata-Datenobjekte für Wikipedia-Artikel die noch keine haben (Erstellerfunktionalität)
- Setze eine Anfrage auf, die eine Liste von Wikipedia-Seiten (oder Seiten aus einem anderen Nicht-Wikidata-Projekt) ausgibt oder Füge eine Liste in "Andere Quellen/Manuelle Liste" ein
Unter dem Reiter "Seiteneigenschaften" solltest du "Redirects=No" auswählenDies geschieht nun automatisch; du kannst das zurück ändern, wenn du wirklich Weiterleitungen in deiner Liste haben möchtest!- Wähle unter dem Reiter "Wikidata" "Nur Seite ohne Datenobjekt" für die Option "Wikidata" aus
- Führe die Abfrage aus
- Deine Ergebnisse werden neben der Überschrift "Ergebnisse" weitere Elemente besitzen (es sei denn, du bist nicht bei WiDaR angemeldet, in diesem Fall wirst du einen entsprechenden Link sehen)
- Alle Seiten, bei denen es keine exakte Übereinstimmung mit einer Bezeichnung oder einem Alias in Wikidata gibt, werden standardmäßig ausgewählt.
- Sofern dies erforderlich ist, kannst du nun manuell Kästchen ankreuzen oder bei ihnen das Kreuz entfernen.
- Du kannst in das Feld für Aussagen Standard-Aussagen einfügen, die zu allen deinen neuen Datenobjekten hinzugefügt werden. Falls du nur Datenobjekte für Personen erstellst, füge
P31:Q5
hinzu. Du kannst so mehrere Aussagen hinzufügen (eine je Zeile). Beachte, dass P/Q großgeschrieben werden müssen – ansonsten funktioniert der Befehl nicht. - Du kannst Standard-Beschreibungen zu neuen Datenobjekten hinzufügen, wie
Dde:"some description"
für eine deutsche Beschreibung. - Klicke auf die grüne Schaltfläche "QS starten". Dadurch wird eine neue Seite geöffnet.
- Du kannst auf "Start" klicken, um einen Stapel in deinem Browser laufen zu lassen oder auf "Start (im Hintergrund)", um ihn von einem Wikimedia-Server aus auszuführen. Siehe Hilfe:QuickStatements für weitere Informationen.
Stand Juli 2020 hat "Start (im Hintergrund)" einige Fehler (beispielsweise können doppelte Datenobjekte erstellt werden). Nutze wenn möglich den Frontend-Modus! |
Hinzufügen/Entfernen von Aussagen zu Wikidata-Datenobjekten
Es ist möglich mit PetScan Aussagen zu Wikidata-Datenobjekte hinzuzufügen oder von ihnen zu entfernen. Dafür ist es entscheidend, dass Du "Wikidata" in "Andere Quellen -> Verwende Wiki" auswählst. Dann wirst Du ein Befehlsfeld neben der Zahl sehen und kannst wie im vorigen Abschnitt beschrieben fortfahren.
Weiterleiter
(nur in V2) Wenn du PetScan von einem anderen Werkzeug aus öffnest, dass den Benutzer eine Abfrage erstellen lässt, kannst du die Parameter referrer_url
und referrer_name
(standardmäßig referrer_url
) übergeben. Die referrer_url
sollte eine {PSID}
-Zeichenkette enthalten, die durch die PSID ersetzt wird, die der Benutzer sieht. Nachdem eine Abfrage ausgeführt wurde, verweist eine Box oben auf der Seite den Benutzer zurück auf das ursprüngliche Werkzeug, wofür die mit der PSID modifizierte referrer_url
verwendet wird.
Beispiele
Artikel in einem Wiki-Projekt
Eine Anfrage von der Diskussionsseite dieses Handbuchs: Finde alle Artikel aus dem Hauptnamensraum innerhalb des "WikiProject UK geography". Füge einfach ausgehend von einem Standard-PetScan-Eingabeformular "WikiProject UK geography" zur ersten Box der Vorlagen-Zeile hinzu und wähle darunter "Stattdessen Diskussionsseiten nutzen" aus. Hier ist die Abfrage ausgefüllt. Klicke auf "Ausführen!" unten. Bei der Ausführung am 16. August 2015 benötigte die Abfrage 1,5 Sekunden und ergab eine Liste von 21.408 Artikeln. Die Liste erscheint UNTER dem Eingabeformular (das auf deinem Bildschirm bleibt), sodass du herunterscrollen musst, um die Ergebnisse zu sehen.
Dablinks innerhalb eines Wiki-Projekts
Autoren, die an Begriffsklärungen arbeiten, versuchen, Seiten innerhalb eines Inhaltsbereichs eines WikiProjekts, hier des WikiProjekts Kanada, zu erhalten, um zu helfen. Ein PetScan-Bericht wurde entwickelt, um alle Artikel mit Links auf Begriffsklärungsseiten zu finden, die sich innerhalb des angegebenen WikiProjekts befinden. Angewendete Kriterien:
- Artikel mit Links auf Begriffsklärungsseiten befinden sich in der "Category:All articles with links needing disambiguation", füge also "All articles with links needing disambiguation" in das Feld PetScan-Kategorien ein.
- Die Tiefe wird willkürlich auf 9 gesetzt, was bedeutet, dass Artikel bis zu 9 Unterkategorien unterhalb der übergeordneten Kategorie "Begriffsklärung erforderlich" gefunden werden. (In dieser Tiefe zu suchen ist in diesem Fall nicht notwendig, schadet aber nicht.)
- Artikel innerhalb des WikiProjekts Kanada haben die "Template:WikiProject Canada" auf ihren Diskussionsseiten, füge also "WikiProject Canada" in das Feld "Hat eine dieser Vorlagen" von PetScan ein und wähle direkt darunter "Auf der Diskussionsseite suchen" als Qualifikator aus.
- Nur normale Artikel, keine Begriffsklärungsseiten, sind erwünscht, und Begriffsklärungsseiten zeichnen sich dadurch aus, dass sie die Vorlage Disambiguation haben. Füge also "Disambiguation" in das Feld "Hat keine dieser Vorlagen" von PetScan ein und vergewissere dich, dass "Auf der Diskussionsseite suchen" nicht ausgewählt ist .
- Diese Kriterien werden durch dieses ausgefüllte PetScan-Formular umgesetzt. Um die Anfrage zu senden, wähle "Los!" ganz unten.
- Als die Abfrage am 16. August 2015 gesendet wurde, dauerte die Ausführung 31 Sekunden und das Ergebnis war eine Liste mit 255 Artikeln. Die Ergebnisse werden UNTER dem PetScan-Formular, das an Ort und Stelle bleibt, angezeigt, sodass du möglicherweise keine Änderung auf deinem Bildschirm siehst. Du musst wissen, dass du nach unten scrollen musst, um die Ergebnisse zu finden! Diese Anfrage wurde mit dem Standardausgabeformat "HTML" ausgeführt.
- Um die Ergebnisse in einer Wikitabelle zu erhalten, um sie auf einer Unterseite des WikiProjekts zu teilen, könnte die Anfrage überarbeitet werden, um das Format "WIKI" auszuwählen. Diesmal ersetzen die Ergebnisse in Wikitable-Markup das PetScan-Formular auf deinem Bildschirm.
- Um eine nützlichere Liste für Begriffsklärungen zu erstellen, richten DabSolver so ein, dass jedes angeklickte Element geöffnet wird. Hier wurden die Ergebnisse stattdessen im tabulatorgetrennten Format gespeichert und dann in Excel gebracht. Dann wurde eine Spalte erstellt, die einfache Textzeichenfolgen mit den Ergebnissen verkettete und dann wurde diese resultierende Spalte kopiert und eingefügt. Die Ergebnisse wurden auf der englischsprachigen Wikipedia-Seite w:Wikipedia:Canadian Wikipedians' notice board/ArticlesNeedingDisambiguation2015-08-17 eingefügt und auch in einem scrollbaren Fenster zur Diskussion auf der Diskussionsseite des WikiProjekts Kanada veröffentlicht. --Doncram (talk) 19:50, 24 August 2015 (UTC) Link angepasst. DexDor (talk) 06:58, 29 March 2016 (UTC)
Seiten erkennen, die eine ungewöhnliche Kombination von Namensraum und Kategorie/n ausweisen
PetScan kann genutzt werden, um Seiten zu finden, die in einer Kategorie (oder einer Kombination von Kategorien) enthalten sind, die für Seiten in einem bestimmten Namensraum nicht angemessen sind - z.B. Wikipedia-Administrationsseiten, die sich in einer Kategorie befinden, die nur enzyklopädische Artikel enthalten sollte. Dies kann behoben werden (z.B. durch Verschieben eines Artikels in den korrekten Namensraum oder durch Bearbeitung einer Diskussionsseite, um einen fehlenden ":" einzufügen, wenn sich eine Kategorie darauf bezieht). Bei diesem Prozess werden im ersten Schritt (über PetScan) Kategorien definiert, die eine fehlerhafte Kategorisierung verursachen (z.B. Wikipedia-Administrationsseiten, die sich in Artikel-Kategorien befinden).
Unkategorisierte Fotobeiträge in Commons in einer bestimmten Sprache finden
(Basierend auf Learning patterns/Treasures or landmines: detecting uncategorized, language-specific uploads in Commons. Siehe die Motivation und vollständige Erklärung dort! Danke an Wikimedianer User:Spiritia und andere Beitragende/Kommentatoren für den Beitrag hierzu!)
Starte eine PetScan-Abfrage mit den folgenden Einstellungen:
Language = commons
Project = wikimedia
Depth = 1
Categories = Nicht kategorisierte Dateien
Combination = ☑ Subset
Namespaces = ☑ File
Templates : Has all of these templates = <dein Sprachcode>
Format: ☑ Extended data for files ☑ File usage data
Der Sprachcode für Deutsch ist "de"; der Sprachcode für Rumänisch ist "ro". Um nicht kategorisierte Fotos zu finden, die von Benutzern mit rumänischer Spracheinstellung hochgeladen wurden, ist eine Version der Abfrage (mit HTML-Ausgabe und ohne automatische Ausführung):
Am 15. März 2016 benötigte die Abfrage nach dem Klick auf "Los!" 105 Sekunden und führte 1748 nicht kategorisierte Fotos auf.
Hinweise:
- Das Feld "Sprache =" wird nicht genutzt, um die gewünschte Sprache auszuwählen; der gewünschte Sprachcode wird stattdessen in das Feld "Vorlagen" eingesetzt.
- Der Sprachcode in der Abfrage berücksichtigt Groß- und Kleinschreibung! Nutze beispielsweise "ro", nicht "RO".
- Um die Ergebnisse dort zu erhalten, wurde das Format ☑ Wiki statt der Standardausgabe in HTML genutzt.
Viel Spaß! Nochmal besonderen Dank an User:Spiritia!
Datenobjekte ohne Aussagen
Die Option "Hat keine Aussage" kann genutzt werden, um folgendes zu finden:
- Datenobjekte ohne Aussagen für eine Kategorie in Wikipedia (Beispiel: en:Category:United States geography stubs)
- Datenobjekte ohne Aussagen für eine komplette Wikipedia-Sprachversion (Beispiel: "sowiki")
Schritte, um die Vorlage zu importieren, davon manche mit PetScan.
Die Sitelinks für ein bestimmtes Projekt aus einer SPARQL-Abfrage erhalten
- Gib im Reiter 'Kategorien' das Projekt an, z.B.
de
für Sprache undwikipedia
in Projekt, um die deutschsprachige Version der Wikipedia zu nutzen - Gib in Andere Quellen deine SPARQL-Abfrage ein
- Stelle sicher, von Kategorien in den Optionen Nutze Wiki auszuwählen
- Klicke auf Los!
Dies kann nützlich sein, um die Seitenaufrufe einer bestimmten Gruppe von Seiten, basierend auf einer SPARQL-Abfrage, zu erhalten. Du kannst dies als Pagepile speichern (wähle den Reiter Ausgabe), gib dann die Pagepile-ID in Massviews Analysis ein (wähle 'Page Pile' aus der ausklappbaren Liste Quelle aus).
Eine Liste von Wikidata-Datenobjekten mit Ausnahmen basierend auf einer SPARQL-Abfrage erhalten
Gehen wir davon aus, dass du eine Liste von Personen mit Wikidata-IDs (QIDs) hast, bei denen du die Tätigkeit (P106) 'Schmuckdesigner' (Q2519376) ergänzen möchtest, vielleicht mit einem Werkzeug wie QuickStatements. Du möchtest diese Tätigkeit jedoch nicht zu Datenobjekten hinzufügen, die bereits diese Tätigkeit haben. Hier siehst du, wie man das mit PetScan macht:
- Hab eine Liste von QIDs in einer Textdatei, wobei jede QID sich in einer eigenen Zeile befindet
- Kopiere diesen Text in dem Reiter 'Andere Quellen' in das Feld 'Manuelle Liste'
- Gib in das Feld 'Wiki' die Zeichenkette
wikidatawiki
ein - Gib in das Feld 'SPARQL' deine SPARQL-Abfrage ein. In diesem Beispiel gibt uns die Abfrage alle Menschen mit der Tätigkeit 'Schmuckdesigner' aus:
select ?item where { ?item wdt:P31 wd:Q5; wdt:P106 wd:Q2519376. }
- Schließlich möchtest du eine Ausnahme machen, also gib in das Feld 'Kombination' die Zeichenkette
manual NOT sparql
ein, um alle QIDs aus der 'manuellen Liste' zu erhalten, jedoch ohne die Datenobjekte aus der SPARQL-Abfrage. - Klicke auf 'Los!'
Füge hier Dein Beispiel hinzu...
Fehlerberichte, Funktionswünsche, Code-Basis
Siehe auch
Externe Links
- Übungsvideo von EduWiki 2023
- Benutzergruppe Wiki-Welterbe: PetScan-Training zum Kapazitätsaufbau 2021