Jump to content

Template:Model card wikidata item topic/de

From Meta, a Wikimedia project coordination wiki
Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data und ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Dieses Modell verwendet 'item features' um zu prognostizieren 'die Wahrscheinlichkeit, dass der Artikel zu einem Satz von Themen gehört'.


Motivation

[edit]

Wie können wir vorhersehen, in welchem allgemeinen Thema ein Element sich befindet? Die Beantwortung dieser Frage ist nützlich für verschiedene Analysen der Wikidata-Dynamik. Es ist jedoch schwierig, eine sehr vielfältige Palette von Wikidata Elementen manuell in kohärente, konsistente Themen zu gruppieren.

Dieses Modell, Teil der ORES-Modellsuite, analysiert ein Element, um die Wahrscheinlichkeit zu prognostizieren, dass es zu einem Satz von Themen gehört. Ähnliche Modelle (wenn auch nicht unbedingt mit dem gleichen Leistungsniveau oder Themen, werden über ein Dutzend andere Projekte eingesetzt. Es gibt auch ein Maschinelernungsmodelle/Produktion/Sprache agnostisch-linkbasiertes Artikel-Thematik-Themik

Dieses Modell kann für hochrangige Analysen der Wikidata-Dynamik (Seitenansichten, Artikelqualität, Bearbeitungstrends) und Filterungen von Elementen nützlich sein.

Nutzer und Nutzung

[edit]
Use this model for
  • hochrangige Analysen der Wikidata-Dynamik wie Seiteansicht, Artikelqualität oder Bearbeitungstrends - z.B. Wie unterscheiden sich die Seiteansichtungsdynamik zwischen den Kategorien Physik und Biologie?
  • Filterung auf relevante Elemente - z.B. Filterung nur auf die Elemente der Musikkategorie.
Don't use this model for
  • die endgültige Feststellung, zu welchem Thema eine Posten gehören
  • automatisierte Bearbeitung von Artikeln oder Themen ohne menschliche Einbindung
Current uses

Dieses Modell ist Teil von ORES und ist allgemein über API zugänglich. Es wird für die Analyse von Wikidata, Plattformforschung und andere Aufgaben auf Wiki verwendet.

Example API call:
{{{model_input}}}

Ethische Überlegungen, Vorsichtsmaßnahmen und Empfehlungen

[edit]
  • Dieses Modell wurde auf Daten ausgerichtet, die jetzt mehrere Jahre alt sind (ab Mitte 2020).

Dieses Modell verwendet Word2vec als Trainingsfunktion. Word2vec kodiert wie andere natürliche Sprach-Einbauten die sprachlichen Vorurteile der zugrunde liegenden Datensätze - im Sinne von Geschlecht, Rasse, Ethnie, Religion usw. Da Wikidata in seinem Text bekannte Vorurteile hat, kann dieses Modell diese Vorurteile kodieren und manchmal reproduzieren.

  • Dieses Modell hat sehr variable Leistung in verschiedenen Themen - lesen Sie die Teststatistiken unten, um eine Vorstellung von interthemischen Leistungen zu erhalten.

Modell

[edit]

Leistung

[edit]

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Durchführung

[edit]
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Daten

[edit]
Data pipeline
Die Daten wurden aus einer Reihe von Revision-IDs abgerufen. Anschließend wurden verschiedene Informationen über die Revision mit automatisierten Prozessen extrahiert und der Revisionstekster in word2vec eingespeist, um ein Element einzubauen. Schließlich werden Etiketten aus den mittleren Level-WikiProject-Kategorien abgeleitet, mit denen das Element verbunden ist.
Training data
Die Ausbildungsdaten wurden automatisch und zufällig von den Testdaten während des Trainings mit dem drafttopic git-Repository (der sowohl das Entwurfsthema als auch die Artikelsthema-Modelle trainiert) getrennt.
Test data
Die Testdaten wurden automatisch und zufällig von den Zugdaten abgetrennt, indem man das drafttopic git-Repository (das sowohl die Modelle zum Entwurf als auch zum Artikelsthema trainiert) benutzte.

Lizenzen

[edit]

Zitat

[edit]

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_quality,
  title={ {{{language}}} {{{project}}} article quality model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_wikidata_item_topic/de }
}