Jump to content

Template:Model card ORES article quality/nl

From Meta, a Wikimedia project coordination wiki
Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training dataen ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Dit model gebruikt 'gegevens over een herziening' om te voorspellen 'de waarschijnlijkheid dat het artikel een bepaalde en:WP:Content assessment is


Motivering

[edit]

Deze modelkaart beschrijft een model voor het voorspellen van de kwaliteit van Wikipedia-artikelen. Het gebruikt structurele functies die uit het artikel zijn gehaald om Wikipedia-artikels te labelen met een waarschijnlijkheidsscore voor elke artikelkwaliteitsklasse.

Wikipedia-artikelen variëren in kwaliteit van rijke, goed geïllustreerde, volledig verwijzende artikelen die hun onderwerp volledig dekken en gemakkelijk te lezen zijn tot enkele zinstuten die het onderwerp van het artikel defineren, maar niet veel meer informatie bieden. Het is zeer handig om betrouwbaar te kunnen onderscheiden tussen deze extremen en de verschillende stadia van kwaliteit langs dit spectrum. Wikipedia-redakteurs hebben rijke rubrieken ontwikkeld voor hoe de kwaliteit van Wikipedia-artikels te evalueren en beoordelen voortdurend de kwaliteit.

Wikipedia verandert altijd, waardoor het tijdrovend (en grotendeels onmogelijk) is voor redacteurs om deze kwaliteitsbeoordelingen volledig en up-to-date te houden. Een automatisch kwaliteitsmodel kan helpen bij het vullen van deze lacunes door de kwaliteit van artikelen te evalueren die niet zijn beoordeeld of aanzienlijk zijn veranderd sinds ze voor het laatst zijn beoordeild.

Gebruikers en gebruik

[edit]
Use this model for
  • analyse op hoog niveau van de kwaliteitstrends van artikelen
  • filteren / rangschikken van artikelen in tools - bv. alleen low-quality artikelen in een aanbevelingssysteem weergeven
  • het identificeren van mogelijke manieren om artikelen te verbeteren - bijvoorbeeld het gebruik van de laagste waarde-functie uit het model als aanbeveling
Don't use this model for
  • projecten buiten de Nederlandse Wikipedia
  • Wikipedia:Namespace
Current uses

Dit model is een onderdeel van ORES en is algemeen toegankelijk via API. Het wordt gebruikt voor analyse op hoog niveau van Wikipedia, platformonderzoek en andere taken op wiki.

Example API call:
{{{model_input}}}

Ethische overwegingen, waarschuwingen en aanbevelingen

[edit]
  • De brongegevens voor dit model zijn enkele jaren oud - gegevensdrift kan de huidige uitkomsten vertekenen ten opzichte van de traininggegevens.
  • Het model houdt momenteel niet rekening met de kwaliteit van het specifieke schrijven, dus een lang artikel met veel nepwoorden zou als hoogwaardig worden geregistreerd.
  • Verschillende wikis hebben verschillende labelingskema's - gebruik dit model niet in combinatie met andere modellen om een interwiki-analyse uit te voeren.

Model

[edit]

Prestaties

[edit]

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Uitvoering

[edit]
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Gegevens

[edit]
Data pipeline
Labels werden verzameld uit beoordelingen van artikelkwaliteit op wiki, en vervolgens gecombineerd met herzieningskenmerken om een brondataset te maken.
Training data
De treingegevens werden automatisch gescheiden van de testgegevens met behulp van functionaliteit uit het revscoring-repository.
Test data
De testgegevens werden automatisch en willekeurig gescheiden van de treingegevens met behulp van functionaliteit uit de revscoring-repository en tijdens het trainingsproces gehouden.

Vergunningen

[edit]

Citaten

[edit]

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_quality,
  title={ {{{language}}} {{{project}}} article quality model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_quality/nl }
}