Template:Model card ORES article topic/cs

Model card
Model card
This page is an on-wiki machine learning model card.
	A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)	Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)	WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interface	Ores homepage
Code	ORES Github, ORES training data, a ORES model binaries
Uses PII	No
In production?	Yes
Which projects?	{{{language}}} {{{project}}}
	Tento model používá text článku k předpovědi pravděpodobnosti, že článek patří k souboru témat.
	v; t; e;

Motivace

Jak můžeme předvídat, v jakém obecném tématu je článek? Odpověď na tuto otázku je užitečná pro různé analýzy dynamiky Wikipedie. Je však obtížné ručně shrnout velmi různorodý řád článků Wikipedie do soudržných, konzistentních témat.

Tento model, který je součástí souboru modelů ORES, analyzuje článek, aby předpověděl jeho pravděpodobnost, že patří k souboru témat. Podobné modely (i když nemusí být nutně s stejnou úrovní výkonnosti nebo témata, jsou nasazeny v asi tucet dalších projektů.

Tento model může být užitečný pro analýzu dynamiky Wikipedie na vysoké úrovni (prehled stránek, kvalita článků, trendy editování) a filtrování článků.

Uživatelé a použití

Use this model for

vysoké úrovně analýzy dynamiky Wikipedie, jako je vizualizace stránek, kvalita článků nebo trendy editování - např. Jak se dynamika vizualizací stránek liší mezi kategoriemi fyziky a biologie?
filtrování na příslušné články - např. filtrování článků pouze na ty, které se týkají kategorie hudby.

Don't use this model for

konečně stanoví, na jaký témat se článek týká
automatické úpravy článků nebo témat bez toho, aby byl člověk v kruhu

Current uses

Tento model je součástí ORES a je obecně přístupný prostřednictvím API. Používá se pro vysokou úroveň analýzy Wikipedie, výzkum platformy a další úkoly na wiki.

Example API call:

{{{model_input}}}

Etické úvahy, upozornění a doporučení

Tento model byl vyškozen na základě dat, které jsou nyní staré několik let (od poloviny roku 2020).

Tento model používá Word2vec jako výcvikovou funkci. Word2vec, stejně jako jiné přírodní jazykové začleňování, kóduje jazykové předsudky základních datových souborů - v rámci pohlaví, rasy, etnické příslušnosti, náboženství atd. Vzhledem k tomu, že Wikipedie zná předsudkové aspekty ve svém textu, může tento model kódovat a někdy reprodukovat tyto předsudkosti.

Tento model má velmi variabilní výkonnost v různých tématách - pro pochopení výkonnosti mezi tématy se obraťte na níže uvedené testové statistiky.

Model

Výkon

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Provádění

Model architecture

{{{model_architecture}}}

Output schema

{{{model_output_schema}}}

Example input and output

Input:

{{{model_input}}}

Output:

{{{model_output}}}

Údaje

Data pipeline

Údaje k výcviku byly získány z souboru ID revize. Poté byly různé části informací o revizi vyčerpány pomocí automatizovaných procesů a revize byla vkládána do word2vec, aby byl do něj vložen článek.

Training data

Údaje o výcviku byly během výcviku automaticky a náhodně odděleny od testových údajů pomocí drafttopic git repository (který vycvičuje modely jak o návrhu, tak o článku).

Test data

Testová data byla automaticky a náhodně oddělena od dat vlaků pomocí drafttopic git repository (který vycvičuje modely jak z návrhu, tak z článku).

Licence

Code: MIT license
Model: MIT license

Citát

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
  title={ {{{language}}} {{{project}}} article topic model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/cs }
}