Jump to content

Template:Model card ORES article topic/sr

From Meta, a Wikimedia project coordination wiki
Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data, and ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Овај модел користи текст чланака како би предвидео вероватност да чланка припада сету тема .


Мотивација

[edit]

Како можемо предвидети у којој је општа теми чланак? Одговор на ово питање је користан за различите анализе Википедија динамике. Међутим, тешко је ручно групирати веома разноврсни спектар Википедија чланака у когерентне, конзистентне теме.

Овај модел, део ОРЕС-а, анализира чланак како би предвидео вероватноћу припадности сету тема. Слични модели (ама нису обавезно са истим нивоом перформансе или теми, распоређени су у око десетак других пројеката.

Овај модел може бити користан за анализе на високом нивоу динамике Википедија (гледања страница, квалитет чланака, трендови редактирања) и филтрирање чланака.

Корисници и употребе

[edit]
Use this model for
  • високо нивоске анализе динамике Википедија као што су преглед странице, квалитет чланака или трендови за уређивање - на пример Како се динамика прегледа странице разликује између физичких и биолошких категорија?
  • филтрирање до релевантних чланака - на пример, филтрирање чланака само до оних у музичкој категорији.
Don't use this model for
  • дефинитивно утврђивање теме која чланк припада
  • аутоматско уређивање чланака или тема без људског у циркулу
Current uses

Овај модел је део ОРЕС-а и обично је доступан преко АПИ-а.

Example API call:
{{{model_input}}}

Етички разматрања, упозорења и препоруке

[edit]
  • Овај модел је обучен на подацима који су сада стари неколико година (од средине 2020. године).
  • Овај модел користи Word2vec као обуку. Word2vec, као и друге природне језичке уграђене начине, кодира језичке пристраности основних скуп података - дуж линија пола, расе, етничке припадности, религије итд. Пошто је Википедија познала пристраности у свом тексту, овај модел може кодирати и понекад репродукционисати те пристраности.
  • Овај модел има веома променљиве перформансе у различитим темама - погледајте статистику тестирања испод да бисте добили осећај интер-топемичког перформанса.

Модел

[edit]

Учинка

[edit]

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Увршење

[edit]
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Подаци

[edit]
Data pipeline
Данне за обуку су извлечени из сета идентификација ревизије. Онда су се користећи аутоматске процесе извлекли различити делови информација о ревизији, а текст ревизије је унуђен у word2vec како би се уградио чланак. На крају, етикете су изведене из средње нивое ВикиПроекте категорије са којима је чланак повезан.
Training data
Дата обуке су аутоматски и случајно одвојене од података о тестирању током обуке користећи drafttopic git repository (који обучава и моделе за пројекти и чланке).
Test data
Пробавни подаци су аутоматски и случајно раздвојити од података о возу користећи drafttopic git repository (који обучава и моделе о проектототоме и чланке).

Лицензије

[edit]

Цитата

[edit]

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
  title={ {{{language}}} {{{project}}} article topic model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/sr }
}