Jump to content

Template:Model card ORES article topic/uk

From Meta, a Wikimedia project coordination wiki
Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data, and ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Ця модель використовує текст статті для передбачення вероятності того, що стаття належить до набору тем.


Мотивація

[edit]

Як можна передбачити, в якій загальній тематиці знаходиться стаття? Відповідь на це питання корисна для різних аналізів динаміки Вікіпедії. Однак складно скласти дуже різноманітний спектр статей Вікіпедій у послідовні, послідовне тематичні тематики ручно.

Ця модель, частина набору моделей ORES, аналізує статтю для прогнозування її ймовірності приналежності до набору тем. Схожі моделі (хоча не обов'язково з тим самим рівнем продуктивності або теми, використовуються в близько десятку інших проектів.

Ця модель може бути корисна для аналізу високої рівня динаміки Вікіпедії (відгляди сторінок, якість статей, тенденції редагування) та фільтрації статей.

Користувачі та використання

[edit]
Use this model for
  • аналіз високої рівня динаміки Вікіпедії, наприклад, перегляд сторінки, якість статті або тенденції редагування - наприклад, як динаміка перегляду сторінки відрізняється між категоріями фізики та біології?
  • фільтрація до відповідних статей - наприклад, фільтрація статей тільки до тих, що входять до категорії музики.
Don't use this model for
  • визначити, на яку тему стаття відноситься
  • автоматизоване редагування статей або тем без людини в циркулі
Current uses

Ця модель є частиною ORES і загалом доступна через API. Вона використовується для аналізу високої рівня Вікіпедії, дослідження платформи та інших завдань на вики.

Example API call:
{{{model_input}}}

Етичні міркування, попередження та рекомендації

[edit]
  • Ця модель була підготовлена на даних, які вже є кілька років (з середини 2020 року).
  • Ця модель використовує Word2vec як функцію навчання. Word2vec, як і інші вбудовані мови, кодує мовні прибіжності базових наборів даних - в межах статі, раси, етнічності, релігії і т.д. Оскільки Вікіпедія знає прибіжності в своєму тексті, ця модель може кодувати і іноді відтворювати ці прибіжності.
  • Ця модель має дуже змінну продуктивність у різних темах - ознайомлюйтеся з статистикою випробувань нижче, щоб отримати відчуття міжтопечної продуктивності.

Модель

[edit]

Виконавність

[edit]

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Виконання

[edit]
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Дані

[edit]
Data pipeline
Обов'язкові дані були отримані з набору ідентифікаторів перегляду. Потім різні частини інформації про перегляд були витягнуті за допомогою автоматичних процесів, а текст перегляду був введен у word2vec, щоб отримати вбудоване статті.
Training data
Дані навчання були автоматично і випадково відокремлені від даних тесту під час навчання за допомогою drafttopic git repository (який навчає як проектну тему, так і статті-томіку моделі).
Test data
Отримані дані автоматично і випадково розрізняються від даних поїзда за допомогою drafttopic git repository (який навчає як моделі проекту та статті).

Ліцензії

[edit]

Цитата

[edit]

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
  title={ {{{language}}} {{{project}}} article topic model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/uk }
}