Jump to content

Template:Model card ORES article quality/ru

From Meta, a Wikimedia project coordination wiki
Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data, и ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Эта модель использует данные о пересмотре для прогнозирования вероятности того, что статья является определенной оценкой


Мотивация

[edit]

Эта модельная карта описывает модель для прогнозирования качества статей Википедии. Она использует структурные особенности, извлеченные из статьи, для маркировки статей Википедии с оценкой вероятности для каждого класса качества статьи.

Статьи Википедии варьируются по качеству от богатых, хорошо иллюстрированных, полностью ссылованных статей, которые полностью охватывают свою тему и легко читаются до однозначных предложений, которые определяют тему статьи, но не предлагают намного больше информации. Очень полезно иметь возможность надежно отличить между этими крайностями и различными этапами качества вдоль этого спектра. Редакторы Википедии разработали богатые рубрики для оценки качества статей Википедии и постоянно оценивают качество статей, чтобы помочь координировать работу на вики. Редакции используют эти оценки качества для оценки и приоритета их работы. Исследователи используют эти показатели качества для понимания динамики контента. Разработчики используют эти результаты качества в качестве фильтров при создании систем рекомендаций или других инструментов.

Википедия постоянно меняется, что делает это трудоемким (и в значительной степени невозможным) для редакторов, чтобы сохранить эти оценки качества полными и актуальными. Автоматическая модель качества может помочь заполнить эти пробелы, оценив качество статей, которые не были оценены или существенно изменились с тех пор, как они были в последний раз оценены. Таким образом, она может предоставить исследователям и разработчикам инструментов более последовательные данные и даже потенциально помочь редакторам определить статьи, которые могли бы извлечь выгоду из оценки человека.

Пользователи и использование

[edit]
Use this model for
  • анализ на высоком уровне тенденций в области качества изделий
  • фильтрация / ранжирование статей в инструментах - например , показывают только низкокачественные статьи в системе рекомендаций
  • выявление потенциальных путей улучшения статей - например, использование функции наименьшей стоимости из модели в качестве рекомендации
Don't use this model for
  • проекты за пределами русской Википедии
en:Википедия:Название пространство
Current uses

Эта модель является частью ORES и в целом доступна через API. Она используется для анализа Википедии на высоком уровне, исследования платформы и других задач на вики.

Example API call:
{{{model_input}}}

Этические соображения, предостережения и рекомендации

[edit]
  • Источники данных для этой модели являются несколькими годами - дрейф данных может исказить текущие результаты по сравнению с данными о обучении.
  • В настоящее время модель не учитывает качество конкретного письма, поэтому длинная статья с большим количеством поддельных слов будет зарегистрирована как высококачественная.
  • Различные вики имеют разные схемы маркировки - не используйте эту модель в сочетании с другими моделями для проведения анализа междувики.

Модель

[edit]

Выполнение

[edit]

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Реализация

[edit]
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Данные

[edit]
Data pipeline
Этикеты были собраны из оценок качества статьи на вики, а затем объединены с функциями пересмотра для создания исходного набора данных.
Training data
Данные поезда автоматически отделились от данных испытаний с использованием функционала из реверскоррингового хранилища.
Test data
Данные о испытаниях автоматически и случайно отделились от данных поезда с использованием функционала из ревскорингового хранилища и были сохранены во время процесса обучения.

Лицензии

[edit]

Цитаты

[edit]

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_quality,
  title={ {{{language}}} {{{project}}} article quality model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_quality/ru }
}