Jump to content

Template:Model card ORES article topic/vi

From Meta, a Wikimedia project coordination wiki
Model card
This page is an on-wiki machine learning model card.
A diagram of a neural network
A model card is a document about a machine learning model that seeks to answer basic questions about the model.
Model Information Hub
Model creator(s)Aaron Halfaker (User:EpochFail) and Amir Sarabadani
Model owner(s)WMF Machine Learning Team (ml@wikimediafoundation.org)
Model interfaceOres homepage
CodeORES Github, ORES training data, và ORES model binaries
Uses PIINo
In production?Yes
Which projects?{{{language}}} {{{project}}}
Mô hình này sử dụng đọc văn bản bài báo để dự đoán khả năng bài báo thuộc về một tập hợp các chủ đề.


Động cơ

[edit]

Làm thế nào để dự đoán một bài viết có chủ đề chung nào? Đáp câu hỏi này hữu ích cho các phân tích khác nhau về động lực Wikipedia. Tuy nhiên, rất khó để nhóm một loạt các bài viết Wikipedia thành các chủ đề liên tục, nhất quán bằng tay.

Mô hình này, một phần của bộ mô hình ORES, phân tích một bài viết để dự đoán khả năng của nó thuộc về một tập hợp các chủ đề. Mô hình tương tự (mặc dù không nhất thiết với cùng một mức độ hiệu suất hoặc các chủ đề, được triển khai trên khoảng một chục dự án khác.

Mô hình này có thể hữu ích cho các phân tích cấp cao về động lực Wikipedia (xem trang, chất lượng bài viết, chỉnh sửa xu hướng) và lọc bài viết.

Người dùng và sử dụng

[edit]
Use this model for
  • phân tích cấp cao về động lực Wikipedia như xem trang, chất lượng bài viết hoặc chỉnh sửa xu hướng - ví dụ: động lực xem trang khác nhau như thế nào giữa các loại vật lý và sinh học?
  • lọc các bài viết liên quan - ví dụ: chỉ lọc các bài báo trong danh mục âm nhạc.
Don't use this model for
  • xác định dứt khoát chủ đề mà một bài viết liên quan đến
  • chỉnh sửa tự động các bài viết hoặc chủ đề mà không có con người trong vòng lặp
Current uses

Mô hình này là một phần của ORES, và thường có thể truy cập thông qua API. Nó được sử dụng cho phân tích cấp cao của Wikipedia, nghiên cứu nền tảng và các nhiệm vụ khác trên wiki.

Example API call:
{{{model_input}}}

Các cân nhắc đạo đức, cảnh báo và khuyến nghị

[edit]
  • Mô hình này được đào tạo dựa trên dữ liệu hiện có nhiều năm tuổi (từ giữa năm 2020).
  • Mô hình này sử dụng Word2vec như một tính năng đào tạo. Word2vec, giống như các nhúng ngôn ngữ tự nhiên khác, mã hóa các thiên hướng ngôn ngữ của các tập dữ liệu cơ bản - dọc theo giới tính, chủng tộc, sắc tộc, tôn giáo vv. Vì Wikipedia đã biết thiên hướng trong văn bản của mình, mô hình này có thể mã hóa và đôi khi tái tạo những thiên hướng đó.
  • Mô hình này có hiệu suất rất biến đổi trên các chủ đề khác nhau - hãy xem số liệu thống kê thử nghiệm dưới đây để có được cảm giác về hiệu suất giữa các chủ đề.

Mô hình

[edit]

Hiệu suất

[edit]

Test data confusion matrix: {{{confusion_matrix}}}

Test data sample rates: {{{sample_rates}}}

Test data performance: {{{performance}}}

Thực hiện

[edit]
Model architecture
{{{model_architecture}}}
Output schema
{{{model_output_schema}}}
Example input and output
Input:
{{{model_input}}}

Output:

{{{model_output}}}

Dữ liệu

[edit]
Data pipeline
Dữ liệu để đào tạo được lấy từ một tập hợp ID sửa đổi. Sau đó các thông tin khác nhau về sửa đổi được trích xuất bằng cách sử dụng các quy trình tự động, và văn bản sửa đổi được đưa vào word2vec để có được một bài viết nhúng. Cuối cùng, các nhãn được lấy từ các loại cấp trung bình WikiProject mà bài viết được liên kết với.
Training data
Dữ liệu đào tạo được tự động và ngẫu nhiên tách ra từ dữ liệu thử nghiệm trong quá trình đào tạo bằng cách sử dụng drafttopic git repository (đã đào tạo cả các mô hình thảo luận và chủ đề bài viết).
Test data
Dữ liệu thử nghiệm được tự động và ngẫu nhiên tách ra khỏi dữ liệu tàu bằng cách sử dụng drafttopic git repository (đã đào tạo cả các mô hình thảo luận và chủ đề bài viết). mô hình sau đó đưa ra một dự đoán về dữ liệu đó, được so sánh với sự thật cơ bản để tính toán số liệu thống kê hiệu suất.

Giấy phép

[edit]

Quảng cáo

[edit]

Cite this model card as:

@misc{
  Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
  title={ {{{language}}} {{{project}}} article topic model card },
  author={ Triedman, Harold and Bazira, Kevin },
  year={ 2023 },
  url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/vi }
}