Template:Model card ORES article topic/vi
Model card | |
---|---|
This page is an on-wiki machine learning model card. | |
Model Information Hub | |
Model creator(s) | Aaron Halfaker (User:EpochFail) and Amir Sarabadani |
Model owner(s) | WMF Machine Learning Team (ml@wikimediafoundation.org) |
Model interface | Ores homepage |
Code | ORES Github, ORES training data, và ORES model binaries |
Uses PII | No |
In production? | Yes |
Which projects? | {{{language}}} {{{project}}} |
Mô hình này sử dụng đọc văn bản bài báo để dự đoán khả năng bài báo thuộc về một tập hợp các chủ đề. | |
Động cơ
[edit]Làm thế nào để dự đoán một bài viết có chủ đề chung nào? Đáp câu hỏi này hữu ích cho các phân tích khác nhau về động lực Wikipedia. Tuy nhiên, rất khó để nhóm một loạt các bài viết Wikipedia thành các chủ đề liên tục, nhất quán bằng tay.
Mô hình này, một phần của bộ mô hình ORES, phân tích một bài viết để dự đoán khả năng của nó thuộc về một tập hợp các chủ đề. Mô hình tương tự (mặc dù không nhất thiết với cùng một mức độ hiệu suất hoặc các chủ đề, được triển khai trên khoảng một chục dự án khác.
Mô hình này có thể hữu ích cho các phân tích cấp cao về động lực Wikipedia (xem trang, chất lượng bài viết, chỉnh sửa xu hướng) và lọc bài viết.
Người dùng và sử dụng
[edit]- phân tích cấp cao về động lực Wikipedia như xem trang, chất lượng bài viết hoặc chỉnh sửa xu hướng - ví dụ: động lực xem trang khác nhau như thế nào giữa các loại vật lý và sinh học?
- lọc các bài viết liên quan - ví dụ: chỉ lọc các bài báo trong danh mục âm nhạc.
- xác định dứt khoát chủ đề mà một bài viết liên quan đến
- chỉnh sửa tự động các bài viết hoặc chủ đề mà không có con người trong vòng lặp
Mô hình này là một phần của ORES, và thường có thể truy cập thông qua API. Nó được sử dụng cho phân tích cấp cao của Wikipedia, nghiên cứu nền tảng và các nhiệm vụ khác trên wiki.
Example API call:{{{model_input}}}
Các cân nhắc đạo đức, cảnh báo và khuyến nghị
[edit]- Mô hình này được đào tạo dựa trên dữ liệu hiện có nhiều năm tuổi (từ giữa năm 2020).
- Mô hình này sử dụng Word2vec như một tính năng đào tạo. Word2vec, giống như các nhúng ngôn ngữ tự nhiên khác, mã hóa các thiên hướng ngôn ngữ của các tập dữ liệu cơ bản - dọc theo giới tính, chủng tộc, sắc tộc, tôn giáo vv. Vì Wikipedia đã biết thiên hướng trong văn bản của mình, mô hình này có thể mã hóa và đôi khi tái tạo những thiên hướng đó.
- Mô hình này có hiệu suất rất biến đổi trên các chủ đề khác nhau - hãy xem số liệu thống kê thử nghiệm dưới đây để có được cảm giác về hiệu suất giữa các chủ đề.
Mô hình
[edit]Hiệu suất
[edit]Test data confusion matrix: {{{confusion_matrix}}}
Test data sample rates: {{{sample_rates}}}
Test data performance: {{{performance}}}
Thực hiện
[edit]{{{model_input}}}
Output:
{{{model_output}}}Dữ liệu
[edit]Giấy phép
[edit]- Code: MIT license
- Model: MIT license
Quảng cáo
[edit]Cite this model card as:
@misc{
Triedman_Bazira_2023_{{{language}}}_{{{project}}}_article_topic,
title={ {{{language}}} {{{project}}} article topic model card },
author={ Triedman, Harold and Bazira, Kevin },
year={ 2023 },
url={ https://meta.wikimedia.org/wiki/Model_card_ORES_article_topic/vi }
}