Research:Wikimedia France Research Award/nominated papers/fr
Étudier la coopération et les conflits entre auteurs avec des visualisations du flux d’historique
[edit]Étudier la coopération et les conflits entre auteurs avec des visualisations du flux d’historique est un article quantitatif orienté en visualisation des données. Il fait partie des premiers travaux qui ont posé les bases pour beaucoup des travaux postérieurs sur Wikipédia.
Voir le texte entier ici.
Résumé
[edit]Fernanda Viegas, Marin Wattenberg et Kushal Dave décrivent un système de visualisation qu’ils ont construit appelé flux d’historique qu’ils utilisent pour visualiser les changements faits sur les articles Wikipédia. Les auteurs suggèrent que leurs papiers rendent trois différentes contributions :
Le flux d’historique lui-même permet de révéler les motifs d’édition dans Wikipédia et de fournir un contexte pour les contributeurs. Plusieurs exemples de motifs de collaboration deviennent visibles en utilisant l’outil de visualisation et contribuent à la littérature sur Wikipédia. Des implications de ces motifs pour le design et la gouvernance des espaces sociaux en ligne.
Le document est en grande partie un examen de Wikipedia et les chapîtres les plus anciens donnent les connaissances de base sur les sites. Il utilise les lacunes dans la conception du Wikipedia pour justifier la visualisation du flux historique qui décrit essentiellement les articles, au fil du temps, avec des couleurs qui représentent les auteurs qui ont contribué au texte en question. L'interface est particulièrement bonne à représenter les principales supressions et insertions.
Les auteurs utilisent une analyse statistique faible pour révéler les tendances de l'édition sur Wikipedia. En particulier, ils montrent le vandalisme y compris la suppression en masse, la création de redirections vers des faux, et l'addition de copie idiosyncrasique et montrent qu'il reste rarement sur le site pendant plus de quelques minutes avant d'être retiré.
Ils montrent également un motif en zig-zag qui représente la négociation de contenu, souvent sous la forme de guerres d'éditions. Ils tentent également de fournir des données de base sur la stabilité de Wikipedia et la croissance des articles en moyenne. Ils suggèrent quelque chose qui est maintenant pris pour acquis par les chercheurs de wikis : que l'étude de Wikipedia peut avoir des conséquences importantes pour d'autres types de travaux.
La majeure partie de ce sommaire provient de celui poster sur acawiki.org.
Commentaires du jury
[edit]"Le papier est important plus pour son travail de pionnier sur Wikipedia - maintenant avec sa piste au CHI, que pour la visualisation du flux historique qui n'a pas, pour la plupart, été largement déployée en dehors de Wikipédia, mais qui semble prometteur dans une variété d'autres contextes. L'article a été cité plus de 400 fois, principalement dans la littérature académique sur Wikipedia."
Vote
[edit]- Zakiakhmad (talk) 09:37, 21 February 2013 (UTC)
- Bokken (talk) 10:50, 25 February 2013 (UTC)
- Benoilid (talk) 10:12, 21 March 2013 (UTC)
DBpedia: un noyau pour un Web de données ouvertes
[edit]DBpedia : Un noyau pour un Web de données ouvertes a été proposé en 2007 par Sören Auer, Christian Bizer, Georgi Kobilarov, Jens Lehmann, Richard Cyganiak et Zachary Ives.
Vous pouvez aussi regarder une vidéo de présentation du papier en suivant ce lien.
Résumé
[edit]DBpedia (voir le blog ici) est une démarche communautaire pour extraire de l’information structurée de Wikipédia et la rendre accessible sur le Web. La version en anglais de la base de connaissance de DBpedia comprend 3,77 millions de choses, dont 2,35 millions sont classées dans une ontologie consistante, mais il y a également des versions locales de DBpedia dans 111 langues.
DBpedia vous permet de formuler des requêtes sophistiquées dans des jeux de données dérivés de Wikipédia et de lier d’autres jeux de données du Web vers les données Wikipédia. Le papier décrit l’extraction des jeux de données DBpedia et la façon dont l’information résultante est publiée sur le Web pour l’utilisation par les humains et les machines. Quelques applications émergentes de la communauté DBpedia sont présentées et il est montré comment les auteurs de sites peuvent faciliter le contenu DBpedia dans leurs sites. Finalement, le statut actuel de la base interliens DBpedia avec d’autres jeux de données ouverts du Web est présenté ainsi que la façon dont DBpedia pourrait servir de noyau dans un Web émergent de données ouvertes.
Commentaires du jury
[edit]DBpedia: un noyau pour un Web de données ouvertes est le papier avec le plus de citations dans la liste finaliste du Prix Wikimedia, et une ouverture pour discuter du futur de Wikidata et des données sémantiques, un sujet majeur pour l’année à venir. Depuis 2007, il a été résisté au test du temps avec de nombreux développements comme Wikidata, Semanticpedia, et beaucoup de littérature liée.
C’est moins à propos d’analyser Wikipédia que de creuser dans ses ressources pour construire une base de connaissances collaboratives (au moins). C’est largement utilisé, et nous devons décider ce qui est jugé ici : le résultat de ce projet (qui est central dans le Linked Data Cloud), son influence, ou le papier lui-même ?
Bien qu’ils remplissent différentes tâches, DBpedia et le projet Wikidata ont beaucoup en commun. Il y a aussi un projet français similaire à DBpedia : Semanticpedia - http://lab.wikimedia.fr
C’est une description des étapes qui ont mené à la création d’un jeu de données généré à partir de Wikipédia. Ensuite, une fois que ce jeu de données a été produit proprement, rien n’empêche quiconque de l’utiliser pour avoir une meilleure compréhension de Wikipédia (c’est ce qui est arrivé avec la version française bien que le processus organisationel soit très différent de ce qui est décrit ici, WMF étant un partenaire dès le début).
Petermr (talk) 16:49, 18 February 2013 (UTC)
Vote
[edit]- Taha Yasseri (talk) 08:44, 18 February 2013 (UTC)
- Bien sûr puisque sur la wikipédia francophone des contributeurs ont réfléchi à la question depuis longue date. GLec (talk) 16:12, 18 February 2013 (UTC)
- Karima Rafes (talk) 08:36, 22 February 2013 (UTC)
- --Rudloff (talk) 11:47, 26 February 2013 (UTC)
- Johnbreslin (talk) 15:36, 6 March 2013 (UTC)
- Asaf Bartov (WMF Grants) talk 00:26, 8 March 2013 (UTC) superb contribution that keeps on giving. Validated even further by Wikidata.
- DBpedia is a valuable resource and especially interesting in relation to the recent development of Wikidata. Finn Årup Nielsen (fnielsen) (talk) 14:01, 11 March 2013 (UTC)
Un système de réputation centré sur le contenu pour Wikipédia
[edit]Un système de réputation lié au contenu pour Wikipédia par Thomas Adler et Luca de Alfaro a été publié dans les actes de la 16e Conférence Internationale du World Wide Web Conference de 2007
Voir le texte entier au bout de ce lien.
Résumé
[edit]L'article présente un système de réputation pour des auteurs de Wikipédia.
La plupart des systèmes de réputation, comme ceux qui sont en usage dans les réseaux sociaux ou dans les sites de e-commerce, reposent sur des échanges d'utilisateur à utilisateur, ou d'autres dispositifs d'évaluation. Dans le système de réputation que nous proposons, la réputation dépend du contenu: les contributeurs gagnent en réputation quand les modifications qu'ils apportent sont conservées par les contributeurs suivants. De même, les contributeurs perdent en réputation quand leurs modifications sont révoquées, ou rapidement défaites. Par conséquent, la réputation d'un contributeur n'est calculées qu'en fonction de l'évolution du contenu: en particulier, elle ne dépend pas de l'influence de « mauvaises langues » ni de louangeurs « rameutés ».
L'évolution du contenu est computée tant en espérance de vie du texte (si le texte est supprimé ou pas) qu'en espérance de vie éditoriale (dans quelle mesure la structure de l'article est préservée après la modification suivante)
La réputation du contributeur peut être utilisée pour baliser les nouvelles modifications des contributeurs avec une mauvaise réputation, ou bien pour n'autoriser que les contributeurs avec une très bonne réputation à modifier les articles critiques ou sujets à controverse. Un système de réputation pour Wikipédia pourrait aussi accroître la motivation pour la production de contributions de haute qualité.
Les auteurs aussi mettent en place le système qu'ils proposent, et l'utilisent pour analyser l'intégralité des Wikipedia italophone et francophone pendant leur cinq premières années d'existence (ce qui représente au total 691 551 pages et 5 587 523 modifications), avec des résultats qui montrent que la notion de réputation qu'ils proposent a une bonne valeur prédictive. Des résultats calculés par cette méthode sont testés par un groupe de sept volontaires, sur un échantillon de modifications apportées à la Wikipedia en italien.
- Les modifications apportées par les contributeurs non identifiés sont celles qui ont une espérance de vie la plus faible
- Les modifications apportées par les contributeurs avec une mauvaise réputation ont une probabilité considérablement plus grande d'être de moindre qualité ou d'être défaites par la suite
- La comparaison avec la réputation fondée sur l'edit-count (la réputation est proportionnelle au nombre de modifications réalisées) montre que la réputation fondée sur le contenu a une valeur prédictive légèrement supérieure
- La réputation d'un contributeur est aussi un facteur utile pour la prédiction de la probabilité de survie d'un ajout de texte
Commentaires du jury
[edit]Un auteur d'importance majeure dans le long débat sur la qualité des articles, qui est encore un sujet brûlant. Thomas Adler et Luca de Alfaro ont continué à travailler sur le sujet depuis 2007 et ont affiné leur méthode.
Vote
[edit]- Even though the resulting Wikitrust software did not become as widely used as once anticipated, it has been an innovative and influential approach. This appears to have been the first academic paper making use of a content persistence metric as quantitative indicator for content quality. Tbayer (WMF) (talk) 22:47, 10 March 2013 (UTC)
- Warfair (talk) 01:32, 19 March 2013 (UTC)
Créer, détruire et restaurer de la valeur sur Wikipédia
[edit]Créer, détruire et restaurer de la valeur sur Wikipédia est un article classique et novateur publié à la conférence ACM sur le Supporting Group Work (GROUP) en 2007.
Voir le texte entier ici.
Résumé
[edit]L’article annonce une approche quantitative pour mesurer l’impact d’une contribution. Les six auteurs (Reid Priedhorsky, Jilin Chen, Shyong (Tony) K. Lam, Katherine Panciera, Loren Terveen, and John Riedl) ont travaillé au laboratoire de recherche GroupLens à l’Université du Minnesota.
Ils suggèrent de quantifier l'impact d'une édition donnée par le nombre de fois que la version modifiée est consultée. Le concept de vue persistante d'un mot (Persistent Word View = PWV) est construit sur la notion d'une vue d'article: chaque fois qu'un article est vu, chacun de ses mots est également vu. Quand un mot écrit par l'éditeur X est vu, il est crédité d'un PWV.
Ils utilisent une série de jeux de données sur quatre années, l'analyse de 4,2 millions de rédacteurs et 58 millions de modifications, avec des résultats qui soulignent l'importance des éditeurs fréquents, qui dominent ce que les gens voient quand ils visitent Wikipedia, et montrent que cette domination est en augmentation. Par exemple, les 10% des plus grands éditeurs par nombre de modifications ont contribué à 86% du PWV, et les 0,1% plus grands ont contribué 44%.
Ils mettent en œuvre une mesure de détection de vandalisme en utilisant uniquement les commentaires associés aux modifications bloquées. La mesure est mise en œuvre à travers un protocole de recherche sophistiqué automatisé/humain, avec des résultats montrant la rapidité de la réparation des dommages (42% des incidents sont réparés immédiatement, avec 0,75% persistant au-delà de 1000 vues). Fait intéressant, ils prennent en compte non seulement combien de temps les articles sont restés dans un état endommagé, mais aussi combien de fois ils ont été consultés dans cet état. Bien que l'impact global des dommages dans Wikipedia est faible, ils montrent qu'il est en hausse: l'apparition de robots de réparation de vandalisme au début de 2006 semblant avoir maîtrisé la croissance exponentielle.
Basé sur des travaux antérieurs, comme en 2004 "Etude de coopération et de conflit entre les auteurs avec des visualisations de flux de l'histoire" (également en nomination pour ce prix) ils utilisent ses catégories de dommages aux articles (absurde, offensive, faux contenu...), mais aussi ils corrigent et ajoutent quelques-unes de leurs propres catégories (désinformation, suppression partielle, Spam). Employant le jugement humain, ils démontrent que la plupart des dommages appartient à la catégorie de « non-sens. »
Commentaires du jury
[edit]idées séminales, approche quantitative, beaucoup de contenu
Vote
[edit]- Very useful measure of edit impact. Avenue (talk) 00:12, 25 February 2013 (UTC)
- Interesting work --PierreSelim (talk) 13:29, 26 February 2013 (UTC)
- Ypnypn (talk) 13:55, 6 March 2013 (UTC)
- Most definitely; the D_LOOSE and D_STRICT regular expressions alone would win this a prize. Ironholds (talk) 21:22, 9 March 2013 (UTC)
- Introduces several broadly relevant new metrics for assessing edit impact & article quality; shows the importance of Wikipedia's core editor base in creating and maintaining the value of the encyclopedia, refuting the commonsense notion that Wikipedia is somehow a product of a nameless, faceless "crowd". And exposes both the ways in which Wikipedia and open wikis in general are vulnerable to quality degradation, and the robust mechanisms that exist to combat it. Best of the five! Disclosure: I have co-authored a research paper with the last author. Jtmorgan (talk) 21:27, 10 March 2013 (UTC)
- Tbayer (WMF) (talk) 22:31, 10 March 2013 (UTC)
- "Persistent word view" is a interesting idea. Finn Årup Nielsen (fnielsen) (talk) 13:57, 11 March 2013 (UTC)
L’Histoire peut-elle être open source ? Wikipédia et le futur du passé
[edit]L’Histoire peut-elle être open source ? Wikipédia et le futur du passé. Par Roy Rosenzweig, publié dans The Journal of American History en 2006.
Voir le texte entier au bout de ce lien ou la version HTML qui inclut des documents en couleurs.
Résumé
[edit]Roy Rosenzweig était professeur d’Histoire à l’Université George Mason, il a présenté un article sur Wikipédia dans la perspective d’un historien : « L’Histoire peut-elle être open source ? Wikipédia et le futur du passé » comme l’analyse d’un historien complétant la discussion menée sous la loupe importante, mais différente, des journalistes et scientifiques.
Rosenzweig met l’accent, non seulement sur l'exactitude des faits, mais aussi sur la qualité de la prose et le contexte historique de thèmes. Il commence par une présentation détaillée de la façon dont Wikipédia a été créée par Jimmy Wales et Larry Sanger et décrit leurs tentatives précédentes pour créer une encyclopédie libre en ligne. La première tentative de Wales et de Sanger pour diffuser des ressources fiables, appelée Nupedia, nous éclaire sur la principale préoccupation des créateurs, dès le tout début du projet, concernant l’exactitude et la fiabilité des auteurs.
Le travail de Rosenzweig vient s’ajouter à un nombre croissant de recherches pour essayer de déterminer le degré d’exactitude de Wikipédia, dans son analyse comparative à ce sujet avec d’autres références historiques en ligne, notamment dans les lignes similaires de l'étude du journal Nature. Il compare les entrées de Wikipédia avec des ressources en ligne de Microsoft Encarta et de l’American National Biography Online (ANBO). Là où Encarta est destiné à un grand public, l’American National Biography Online est une ressource d’Histoire plus spécialisée. Rosenzweig prend un échantillon de 52 entrées parmi les 18 000 trouvées dans l’ANBO et les compare avec les entrées correspondantes dans Encarta et dans Wikipédia. En termes de couverture, Wikipédia contient plus d'informations concernant l’échantillon qu’Encarta. Bien que la longueur des articles de Wikipédia n’atteint pas le niveau d’ANBO, les articles de Wikipédia étaient plus longs que les entrées d’Encarta. En outre, en terme de précision, Wikipédia et Encarta semblent essentiellement au même niveau, ce que confirme une conclusion similaire atteinte dans l'étude de Nature dans sa comparaison de Wikipédia et de l’Encyclopédie Britannica.
Ensuite, Rosenzweig traite de l’effet de l'écriture collaborative de plusieurs façons plus qualitatives. Il note que l’écriture collaborative conduit souvent à une prose moins convaincante. Des styles d’écriture différents, des intérêts et des motivations divergents, des niveaux variables de capacité à écrire sont autant de facteurs influents dans la qualité d’un texte écrit. Les articles de Wikipédia peuvent être pour la plupart des faits exacts, mais ne sont pas aussi souvent bien écrits ou historiquement pertinents pour deviner quel est le sujet traité. En raison de l'hétérogénéité des auteurs, les articles pêchent souvent par manque de cohérence dans l’élargissement de la conversation historique. ANBO a des entrées bien conçues, cependant, elles sont souvent rédigées par des historiens renommés.
Cependant, la qualité de l’écriture doit être mise en face de l’accessibilité. ANBO est basé sur l'abonnement, tandis que Wikipédia est libre, ce qui révèle comment l’accès à une ressource joue un rôle en soi. En tant que produit de l’historien amateur, Rosenzweig commente la tension qui se créée lorsque les historiens professionnels s’engagent avec Wikipédia. Il note qu’on assiste à l’apparition de faits intéressants, mais l’historien chevronné s’interrogera sur leur signification historique. En outre, l’historien professionnel a une grande préoccupation pour les références des citations et des sources, ce qui n’est pas aussi rigoureusement appliqué dans Wikipédia.
En raison de son utilisation répandue et croissante, Wikipédia remet en cause l’autorité de l’historien professionnel et ne peut donc pas être ignorée. La tension pose des questions sur les obligations des historiens professionnels envers Wikipédia. Sur ce point, Rosenzweig note qu’il y a une obligation et un besoin de fournir au public une information de qualité dans Wikipédia comme dans tout autre endroit.
Rosenzweig conclut en se projetant en avant et décrit ce que l’historien professionnel peut apprendre des modèles ouverts de production collaborative. En outre, il note des possibilités intéressantes telles que le manuel collaboratif en source ouverte, ainsi que des défis tels que la façon de citer et référencer correctement les efforts collaboratifs.
La plus grande partie de ce résumé provient de celui publié par ray cha.
Commentaires du jury
[edit]Un article de réflexion / un essai qui contraste avec les articles scientifiques classiques, mais d’une lecture très stimulante.
Rosenzweig était un pionnier dans l’histoire numérique, incorporant les nouveaux médias et la technologie numériques avec l’histoire, afin d’explorer de nouvelles possibilités pour atteindre une audience plus large et plus diversifiée.
Commentaires par Glyn Moody.
L’essai est long, mais il vaut mieux le lire tout au long de sa comparaison détaillée de Wikipédia et des ouvrages de référence traditionnels. Une de ses observations perspicaces est la suivante :
- Dans l’ensemble, l’écriture est le talon d’Achille de Wikipédia. Les comités écrivent rarement bien, et les articles de Wikipédia ont souvent une qualité instable qui résulte de l’assemblage de phrases ou paragraphes écrits par des personnes différentes. Certains Wikipédiens offrent leurs services en tant que rédacteurs et polissent le texte des différents articles. Mais ils semblent moins nombreux que les autres types de bénévoles. Peu de rédacteurs réellement doués contribuent à Wikipédia.
--Alouache (talk) 09:18, 23 March 2013 (UTC)=== Vote ===
- This is an insightful well-written analysis of Wikipedia epistemology. Definitly a classic of Wiki Studies. Alexander Doria (talk) 17:33, 18 February 2013 (UTC)
- Per Alexander Doria. Gentil Hibou (talk) 09:15, 19 February 2013 (UTC)
- Classic. Shame Roy is no longer with us. --Piotrus (talk) 18:29, 19 February 2013 (UTC)
- za (talk) 09:45, 21 February 2013 (UTC)
- Bokken (talk) 10:51, 25 February 2013 (UTC)
- Useful, anyway. --Ambre Troizat (talk) 15:17, 25 February 2013 (UTC)
- A brilliant paper. Peter Damian (talk) 18:49, 25 February 2013 (UTC)
- Rudloff (talk) 11:48, 26 February 2013 (UTC)
- Per Alexander Doria --PierreSelim (talk) 13:35, 26 February 2013 (UTC)
- Per Alexander Doria - wish many more readers to have a look to it. --Ttzavaras (talk) 21:02, 26 February 2013 (UTC)
- Love this one. A Wikipediaology must-read! --Dimi z (talk) 17:59, 4 March 2013 (UTC)
- --Charles Andrès (WMCH) 11:11, 6 March 2013 (UTC)
- Sfauqueur (talk) 14:08, 6 March 2013 (UTC)
- Ypnypn (talk) 13:57, 6 March 2013 (UTC)
- This paper is fundamental to Wikipedia history - Rosenzweig was the first historian to understand the significance of what we do, and this paper gave legimacy to the idea of researching WP in the humanities. My own thesis about the historiography of Wikipedia [1] was only approved as a topic because I was able to point to Rosenzweig's paper. Wittylama (talk) 00:53, 8 March 2013 (UTC)
- --Sgatoux (talk) 09:21, 19 March 2013 (UTC)