Lingua Libre est un projet développé par Wikimédia France, qui vise à produire un corpus audiovisuel multilingue collaboratif sous licence libre, afin de : Enrichir le savoir sur les langues et dans les langues de manière audiovisuelle sur le web, sur les projets Wikimédia et en dehors ; Soutenir le développement de communautés linguistiques en ligne — notamment celles des langues peu dotées, minoritaires, régionales, orales ou signées — afin de faciliter l’accès des communautés à l’information en ligne, et d’assurer la vitalité des langues de ces communautés.
Lexemes Wikidata, où les trouver et comment les utiliser ?
Description
Wikidata est un graphe de connaissances multilingue édité de manière collaborative et hébergé par la Wikimedia Foundation. Il a débuté en 2012 et compte aujourd'hui plus de 12 milliards de données sur 93 millions de concepts. En 2018, un espace de nom pour les Lexemes (unités de sens lexical) a été ajouté pour stocker les besoins spécifiques des données lexicographiques.
Wikimedia Incubator est un projet de la Wikimedia Foundation qui vise à organiser la création de nouveaux wikis linguistiques appartenant à Wikimedia. Comme son nom l'indique, la plateforme incube de nouvelles versions linguistiques de projets Wikimedia - tels que l'encyclopédie Wikipédia, le guide de voyage Wikivoyage, la collection Wikiquote ou le dictionnaire Wiktionary ; avant d'atteindre pleinement le statut d'édition wiki dudit projet. La plateforme permet d'organiser, de préparer, d'éditer, de tester et de coordonner la nouvelle édition linguistique qui sera éventuellement hébergée par la Wikimedia Foundation. Wikimedia Incubator est une étape obligatoire avant de lancer de nouvelles versions linguistiques de projets Wikimedia.
Kumoontun est un mot en Ayöök qui signifie "travail collectif au profit de la population". C'est la philosophie de notre travail au sein du collectif du même nom, où nous générons du matériel et des outils numériques pour les enfants, les enseignants, les parents et les professeurs en fonction de la langue et du contexte de leurs peuples d'origine. L'un de ces outils est l'application Kumoontun que nous avons développée il y a trois ans pour apprendre la langue Ayöök. Notre objectif est de partager et d'interagir avec d'autres utilisateurs, mais aussi de fournir du matériel didactique dans différentes langues maternelles, comme des histoires, des narrations, des vidéos et des chansons.
Une autre des caractéristiques que nous considérons comme essentielle pour que le kumoontun soit possible est que les matériaux dont nous disposons soient mis à la disposition du public gratuitement et avec la possibilité qu'ils soient imprimés ou traduits. Par exemple, le livre de contes pour enfants "Pixk" a été traduit en Popti' Maya du Guatemala, en Tének du Mexique central, en anglais et bientôt en Mixe dans ses différentes variantes : Ayuujk, Ayuuk, Eyuk et Ayuk.
Atelier collaboratif de traduction des mots numériques en langues africaines sur Internet
Description
Les ateliers d'écriture en langues africaines sur Internet sont des séances de travail organisées par le collectif IdemiAfrica pour la transcription en langues africaines de termes numériques génériques afin de disposer d'une base de données d'expressions pour participer à la traduction des grands CMS en langues africaines. C'est une des activités d'IdemiAfrica, un collectif né de la volonté de rendre les langues africaines plus visibles sur le web à travers la plateforme https://idemi.africa Durant ContribuLing, nous animerons un atelier d'écriture en mettant à disposition des participants un fichier de référence contenant les expressions à traduire, ainsi que des ressources pour faciliter l'écriture en langues sur un téléphone ou un ordinateur.
Mettre une langue en danger/rare/morte dans le Wiktionnaire
Description
Le Wiktionnaire est un projet frère de Wikipédia. C’est un dictionnaire en ligne collaboratif qui a pour vocation de décrire tous les mots de toutes les langues, en français dans la version francophone. Dans cette dernière, il décrit déjà presque 4,3 millions de formes venant de 4 800 langues : ce faisant, il s’agit du plus grand dictionnaire existant. Sa nature numérique lui permet d’associer beaucoup d’information à chaque mot : étymologie, champ lexical, prononciations audio, exemples d’usages, illustration, traductions… Il est construit et maintenu par une communauté de passionnés composée de plusieurs centaines de personnes. Après une introduction au fonctionnement du projet, la présentation se divisera en trois parties. Nous commencerons par l’aspect de la description des langues rares, en danger ou mortes dans le Wiktionnaire, puis nous passerons au cas d’une langue bien décrite (le gaulois), et nous terminerons par une langue en cours de description : le lorrain.
Outils et expériences du Wiktionnaire en langue Tacawit
Description
Wiktionnaire est un projet lexicographique de la Wikimedia Foundation, dont l’objectif est de définir tous les mots dans toutes les langues. Il existe plus de 150 langues de rédaction1. Le terme « Wiktionnaire » désigne la version en français de ce projet, Wiktionary étant le nom officiel en anglais. Il est fondé sur un système de wiki et son contenu est librement réutilisable (sous CC-BY-SA).
Le Congrès permanent de la langue occitane et les outils de Wikimedia : un enrichissement mutuel
Description
Pour les langues minorisées qui souhaitent avancer dans le domaine du TAL (traitement automatique du langage), la mutualisation de données est indispensable. Cette mutualisation passe notamment par l'utilisation de plateformes collaboratives, comme les divers outils proposés par la fondation Wikimedia. Dans cette présentation, nous allons mettre l'accent sur certains d'entre eux (Lingua Libre, Wikidata, Wikipèdia en occitan) en expliquant comment Le Congrès les utilise pour développer ses propres outils. Exemple 1 : Utilisation de Lingua Libre pour enregistrer des mots à intégrer à un multidictionnaire occitan Exemple 2 : Contribution à Wikidata lexèmes dans l'objectif de développer l'analyse sémantique : création d'un bot de versement automatique de lexiques de formes fléchies et d'un serious game permettant de lier les lexèmes aux concepts qu'ils représentent Exemple 3 : Mise en ligne d'une notice pour une activité pédagogique de réalisation de mini-documentaire en occitan, en contribuant à Wikidata, Wikipèdia et Wikimedia Commons
Extraire un dictionnaire de prononciation massivement multilingue depuis Wiktionary
Description
WikiPron (Lee et al. 2020) est une bibliothèque logicielle Python gratuite utilisée pour extraire des dictionnaires de prononciation depuis Wiktionary, un dictionnaire en ligne multilingue gratuit et collaboratif. Ces dictionnaires peuvent être utilisés pour construire des modèles de conversion graphème-phonème (par exemple, Gorman et al. 2020, en préparation), un élément clé des moteurs de reconnaissance et de synthèse vocales. La conception de WikiPron est décrite, ainsi que sa mise à l'échelle pour supporter 215 langues. Les projets d'assurance qualité et de validation en cours sont ensuite passés en revue, ainsi que les plans futurs visant à améliorer la qualité des données "en amont" (c'est-à-dire Wiktionary). Les participants apprendront à installer et à utiliser WikiPron, et à contribuer à l'assurance qualité dans la langue de leur choix.
Living Dictionaries:Une plateforme web pour protéger les langues en danger et maintenir la diversité linguistique mondiale
Description
Les dictionnaires vivants sont des outils web multimédia collaboratifs qui peuvent aider les langues à survivre pour les générations à venir. Idéaux pour le maintien des langues autochtones et diasporiques, les dictionnaires vivants sont des ressources jamais épuisées et extensibles à l'infini. Ils vont bien au-delà d'un dictionnaire statique imprimé, combinant des données linguistiques avec des enregistrements audio numériques de locuteurs natifs, des photos et des vidéos. Les dictionnaires vivants répondent au besoin urgent de fournir des outils technologiques complets et librement accessibles aux linguistes engagés dans la documentation et aux activistes communautaires dans leurs efforts de conservation et leurs programmes de revitalisation. Le public visé par cette application Web est inclusif, diversifié et multilingue. Les gestionnaires et les contributeurs du Dictionnaire vivant peuvent créer de nouvelles entrées, modifier des entrées, ajouter des images, télécharger des fichiers audio, ainsi qu'enregistrer directement dans les dictionnaires à l'aide de microphones sur des smartphones ou des ordinateurs portables.
Démarré en 2003, Wikisource est l'un des plus anciens projets frères de Wikipédia. L'objectif de Wikisource est de numériser des œuvres libres (comme dans le domaine public ou sous licence libre). Il existe plusieurs outils spécialisés disponibles sur Wikisource qui ne sont pas présents dans les Wikipédias. Wikisource est divisé en 72 sous-domaines linguistiques (plus un multilingue comme incubateur). Récemment, il a connu une sorte de résurgence, avec plus d'attention et plus d'activités en cours - en particulier dans les langues indiennes. De plus, chaque Wikisource contient une grande variété de documents linguistiques, comme des dictionnaires et des grammaires. Pour être dans le domaine public, ces documents sont vieux (70+ ans) mais pourraient encore être utiles à bien des égards (pour l'analyse diachronique, pour comparer l'évolution des mots). L'atelier montrera comment relire des textes sur Wikisource. Il permettra aux participants d'apprendre à contribuer et à prendre part à la communauté Wikisource. Tout d'abord, nous présenterons : les projets existants sur Wikisource, le statut de la relecture, comment demander de l'aide. Ensuite, l'atelier commencera et chaque participant pourra travailler sur quelques pages. Enfin, nous discuterons des étapes à suivre pour lancer un nouveau projet de relecture.
Explorer, analyser et traduire les propriétés multilingues de Wikidata
Description
Wikidata évolue grandement. De nouvelles propriétés sont proposées, discutées, créées et supprimées régulièrement. Il est très difficile de connaître les dernières informations sur le nombre total de propriétés, les nouvelles propriétés, les nouveaux types de données, les nouveaux WikiProjets, les langues supportées, etc. à moins que les contributeurs n'écrivent des requêtes (complexes) sur le service d'interrogation de Wikidata. Les utilisateurs, en particulier les nouveaux venus qui souhaitent contribuer, ne connaissent pas les différents moyens par lesquels ils peuvent se documenter et contribuer. Par exemple, les utilisateurs posent souvent la question de savoir comment documenter un monument historique, une personne, un livre, un logiciel, etc. WDPropp fournit une interface visuelle pour répondre à ces questions. Il aide également les utilisateurs à comprendre et à améliorer les informations multilingues liées aux propriétés de Wikidata. Chaque propriété possède trois informations principales qui doivent être traduites : l'étiquette, la description et les alias. Une propriété peut n'avoir aucune, certaines ou toutes ces informations dans une langue donnée. Ainsi, pour une langue donnée, les propriétés peuvent être séparées en deux catégories : les propriétés traduites et les propriétés non traduites. Un contributeur peut souhaiter se concentrer sur la traduction des étiquettes ou d'un ensemble particulier de propriétés, comme celles appartenant à une classe de propriétés particulière ou à un WikiProject. WDProp aide les contributeurs à trouver les propriétés qui nécessitent une traduction. Les utilisateurs peuvent également visualiser l'historique du processus de traduction et même détecter un éventuel vandalisme. Enfin, les utilisateurs peuvent également rechercher des WikiProjects pertinents liés à leur domaine.