Jump to content

Wikipédia abstraite/Travaux liés et précédents/Génération en langue humaine

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Abstract Wikipedia/Related and previous work/Natural language generation and the translation is 100% complete.

La Wikipédia abstraite générera du texte en langue humaine depuis une représentation abstraite. Ceci n'est pas une idée nouvelle et cela a été tenté de nombreuses fois auparavant.

Cette page vise à collecter les différentes approches existantes. Elle tente de résumer les idées essentielles des différentes approches, leurs avantages et inconvénients, et de pointer les mises en œuvre existantes. Cette page (par et pour la communauté) aidera à choisir vers quelle approche nous nous contentrerons d’abord.

Mises en œuvre

Arria NLG
ASTROGEN
Chimera
Elvex
FUF/SURGE
Genl
GoPhi
Grammar Explorer
Grammatical Framework
  • Wikipédia : Grammatical Framework [ en ] [ nn ]
  • Site Internet : https://www.grammaticalframework.org/
  • Licence : GNU General Public License: see text
  • Langues prises en charge : Afrikaans, Amharic (partial), Arabic (partial), Basque (partial), Bulgarian, Catalan, Chinese, Czech (partial), Danish, Dutch, English, Estonian, Finnish, French, German, Greek ancient (partial), Greek modern, Hebrew (fragments), Hindi, Hungarian (partial), Interlingua, Italian, Japanese, Korean (partial), Latin (partial), Latvian, Maltese, Mongolian, Nepali, Norwegian bokmål, Norwegian nynorsk, Persian, Polish, Punjabi, Romanian, Russian, Sindhi, Slovak (partial), Slovene (partial), Somali (partial), Spanish, Swahili (fragments), Swedish, Thai, Turkish (fragments), and Urdu.
jsRealB
KPML
Linguistic Knowledge Builder
Multimodal Unification Grammar
NaturalOWL
NLGen and NLGen2
OpenCCG
rLDCP
RoseaNLG
Semantic Web Authoring Tool (SWAT)
SimpleNLG
SPUD
Suregen-2
Syntax Maker
TGen
Universal Networking Language
UralicNLP
  • Site Internet : https://uralicnlp.com/
    https://github.com/mikahama/uralicNLP
  • Langues prises en charge : Finnish, Russian, German, English, Norwegian, Swedish, Arabic, Ingrian, Meadow & Eastern Mari, Votic, Olonets-Karelian, Erzya, Moksha, Hill Mari, Udmurt, Tundra Nenets, Komi-Permyak, North Sami, South Sami and Skolt Sami[1]

Contexte théorique

Propulsé par Wikidata

La Natural language generation [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ] [ 中文 ] est un sous-champ du natural language processing. Voir le sujet plus large sur Scholia.[2]

Modèle en pipeline

Dans leur étude de 2018,[3] Gatt[4] et Krahmer[5] commencent par décrire la natural language generation comme la « tâche de générer du texte ou de la parole depuis une entrée non lingusitique. » Ils identifient six sous-problèmes (d’après Reiter & Dale 1997, 2000[6]) [2.NLG Tasks, pp. 70–82]:[3]

  1. Content determination (détermination du contenu (Q5165077))
  2. Text structuring (structuration de document (Q5287648))
  3. Sentence aggregation (agrégation (Q4692263))
  4. Lexicalisation (lexicalisation (Q6537688))
  5. Referring expression generation (génération d’expression référente (Q7307185))
  6. Linguistic realisation (réalisation (Q7301282))

Veuillez noter que les six sujets listés ci-dessus n'ont des articles que sur l'édition en anglais de Wikipédia (au 24 juillet 2020).

Ces six sous-problèmes peuvent être vus comme une segmentation du « pipeline », débutant par les tâches « préliminaires », alignées vers le but de la sortie linguistique. Les tâches « tardives » sont davantage alignées vers la forme linguistique finale. Une forme résumée pourrait être « Quoi (1), ordonné (2) et segmenté (3) comment, avec quels mots (4 et 5), sous quelles formes (6)”. La lexicalisation (4) n’est pas clairement distinguée de la « génération d’expression référente » (REG) (5) dans sa forme résumée. L’idée clé durant la REG est d’éviter toute répétition ou ambiguïté et de gérer la tension entre ces buts conflictuels. Cela correspond à la maxime gricéenne (Grice, 1975[7]) que « les locuteurs devraient s’assurer que leurs contributions sont suffisamment informatives pour les buts de l’échange, mais pas davantage » (ou, comme Roger Sessions a dit (1950) après Albert Einstein (1933) : « chaque chose devrait être aussi simple que possible, mais pas plus simple ! »).

Détermination du contenu

Structuration de document

Agrégation

Lexicalisation

Génération d’expression référente

Réalisation

« En linguistique, la réalisation est le processus par lequel un certain type de représentation de surface est dérivé de sa représentation soujascente ; c’est-à-dire, la façon par laquelle un certain objet abstrait d’analyse linguistique vient à être produit en langue effective. Les phonèmes sont souvent dits être réalisés par les sons de la parole. Les différents sont qui peuvent réaliser un phonème particulier sont appelés ses allophones. »
« La réalisation est également une sous-tâche de la génération de langue naturelle (GLN), ce qui implique de créer un texte réel dans une langue humaine (anglais, français, etc.) depuis une représentation syntaxique. »
Wikipédia en anglais
(contributeurs de Wikipédia , « Réalisation », Wikipédia, l'encyclopédie libre, 26 mais 2020, 02:46 UTC, <https://en.wikipedia.org/w/index.php?title=Realization&oldid=958866516> [accédée le 31 août 2020].)


Approche en boîte noire

Dans une étude ultérieure, Gârbacea et Mei[8] ont suggéré la « génération de langue neurale » comme un sous-chanp de la GLH. Onze des papiers cités dans leur étude ont des titres comprenant les mots « langue neurale  », le plus précoce daté de 2016 (Édouard Grave, Armand Joulin, and Nicolas Usunier)[9]. La première citation dans laquelle « langue neurale  » apparaît date de 2017 (Jessica Ficler and Yoav Goldberg)[10].

En mi-2020, la « génération de langue neurale  » n’est pas assez mature pour être utilisée pour générer des rendus en langue humaine de contenu en langue neutre.

Références

  • Jessica Ficler and Yoav Goldberg, 2017[10]
  • Édouard Grave, Armand Joulin, and Nicolas Usunier, 2016[9]
  • Gârbacea and Mei, 2020[8]
  • Gardent et al., 2017[11]
  • Gatt & Krahmer, 2018[3]
  • Grice, 1975[7]
  • Reiter & Dale, 2000[6] (PDF ends at the end of the first section.)

Liens externes

Notes

  1. https://models.uralicnlp.com/nightly/
  2. The Scholia view on Natural-language generation lacked the standard sources and leading authors on 27 July 2020. Instead, see Google Scholar.
  3. a b c Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24 
  4. publications de Gatt
  5. Emiel Krahmer (Q51689943) publications sélectionnées
  6. a b Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27 
  7. a b Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10 
  8. a b Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08, Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations. 
  9. a b Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF) 
  10. a b Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104 . Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
    Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF) 
  11. Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133