Abstrakte Wikipedia/Verwandte und frühere Arbeiten/Textgenerierung
Abstrakte Wikipedia |
---|
(Diskussion) |
Allgemein |
Entwicklungsplan |
|
Anmerkungen, Entwürfe, Diskussionen |
|
Beispiele und Modelle |
Datenwerkzeuge |
Historisch |
Die Abstrakte Wikipedia generiert natürlichsprachigen Text aus einer abstrakten Darstellung. Dies ist keine neue Idee und wurde bereits mehrfach ausprobiert.
Diese Seite hat das Ziel, verschiedene bestehende Ansätze zu sammeln. Sie versucht, die Kernideen der verschiedenen Ansätze, ihre Vor- und Nachteile zusammenzufassen, und verweist auf bestehende Implementierungen. Diese Seite (von und für die Community) soll helfen, zu entscheiden, auf welchen Ansatz man sich zuerst konzentrieren möchte.
Implementierungen
- Arria NLG
- Wikipedia: Arria NLG [ de ] [ en ] [ nn ]
- Website: https://www.arria.com/
- Lizenz: Proprietary, 30 patents apply
- Unterstützte Sprachen: English
- ASTROGEN
- Chimera
- Website: https://github.com/AmitMY/chimera
- Lizenz: MIT License
- Elvex
- FUF/SURGE
- Genl
- Website: http://kowey.github.io/GenI/
- GoPhi
- Website: https://github.com/rali-udem/gophi
- Grammar Explorer
- Grammatical Framework
- Wikipedia: Grammatical Framework [ en ] [ nn ]
- Website: https://www.grammaticalframework.org/
- Lizenz: GNU General Public License: see text
- Unterstützte Sprachen: Afrikaans, Amharic (partial), Arabic (partial), Basque (partial), Bulgarian, Catalan, Chinese, Czech (partial), Danish, Dutch, English, Estonian, Finnish, French, German, Greek ancient (partial), Greek modern, Hebrew (fragments), Hindi, Hungarian (partial), Interlingua, Italian, Japanese, Korean (partial), Latin (partial), Latvian, Maltese, Mongolian, Nepali, Norwegian bokmål, Norwegian nynorsk, Persian, Polish, Punjabi, Romanian, Russian, Sindhi, Slovak (partial), Slovene (partial), Somali (partial), Spanish, Swahili (fragments), Swedish, Thai, Turkish (fragments), and Urdu.
- jsRealB
- KPML
- Website: http://www.fb10.uni-bremen.de/anglistik/langpro/kpml/README.html
- Unterstützte Sprachen: (2014):
- More advanced: Czech, English, German?, Spanish
- Prototype: Bulgarian, Chinese, Dutch, Portuguese, Russian
- Less advanced: French, Greek, Japanese
- Linguistic Knowledge Builder
- Website: http://moin.delph-in.net/LkbTop
- Multimodal Unification Grammar
- NaturalOWL
- NLGen and NLGen2
- OpenCCG
- Website: http://openccg.sourceforge.net/
- rLDCP
- RoseaNLG
- Website: https://rosaenlg.org/
- Unterstützte Sprachen: English, French, German and Italian
- Semantic Web Authoring Tool (SWAT)
- Wikipedia: WYSIWYM [ en ] [ nn ] A SWAT is a tool that implements the WYSIWYM (what you see is what you meant) interaction technique for developing formal representations based on successive refinements (by humans) of NLG outputs.
- Website: http://mcs.open.ac.uk/nlg/SWAT/
- Unterstützte Sprachen: OWL Simplified English
- SimpleNLG
- Website: https://github.com/simplenlg/simplenlg
- Unterstützte Sprachen: English, French
- SPUD
- Suregen-2
- Website: http://www.suregen.de/index.html
- Unterstützte Sprachen: German, English
- Syntax Maker
- Website: https://github.com/mikahama/syntaxmaker
- Unterstützte Sprachen: Finnish
- TGen
- Website: https://github.com/UFAL-DSG/tgen
- Universal Networking Language
- UralicNLP
- Website: https://uralicnlp.com/
https://github.com/mikahama/uralicNLP - Unterstützte Sprachen: Finnish, Russian, German, English, Norwegian, Swedish, Arabic, Ingrian, Meadow & Eastern Mari, Votic, Olonets-Karelian, Erzya, Moksha, Hill Mari, Udmurt, Tundra Nenets, Komi-Permyak, North Sami, South Sami and Skolt Sami[1]
Theoretischer Hintergrund
Natural language generation [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ] [ 中文 ] ist ein Teilbereich von natural language processing. Siehe umfassenderes Thema auf Scholia.[2]
Pipeline-Modell
In ihrer Übersicht 2018 beschreiben[3] Gatt[4] und Krahmer[5] zunächst natural language generation als die "Aufgabe der Generierung von Text oder Sprache aus nicht-sprachlichem Input." Sie identifizieren sechs Teilprobleme (nach Reiter & Dale 1997, 2000[6]) [2.NLG Tasks, S. 70-82]:[3]
- Content determination (content determination (Q5165077))
- Text structuring (document structuring (Q5287648))
- Sentence aggregation (aggregation (Q4692263))
- Lexicalisation (lexical choice (Q6537688))
- Referring expression generation (referring expression generation (Q7307185))
- Linguistic realisation (realization (Q7301282))
Bitte beachte, dass die sechs oben aufgeführten Themen nur in der englischen Wikipedia Artikel haben (24.07.2020).
Diese sechs Teilprobleme können als eine Segmentierung der "Pipeline" gesehen werden, beginnend mit "frühen" Aufgaben, die auf den Zweck der sprachlichen Ausgabe ausgerichtet sind. Die "späten" Aufgaben sind mehr auf die endgültige sprachliche Form ausgerichtet. Eine Kurzform könnte lauten: "Was (1), wie geordnet (2) und segmentiert (3), mit welchen Wörtern (4&5), in welchen Formen (6)". Die Lexikalisierung (4) wird in dieser zusammenfassenden Form nicht klar von der "referenzierenden Ausdrucksgenerierung" (REG = "referring expression generation") (5) unterschieden. Der Schlüsselgedanke bei der REG ist die Vermeidung von Wiederholungen und Mehrdeutigkeit bzw. die Bewältigung der Spannung zwischen diesen widerstreitenden Zielen. Dies entspricht der Grice'schen Maxime (Grice, 1975[7]), dass "Sprecher sicherstellen sollten, dass ihre Beiträge für die Zwecke des Austauschs ausreichend informativ sind, aber nicht mehr" (oder, wie Roger Sessions (1950) nach Albert Einstein (1933) sagte: "Alles sollte so einfach sein, wie es sein kann, aber nicht einfacher!").
Content determination
Document structuring
Aggregation
Lexical choice
Referring expression generation
Realization
- "In der Linguistik ist Realisierung der Prozess, durch den eine Art von Oberflächendarstellung aus ihrer zugrundeliegenden Repräsentation abgeleitet wird; das heißt, die Art und Weise, wie ein abstraktes Objekt der linguistischen Analyse in tatsächlicher Sprache produziert wird. Von Phonemen wird oft gesagt, dass sie durch Sprachlaute realisiert werden. Die verschiedenen Laute, die ein bestimmtes Phonem realisieren können, nennt man seine Allophone."
- "Die Realisierung ist auch eine Teilaufgabe der Textgenerierung, bei der es darum geht, aus einer syntaktischen Repräsentation einen tatsächlichen Text in einer menschlichen Sprache (Englisch, Französisch, etc.) zu erzeugen."
- Englische Wikipedia
- (Wikipedia-Autoren, “Realization”, Wikipedia, Die freie Enzyklopädie, 26. Mai 2020, 02:46 UTC, <https://en.wikipedia.org/w/index.php?title=Realization&oldid=958866516> [abgerufen am 31. August 2020].)
Black-Box-Ansatz
In einer späteren Studie schlugen Gârbacea und Mei[8] "Neural language generation" als ein aufstrebendes Teilgebiet von NLG vor. Elf der in ihrer Übersicht zitierten Arbeiten haben Titel mit "neural language", die früheste aus dem Jahr 2016 (Édouard Grave, Armand Joulin und Nicolas Usunier)[9]. Das früheste Zitat, in dem "neural language generation" vorkommt, ist von 2017 (Jessica Ficler und Yoav Goldberg)[10].
Mitte 2020 ist die "neuronale Sprachgenerierung" noch nicht ausgereift genug, um natürlichsprachige Wiedergaben von sprachneutralen Inhalten zu erzeugen.
Referenzen
- Jessica Ficler and Yoav Goldberg, 2017[10]
- Édouard Grave, Armand Joulin, and Nicolas Usunier, 2016[9]
- Gârbacea and Mei, 2020[8]
- Gardent et al., 2017[11]
- Gatt & Krahmer, 2018[3]
- Grice, 1975[7]
- Reiter & Dale, 2000[6] (PDF ends at the end of the first section.)
Externe Links
- ACL Special Interest Group on Natural Language Generation ACL is the Association for Computational Linguistics.
- Ehud Reiter's Blog Ehud Reiter has no English Wikipedia page (apart from his user page).
- Natural Language Generation (CLAN Group), School of Natural and Computing Sciences, The University of Aberdeen.
- Institute for Language, Cognition and Computation (ILCC), School of Informatics, The University of Edinburgh.
- Harvard NLP, Harvard University.
- The Interaction Lab, School of Mathematical and Computer Sciences, Heriot-Watt University.
- Institute of Linguistics and Language Technology, University of Malta (Albert Gatt, Director).
- The Open University Natural Language Generation Group.
- TALN Research Group, Department of Information and Communication Technologies,Universitat Pompeu Fabra, Barcelona.
- The Natural Language Processing Group, The University of Sheffield.
- The Natural Language Group, Information Sciences Institute, University of Southern California.
- SyNaLP (Symbolic and statistical NLP), Laboratoire Lorrain d'Informatique et ses Applications (LORIA).
- Paul G. Allen School of Computer Science and Engineering, University of Washington.
Anmerkungen
- ↑ https://models.uralicnlp.com/nightly/
- ↑ Der Scholia-Ansicht zur Generierung natürlicher Sprache fehlten am 27. Juli 2020 die Standardquellen und die führenden Autoren. Stattdessen siehe Google Scholar.
- ↑ a b c Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24
- ↑ Gatts Publikationen
- ↑ Emiel Krahmer (Q51689943) ausgewählte Publikationen
- ↑ a b Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27
- ↑ a b Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10
- ↑ a b Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08,
Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations.
- ↑ a b Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF)
- ↑ a b Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104. Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF) - ↑ Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133