Abstrakte Wikipedia/Verwandte und frühere Arbeiten/Textgenerierung

This page is a translated version of the page Abstract Wikipedia/Related and previous work/Natural language generation and the translation is 100% complete.

Die Abstrakte Wikipedia generiert natürlichsprachigen Text aus einer abstrakten Darstellung. Dies ist keine neue Idee und wurde bereits mehrfach ausprobiert.

Diese Seite hat das Ziel, verschiedene bestehende Ansätze zu sammeln. Sie versucht, die Kernideen der verschiedenen Ansätze, ihre Vor- und Nachteile zusammenzufassen, und verweist auf bestehende Implementierungen. Diese Seite (von und für die Community) soll helfen, zu entscheiden, auf welchen Ansatz man sich zuerst konzentrieren möchte.

Implementierungen

Arria NLG

Wikipedia: Arria NLG [ de ] [ en ] [ nn ]
Website: https://www.arria.com/
Lizenz: Proprietary, 30 patents apply
Unterstützte Sprachen: English

ASTROGEN

Website: http://www.dsv.su.se/~hercules/ASTROGEN/ASTROGEN.html

Chimera

Website: https://github.com/AmitMY/chimera
Lizenz: MIT License

Elvex

Website: https://github.com/lionelclement/Elvex

FUF/SURGE

Website: https://www.cs.bgu.ac.il/~elhadad/surge

Genl

Website: http://kowey.github.io/GenI/

GoPhi

Website: https://github.com/rali-udem/gophi

Grammar Explorer

Website: http://www.fb10.uni-bremen.de/anglistik/langpro/kpml/tutorials/Grexplorer/grexplorer.html

Grammatical Framework

Wikipedia: Grammatical Framework [ en ] [ nn ]
Website: https://www.grammaticalframework.org/
Lizenz: GNU General Public License: see text
Unterstützte Sprachen: Afrikaans, Amharic (partial), Arabic (partial), Basque (partial), Bulgarian, Catalan, Chinese, Czech (partial), Danish, Dutch, English, Estonian, Finnish, French, German, Greek ancient (partial), Greek modern, Hebrew (fragments), Hindi, Hungarian (partial), Interlingua, Italian, Japanese, Korean (partial), Latin (partial), Latvian, Maltese, Mongolian, Nepali, Norwegian bokmål, Norwegian nynorsk, Persian, Polish, Punjabi, Romanian, Russian, Sindhi, Slovak (partial), Slovene (partial), Somali (partial), Spanish, Swahili (fragments), Swedish, Thai, Turkish (fragments), and Urdu.

jsRealB

Website: http://rali.iro.umontreal.ca/rali/?q=en/jsrealb-bilingual-text-realiser

KPML

Website: http://www.fb10.uni-bremen.de/anglistik/langpro/kpml/README.html
Unterstützte Sprachen: (2014):
- More advanced: Czech, English, German?, Spanish
- Prototype: Bulgarian, Chinese, Dutch, Portuguese, Russian
- Less advanced: French, Greek, Japanese

Linguistic Knowledge Builder

Website: http://moin.delph-in.net/LkbTop

Multimodal Unification Grammar

Website: https://david-reitter.nfshost.com/compling/mug/index.html

NaturalOWL

NLGen and NLGen2

Website: https://launchpad.net/nlgen
https://launchpad.net/nlgen2

OpenCCG

Website: http://openccg.sourceforge.net/

rLDCP

Website: https://cran.r-project.org/web/packages/rLDCP/index.html

RoseaNLG

Website: https://rosaenlg.org/
Unterstützte Sprachen: English, French, German and Italian

Semantic Web Authoring Tool (SWAT)

Wikipedia: WYSIWYM [ en ] [ nn ] A SWAT is a tool that implements the WYSIWYM (what you see is what you meant) interaction technique for developing formal representations based on successive refinements (by humans) of NLG outputs.
Website: http://mcs.open.ac.uk/nlg/SWAT/
Unterstützte Sprachen: OWL Simplified English

SimpleNLG

Website: https://github.com/simplenlg/simplenlg
Unterstützte Sprachen: English, French

SPUD

Website: https://www.cs.rutgers.edu/~mdstone/nlg.html

Suregen-2

Website: http://www.suregen.de/index.html
Unterstützte Sprachen: German, English

Syntax Maker

Website: https://github.com/mikahama/syntaxmaker
Unterstützte Sprachen: Finnish

TGen

Website: https://github.com/UFAL-DSG/tgen

Universal Networking Language

Wikipedia: Universal Networking Language [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ]

UralicNLP

Website: https://uralicnlp.com/
https://github.com/mikahama/uralicNLP
Unterstützte Sprachen: Finnish, Russian, German, English, Norwegian, Swedish, Arabic, Ingrian, Meadow & Eastern Mari, Votic, Olonets-Karelian, Erzya, Moksha, Hill Mari, Udmurt, Tundra Nenets, Komi-Permyak, North Sami, South Sami and Skolt Sami^[1]

Theoretischer Hintergrund

Natural language generation [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ] [ 中文 ] ist ein Teilbereich von natural language processing. Siehe umfassenderes Thema auf Scholia.^[2]

Pipeline-Modell

In ihrer Übersicht 2018 beschreiben^[3] Gatt^[4] und Krahmer^[5] zunächst natural language generation als die "Aufgabe der Generierung von Text oder Sprache aus nicht-sprachlichem Input." Sie identifizieren sechs Teilprobleme (nach Reiter & Dale 1997, 2000^[6]) [2.NLG Tasks, S. 70-82]:^[3]

Bitte beachte, dass die sechs oben aufgeführten Themen nur in der englischen Wikipedia Artikel haben (24.07.2020).

Diese sechs Teilprobleme können als eine Segmentierung der "Pipeline" gesehen werden, beginnend mit "frühen" Aufgaben, die auf den Zweck der sprachlichen Ausgabe ausgerichtet sind. Die "späten" Aufgaben sind mehr auf die endgültige sprachliche Form ausgerichtet. Eine Kurzform könnte lauten: "Was (1), wie geordnet (2) und segmentiert (3), mit welchen Wörtern (4&5), in welchen Formen (6)". Die Lexikalisierung (4) wird in dieser zusammenfassenden Form nicht klar von der "referenzierenden Ausdrucksgenerierung" (REG = "referring expression generation") (5) unterschieden. Der Schlüsselgedanke bei der REG ist die Vermeidung von Wiederholungen und Mehrdeutigkeit bzw. die Bewältigung der Spannung zwischen diesen widerstreitenden Zielen. Dies entspricht der Grice'schen Maxime (Grice, 1975^[7]), dass "Sprecher sicherstellen sollten, dass ihre Beiträge für die Zwecke des Austauschs ausreichend informativ sind, aber nicht mehr" (oder, wie Roger Sessions (1950) nach Albert Einstein (1933) sagte: "Alles sollte so einfach sein, wie es sein kann, aber nicht einfacher!").

Content determination

Document structuring

Aggregation

Lexical choice

Referring expression generation

Realization

"In der Linguistik ist Realisierung der Prozess, durch den eine Art von Oberflächendarstellung aus ihrer zugrundeliegenden Repräsentation abgeleitet wird; das heißt, die Art und Weise, wie ein abstraktes Objekt der linguistischen Analyse in tatsächlicher Sprache produziert wird. Von Phonemen wird oft gesagt, dass sie durch Sprachlaute realisiert werden. Die verschiedenen Laute, die ein bestimmtes Phonem realisieren können, nennt man seine Allophone."

"Die Realisierung ist auch eine Teilaufgabe der Textgenerierung, bei der es darum geht, aus einer syntaktischen Repräsentation einen tatsächlichen Text in einer menschlichen Sprache (Englisch, Französisch, etc.) zu erzeugen."

Englische Wikipedia

(Wikipedia-Autoren, “Realization”, Wikipedia, Die freie Enzyklopädie, 26. Mai 2020, 02:46 UTC, <https://en.wikipedia.org/w/index.php?title=Realization&oldid=958866516> [abgerufen am 31. August 2020].)

Black-Box-Ansatz

In einer späteren Studie schlugen Gârbacea und Mei^[8] "Neural language generation" als ein aufstrebendes Teilgebiet von NLG vor. Elf der in ihrer Übersicht zitierten Arbeiten haben Titel mit "neural language", die früheste aus dem Jahr 2016 (Édouard Grave, Armand Joulin und Nicolas Usunier)^[9]. Das früheste Zitat, in dem "neural language generation" vorkommt, ist von 2017 (Jessica Ficler und Yoav Goldberg)^[10].

Mitte 2020 ist die "neuronale Sprachgenerierung" noch nicht ausgereift genug, um natürlichsprachige Wiedergaben von sprachneutralen Inhalten zu erzeugen.

Referenzen

Jessica Ficler and Yoav Goldberg, 2017^[10]
Édouard Grave, Armand Joulin, and Nicolas Usunier, 2016^[9]
Gârbacea and Mei, 2020^[8]
Gardent et al., 2017^[11]
Gatt & Krahmer, 2018^[3]
Grice, 1975^[7]
Reiter & Dale, 2000^[6] (PDF ends at the end of the first section.)

Externe Links

Anmerkungen

↑ https://models.uralicnlp.com/nightly/
↑ Der Scholia-Ansicht zur Generierung natürlicher Sprache fehlten am 27. Juli 2020 die Standardquellen und die führenden Autoren. Stattdessen siehe Google Scholar.
↑ ^a ^b ^c Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24
↑ Gatts Publikationen
↑ Emiel Krahmer (Q51689943) ausgewählte Publikationen
↑ ^a ^b Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27
↑ ^a ^b Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10
↑ ^a ^b Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08, Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations.
↑ ^a ^b Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF)
↑ ^a ^b Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104 . Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF)
↑ Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133

[1] ttps://models.uralicnlp.com/nightly/

[ScoliaNLG-2] Der Scholia-Ansicht zur Generierung natürlicher Sprache fehlten am 27. Juli 2020 die Standardquellen und die führenden Autoren. Stattdessen siehe Google Scholar.

[Gatt-3] Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24

[4] Gatts Publikationen

[5] Emiel Krahmer (Q51689943) ausgewählte Publikationen

[Reiter-6] Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27

[Grice-7] Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10

[Gârbacea-8] Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08, Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations.

[Grave-9] Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF)

[Ficler-10] Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104 . Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF)

[Gardent-11] Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]