Jump to content

Wikipedia Abstrak/Pekerjaan terkait dan sebelumnya/Penghasil bahasa alami

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Abstract Wikipedia/Related and previous work/Natural language generation and the translation is 100% complete.

Wikipedia Abstrak akan membuat teks bahasa natural dari sebuah representasi abstrak. Ini bukanlah ide baru, dan telah dicoba beberapa kali sebelumnya.

Halaman ini bertujuan mengumpulkan pendekatan-pendekatan berbeda yang sudah ada. Halaman ini mencoba meringkas ide-ide inti dari pendekatan-pendekatan yang berbeda, kelebihan dan kekurangan mereka, dan mengarahkan ke implementasi yang ada. Halaman ini (oleh dan untuk komunitas) akan membantu memilih pendekatan mana yang difokuskan terlebih dahulu.

Implementasi

Arria NLG
ASTROGEN
Chimera
Elvex
FUF/SURGE
Genl
GoPhi
Grammar Explorer
Grammatical Framework
  • Wikipedia: Grammatical Framework [ en ] [ nn ]
  • Situs web: https://www.grammaticalframework.org/
  • Lisensi: GNU General Public License: see text
  • Bahasa yang didukung: Afrikaans, Amharic (partial), Arabic (partial), Basque (partial), Bulgarian, Catalan, Chinese, Czech (partial), Danish, Dutch, English, Estonian, Finnish, French, German, Greek ancient (partial), Greek modern, Hebrew (fragments), Hindi, Hungarian (partial), Interlingua, Italian, Japanese, Korean (partial), Latin (partial), Latvian, Maltese, Mongolian, Nepali, Norwegian bokmål, Norwegian nynorsk, Persian, Polish, Punjabi, Romanian, Russian, Sindhi, Slovak (partial), Slovene (partial), Somali (partial), Spanish, Swahili (fragments), Swedish, Thai, Turkish (fragments), and Urdu.
jsRealB
KPML
Linguistic Knowledge Builder
Multimodal Unification Grammar
NaturalOWL
NLGen and NLGen2
OpenCCG
rLDCP
RoseaNLG
Semantic Web Authoring Tool (SWAT)
SimpleNLG
SPUD
Suregen-2
Syntax Maker
TGen
Universal Networking Language
UralicNLP
  • Situs web: https://uralicnlp.com/
    https://github.com/mikahama/uralicNLP
  • Bahasa yang didukung: Finnish, Russian, German, English, Norwegian, Swedish, Arabic, Ingrian, Meadow & Eastern Mari, Votic, Olonets-Karelian, Erzya, Moksha, Hill Mari, Udmurt, Tundra Nenets, Komi-Permyak, North Sami, South Sami and Skolt Sami[1]

Latar belakang teori

Ditenagai oleh Wikidata

Natural language generation [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ] [ 中文 ] adalah subbidang dari natural language processing. Lihatlah topik yang lebih luas di Scholia.[2]

Model saluran pipa

Dalam survey 2018 mereka, [3] Gatt[4] dan Krahmer[5] dimulai dengan menggambarkan natural language generation sebagai "pekerjaan menghasilkan teks atau ucapan dari masukan non-linguistik." Mereka menetapkan enam submasalah (setelah Reiter & Dale 1997, 2000[6]) [2.NLG Tasks, pp. 70-82]:[3]

  1. Content determination (content determination (Q5165077))
  2. Text structuring (document structuring (Q5287648))
  3. Sentence aggregation (aggregation (Q4692263))
  4. Lexicalisation (lexical choice (Q6537688))
  5. Referring expression generation (referring expression generation (Q7307185))
  6. Linguistic realisation (realization (Q7301282))

Perhatikan bahwa keenam topik yang didaftarkan di atas hanya punya artikel di Wikipedia bahasa Inggris (24 Juli 2020).

Keenam submasalah ini bisa dipandang sebagai pembagian dari “saluran pipa”, dimulai dari pekerjaan “awal”, disesuaikan dengan maksud keluaran lingustiknya. Pekerjaan “akhir” lebih disesuaikan dengan bentuk linguistik akhirnya. Bentuk ringkasannya bisa ditulis “Apa (1), bagaimana diurutkan (2) dan dibagi-bagi (3), dengan kata apa (4&5) dan dalam bentuk apa(6)”. Leksikalisasi (4) tidak jelas bedanya dengan “penghasilan ekspresi pengacu” (referring expression generation, REG) (5) dalam bentuk ringkasan ini. Ide kunci selama REG adalah menghindari pengulangan dan ambiguitas, atau mengelola tensi antara sasaran-sasaran yang bertentangan. Ini bersesuaian dengan maksim Grice (Grice, 1975[7]) yang mengatakan bahwa “para pembicara sebaiknya memastikan bahwa kontribusi mereka cukup informatif untuk tujuan percakapan, tetapi tidak lebih dari itu” (atau, sebagaimana dikatakan Roger Sessions (1950) mengikuti Albert Einstein (1933): “semua hal harus sesederhana mungkin tetapi tidak lebih sederhana dari itu!”).

Content determination

Document structuring

Aggregation

Lexical choice

Referring expression generation

Realization

“Dalam linguistik, realisasi adalah proses di mana suatu bentuk representasi permukaan diturunkan dari representasi dasarnya; artinya, bagaiamana cara beberapa objek abstrak analisis linguistik dihasilkan dalam bahasa sebenarnya. Fonem sering disebut direalisasikan oleh bunyi bahasa. Bunyi beragam yang dapat merealisasikan suatu fonem tertentu disebut alofon fonem tersebut.”
"Realisasi juga merupakan subpekerjaan dari penghasil bahasa alami, yang merupakan pembuatan teks aktual dalam bahasa manusia (bahasa Inggris, Prancis, dll.) dari sebuah representasi sintaksis."
Wikipedia bahasa Inggris
(Kontributor Wikipedia, “Realization”, Wikipedia, Ensiklopedia Bebas, 26 Mei 2020, 02:46 UTC, <https://en.wikipedia.org/w/index.php?title=Realization&oldid=958866516> [diakses pada 31 Agustus 2020].)


Pendekatan kotak hitam

Dalam survey setelahnya, Gârbacea dan Mei[8] mengusulkan “Penghasil bahasa saraf” (Neural language generation) sebagai subbidang baru dari NLG. Sebelah karya yang dirujuk dalam survei mereka memiliki judul yang mengandung frasa "bahasa saraf" (neural language), yang paling awal berasal dari tahun 2016 (Édouard Grave, Armand Joulin, and Nicolas Usunier)[9]. Sitasi tertua yang mengandung frasa “neural language generation” berasal dari tahun 2017 (Jessica Ficler dan Yoav Goldberg)[10].

Pada pertengahan tahun 2020, "penghasil bahasa saraf" tidak cukup dewasa untuk digunakan untuk menghasilkan bentuk bahasa alami dari konten bebas bahasa.

Referensi

  • Jessica Ficler and Yoav Goldberg, 2017[10]
  • Édouard Grave, Armand Joulin, and Nicolas Usunier, 2016[9]
  • Gârbacea and Mei, 2020[8]
  • Gardent et al., 2017[11]
  • Gatt & Krahmer, 2018[3]
  • Grice, 1975[7]
  • Reiter & Dale, 2000[6] (PDF ends at the end of the first section.)

Pranala luar

Catatan

  1. https://models.uralicnlp.com/nightly/
  2. Pandangan Scholia mengenai penghasil bahasa natural kekurangan sumber standar dan penulis terkemuka pada 27 Juli 2020. Sebaiknya, lihatlah Google Scholar.
  3. a b c Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24 
  4. publikasi Gatt
  5. Emiel Krahmer (Q51689943) publikasi terpilih
  6. a b Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27 
  7. a b Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10 
  8. a b Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08, Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations. 
  9. a b Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF) 
  10. a b Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104 . Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
    Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF) 
  11. Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133