Jump to content

Abstraktní Wikipedie/Aktualizace/2022-08-19

From Meta, a Wikimedia project coordination wiki
This page is a translated version of the page Abstract Wikipedia/Updates/2022-08-19 and the translation is 100% complete.
Aktualizace Abstraktní Wikipedie Translate

Abstraktní Wikipedie prostřednictvím e-mailového seznamu Abstraktní Wikipedie na IRC Wikifunkce na Telegramu Wikifunkce na Facebooku Wikifunkce na Twitteru Wikifunkce na Facebooku Wikifunkce na YouTube Webové stránky Wikifunkcí Translate

Návrh šablonovacího jazyka a Wikimania 2022

Náš spolupracovník z Google.org, Ariel Gutman, společně s profesorkou Marií Keetovou, která věnuje část svého sabatikalu práci na generování přirozeného jazyka Abstraktní Wikipedie, nedávno napsali podrobnou specifikaci šablonovacího jazyka. Ta má umožnit přispěvatelům Wikifuncí snadno vytvářet renderery abstraktního obsahu. Například entita Q7259 má vlastnost P106 ukazující na Q5482740, která je ve Wikidatech uvedena, a se všemi mechanismy může být vykreslena např. jako "Ada Lovelace byla programátorka.". Šablonovací jazyk se snaží pomoci se specifikací struktury pro generování vět tak, aby se strukturovaný obsah zobrazil jako text v přirozeném jazyce podle vlastní volby.

Možná si vzpomínáte na návrh architektury, že každý konstruktor (který má obvykle za cíl zachytit význam jedné fráze nebo struktury věty) bude přiřazen k určité šabloně, která tento konstruktor vykreslí jako text. Šablony budou umístěny ve Wikifunkcích a budou parsovány v syntaxi pomocí kompozice, aby mohly fungovat jako renderer. Počáteční verze tohoto parseru již byla implementována jako součást nástroje Wikifunctions CLI, se kterým si můžete pohrát.

Jak tyto šablony vypadají? Šablona je kombinací textu a slotů, přičemž sloty mohou odkazovat na jiné šablony nebo funkce z Wikifunkcí, což umožňuje použít dynamický obsah. Specifikace gramatických omezení se provádí prostřednictvím závislostních vztahů (například pomocí formalismu UD pro gramatické anotace) specifikovaných jako štítky uvnitř slotů. Co se týče textu, může představovat statický text, který bude po celou dobu vykreslování zachován beze změny, nebo může představovat lexémy, které mohou nabývat různých forem podle sousedních syntaktických a fonologických omezení.

Pro začátek se podívejme na příklad šablony pro generování věty popisující věk osoby, např. "Danovi je 20 let.", daný konstruktor se dvěma poli: entity (Q-id osoby) a roky (věk). V angličtině může tato šablona vypadat takto:

{Person(entity)} is {nummod:Cardinal(years)} {root:Lexeme(L2505)} old.

K dispozici jsou tři sloty, které jsou ohraničeny složenými závorkami:

  1. {Person(entity)} se převede na jméno osoby.
  2. {nummod:Cardinal(years)} vrátí počet let. Je označen jako "numeral modifier" třetího slotu.
  3. {root:Lexeme(L2505)} načte z Wikidat Lexém L2505, který odkazuje na lemma "rok". Protože je slot označen jako root, bude propojen s předchozím slotem, což umožní výběr správného tvaru lexému: "rok" nebo "roky".

Zbývající text v šabloně – "is" a "old" – je v tomto případě statický text. V jiných případech můžeme potřebovat upřesnit, že sloveso je se může také skloňovat, nebo že číslo může vyžadovat další zpracování, aby bylo správně vypsáno, a podobné značky závislostí bychom použili k označení shody předmětu se slovesem a dalších typů shody mezi složkami věty.

V dokumentu jsou podobné příklady - i když složitější - uvedeny pro další 4 jazyky (švédštinu, francouzštinu, hebrejštinu a isiZulu), z nichž každý má své vlastní zvláštnosti a problémy, které však lze úspěšně zachytit pomocí navrhovaného šablonovacího jazyka. Vyzýváme vás, abyste si dokument přečetli, poskytli nám zpětnou vazbu a pokusili se přijít s náročnými příklady v jiných jazycích, které by se mohly ukázat jako obtížně zobrazitelné pomocí tohoto formalismu, abychom jej mohli vylepšit a dosáhnout co nejširší použitelnosti v ideálním případě pro všechny používané přirozené jazyky.

Wikimania 2022

Minulý týden se konala Wikimania 2022, každoroční akce, na které se setkávají a diskutují wikipedisté z celého světa. Proběhla dvě setkání k Wikifunkcím, jedno setkání k Wikifunkcím vedené týmem a jedno o Ninai a Udiron vedené Mahirem Morshedem.

Naše zasedání se skládalo z krátkého úvodu do Wikifunkcí od Dennyho, po kterém následovala předem nahraná část, kde se několik členů týmu krátce ponořilo do různých témat.

Mluvili:

  • James Forrester o technické architektuře
  • Amin Al Hazwani o designu
  • Genoveva Galarza Heredero o obsahovém modelu
  • Julia Kieserman o kodexu
  • Cory Massaro o rovnosti znalostí
  • Ariel Gutman o generování přirozeného jazyka, úvod k první části výše uvedeného newsletteru
  • Ali Assaf o formalizaci funkčního modelu

Tento předem nahraný obsah můžete sledovat na Commons.

Stejně jako na všech setkáních na Wikimanii bylo umožněno společné pořizování poznámek. V poznámkách k setkání jsou také uvedeny všechny otázky, které byly položeny a zodpovězeny v závěrečné části setkání, která následuje po videu. Na YouTube je k dispozici plný videozáznam ze setkání, ale upozorňujeme, že přehrávání předem nahraného videa se potýkalo s řadou technických problémů. Možná budete chtít místo toho přeskočit na video na Commons. Očekává se, že nahrávky jednotlivých setkání budou k dispozici později.

Mahir Morshed měl Wikimania setkání o Ninai a Udironovi, záznam začíná zde. Ninai a Udiron jsou nástroje pro generování přirozeného jazyka a představili jsme je v dřívějších aktulitách.

Aktualizace práce k 12. srpnu 2022

Výkon

  • Zahájení metodiky analýzy výkonnosti
  • Nastavení koncového bodu API pro kontrolu stavu pro Wikilambdu

Generování přirozeného jazyka

  • Kvůli dovolené členů týmu nedošlo k příliš velkému pokroku. Začali jsme přidávat informace o podstatných jménech pro isiZulu, Mboshi, Kiswahili

Meta-data

  • Dokončené zobrazení dialogu metadat na stránce testeru
  • Vytvořeno několik nových nástrojů PHP pro ZMaps

Zkušenosti

  • Opraveny a sloučeny problémy před spuštěním bety
  • Velký pokrok při opravě různých chyb
  • Začali jsme zkoumat různé možnosti diffování