Data-to-Text Generation with Neural Language Models
Generování textu z dat s neuronovými jazykovými modely
dizertační práce (OBHÁJENO)

Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/193018Identifikátory
SIS: 213338
Kolekce
- Kvalifikační práce [11326]
Autor
Vedoucí práce
Oponent práce
Sripada, Yaji
Krahmer, Emiel
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Matematická lingvistika
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
5. 9. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Angličtina
Známka
Prospěl/a
Klíčová slova (česky)
generování textu z dat|generování přirozeného jazyka|zpracování přirozeného jazyka|architektura transformer|předtrénované jazykové modely|velké jazykové modelyKlíčová slova (anglicky)
data-to-text generation|natural language generation|natural language processing|transformer architecture|pretrained language models|large language modelsSystémy pro generování textu z dat by měly generovat texty odpovídající co nej- přesněji vstupním datům. Pravidlové systémy tento aspekt zaručují, ale zaostávají v plynulosti výstupů a možnostech přizpůsobení pro nové domény. Naopak neu- ronové jazykové modely zvládají snadno generovat plynulé texty a přizpůsobovat se novým doménám, ale jsou notoricky náchylné k produkci nepřesných výstupů. V této práci zkoumáme, jak efektivně zakomponovat do systémů pro generování textu z dat neuronové modely tak, abychom propojili výhody obou typů systémů. Naše přístupy zakládáme na předtrénovaných jazykových modelech architektury transformer. Tyto modely primárně používáme jako stavební bloky, díky kterým mohou být systémy pro generování textu robustní a efektivně se učit z trénovacích dat. Spolu s tím představujeme automatické evaluační metriky pro odhalování chyb ve výstupech a sadu nástrojů pro předzpracování a vizualizaci datasetů pro generování textu z dat. Analyzujeme také chování předtrénovaných a velkých jazykových modelů ve specifických případech jako je popis jednotlivých relaci ve znalostních grafech a generování textů ze standardních datových formátů. Z našich experimentů vyplývá, že ačkoli k použití neuronových jazykových modelů při generování textu z dat je potřeba přistupovat s rozmyslem,...
Data-to-text generation systems need to produce texts with high levels of seman- tic accuracy. Rule-based systems can guarantee this aspect, but their fluency and adaptability to new domains remain limited. Meanwhile, neural language models can easily generate fluent texts and adapt to new domains but are notoriously prone to producing inaccurate outputs. This thesis explores how to efficiently employ neural components in data-to-text generation systems to get the best of both worlds. We focus on approaches based on pretrained transformer language models. Primarily, the models serve as building blocks for data-efficient and robust data-to-text generation systems. Along with that, we introduce model-based evaluation metrics, focusing on detecting errors in data-to-text outputs, and a toolkit for preprocessing and visualizing data-to-text generation datasets. We also analyze the behavior of pretrained and large language models in specific scenarios, including describing individual relations in knowledge graphs and generating texts from standard data formats. We conclude that while employing neural language models in data-to-text generation remains a delicate endeavor, neural components can improve the fluency of the output texts and make the systems adaptable to new domains. At the same time, the...
Citace dokumentu
Metadata
Zobrazit celý záznamSouvisející záznamy
Zobrazují se záznamy příbuzné na základě názvu, autora a předmětu.
-
Maturitní zkouška z českého jazyka v úpravě pro neslyšící ve světle testování češtiny jako cizího jazyka
Výsledek obhajoby: OBHÁJENOAndrejsek, Jan (Univerzita Karlova, Filozofická fakulta, 2015)Datum obhajoby: 4. 2. 2015Práce se na pozadí dosavadních výzkumů čtenářské gramotnosti u sluchově postižených žáků zabývá modifikovanou maturitní zkouškou z českého jazyka v úpravě pro neslyšící, kterou v České republice skládají neslyšící žáci ve ... -
Teaching English through English
Výsledek obhajoby: OBHÁJENOSmejkalová, Julie (Univerzita Karlova, Pedagogická fakulta, 2014)Datum obhajoby: 12. 9. 2014Diplomová práce se zabývá rolí cílového jazyka ve výuce angličtiny. Cílem práce je prozkoumat vliv výuky prostřednictvím cílového jazyka na rozvoj komunikativní kompetence žáků prvního stupně základní školy. Teoretická ... -
Úvod do teorie jazykové správnosti
Výsledek obhajoby: OBHÁJENOBeneš, Martin (Univerzita Karlova, Filozofická fakulta, 2017)Datum obhajoby: 23. 6. 2017Introduction to the Theory of Language Correctness. The theme of this Thesis is the novel conceptualization of the subject field, which is, in the Czech context, traditionally dealt with within the theory of language ...