Vysvětlitelná evaluace generování textu založená na velkých jazykových modelech a chybové analýze

Kartáč, Ivan

Explainable LLM-based evaluation for NLG using error analysis

diploma thesis (DEFENDED)

View/Open

Záznam o průběhu obhajoby (352.6Kb)

Permanent link

http://hdl.handle.net/20.500.11956/197092

Identifiers

Study Information System: 272633

Consultant

Dušek, Ondřej

Referee

Libovický, Jindřich

Faculty / Institute

Faculty of Mathematics and Physics

Discipline

Computer Science - Language Technologies and Computational Linguistics

Department

Institute of Formal and Applied Linguistics

Date of defense

4. 2. 2025

Publisher

Univerzita Karlova, Matematicko-fyzikální fakulta

Language

Czech

Grade

Excellent

Keywords (Czech)

generování přirozeného jazyka|evaluace|velké jazykové modely|zpracování přirozeného jazyka

Keywords (English)

natural language generation|evaluation|large language models|natural language processing

Tradiční metriky pro evaluaci generování přirozeného jazyka (NLG) často nedokážou adekvátně zachytit komplexitu jazyka a mnohdy se neshodují s lidským hodnocením. V poslední době byly navrženy přístupy založené na velkých jazykových modelech (LLM), které si kladou za cíl tyto nedostatky překonat. Nicméně, většina současných přístupů je založena na uzavřených (closed-source) modelech nebo postrádá dostatečnou interpretovatelnost. Tato práce se zaměřuje na využití otevřených LLM k vytvoření robustní a interpretovatelné metody pro evaluaci NLG, a prezentuje přístup založený na promptech, který využívá ensemble několika LLM. Tuto metodu následně využíváme k vytvoření syntetického trénovacího datasetu, který zahrnuje řadu úloh, evaluačních kritérií a typů systémů. Na tomto datasetu trénujeme specializovaný evaluační model založený na Llama 3.1 8B. Evaluace na různých benchmarcích ukazuje, že náš ensemble přístup překonává jak tradiční metriky NLG, tak i metody založené na neuronových sítích a LLM. Dále, náš trénovaný model dosahuje přesvědčivých výsledků a významně překonává svůj základní model.

Abstract (English)

Traditional metrics for evaluating natural language generation (NLG) often struggle to capture linguistic complexity or align with human judgment. Recently, approaches based on large language models (LLMs) have been proposed to address these limitations. However, many existing approaches rely on proprietary LLMs or lack sufficient explainability. This thesis explores the potential of open-weight LLMs to develop a robust and explainable method for NLG evaluation. We develop a prompt-based evaluation method that applies an ensemble of LLMs to assess the quality of generated texts. This method is then applied to construct a synthetic training dataset that represents a wide range of tasks, evaluation aspects and systems. Using this dataset, we train a specialized evaluator model through distillation, employing Llama 3.1 8B as the backbone. Evaluation on a number of benchmarks demonstrates that our ensemble approach outperforms both the traditional NLG metrics as well as trained neural models and LLM-based methods. Additionally, the fine-tuned evaluator achieves competitive performance, with substantial improvements over the backbone model.

Citace dokumentu

Metadata

Show full item record