Vysvětlitelná evaluace generování textu založená na velkých jazykových modelech a chybové analýze
Explainable LLM-based evaluation for NLG using error analysis
diploma thesis (DEFENDED)

View/ Open
Permanent link
http://hdl.handle.net/20.500.11956/197092Identifiers
Study Information System: 272633
Collections
- Kvalifikační práce [11320]
Author
Advisor
Consultant
Dušek, Ondřej
Referee
Libovický, Jindřich
Faculty / Institute
Faculty of Mathematics and Physics
Discipline
Computer Science - Language Technologies and Computational Linguistics
Department
Institute of Formal and Applied Linguistics
Date of defense
4. 2. 2025
Publisher
Univerzita Karlova, Matematicko-fyzikální fakultaLanguage
Czech
Grade
Excellent
Keywords (Czech)
generování přirozeného jazyka|evaluace|velké jazykové modely|zpracování přirozeného jazykaKeywords (English)
natural language generation|evaluation|large language models|natural language processingTradiční metriky pro evaluaci generování přirozeného jazyka (NLG) často nedokážou adekvátně zachytit komplexitu jazyka a mnohdy se neshodují s lidským hodnocením. V poslední době byly navrženy přístupy založené na velkých jazykových modelech (LLM), které si kladou za cíl tyto nedostatky překonat. Nicméně, většina současných přístupů je založena na uzavřených (closed-source) modelech nebo postrádá dostatečnou interpretovatelnost. Tato práce se zaměřuje na využití otevřených LLM k vytvoření robustní a interpretovatelné metody pro evaluaci NLG, a prezentuje přístup založený na promptech, který využívá ensemble několika LLM. Tuto metodu následně využíváme k vytvoření syntetického trénovacího datasetu, který zahrnuje řadu úloh, evaluačních kritérií a typů systémů. Na tomto datasetu trénujeme specializovaný evaluační model založený na Llama 3.1 8B. Evaluace na různých benchmarcích ukazuje, že náš ensemble přístup překonává jak tradiční metriky NLG, tak i metody založené na neuronových sítích a LLM. Dále, náš trénovaný model dosahuje přesvědčivých výsledků a významně překonává svůj základní model.
Traditional metrics for evaluating natural language generation (NLG) often struggle to capture linguistic complexity or align with human judgment. Recently, approaches based on large language models (LLMs) have been proposed to address these limitations. However, many existing approaches rely on proprietary LLMs or lack sufficient explainability. This thesis explores the potential of open-weight LLMs to develop a robust and explainable method for NLG evaluation. We develop a prompt-based evaluation method that applies an ensemble of LLMs to assess the quality of generated texts. This method is then applied to construct a synthetic training dataset that represents a wide range of tasks, evaluation aspects and systems. Using this dataset, we train a specialized evaluator model through distillation, employing Llama 3.1 8B as the backbone. Evaluation on a number of benchmarks demonstrates that our ensemble approach outperforms both the traditional NLG metrics as well as trained neural models and LLM-based methods. Additionally, the fine-tuned evaluator achieves competitive performance, with substantial improvements over the backbone model.