Automatizace generování popisů produktů pomocí neuronových jazykových modelů
Automatization of Generating Product Descriptions With Neural Language Models
bakalářská práce (OBHÁJENO)
Zobrazit/ otevřít
Trvalý odkaz
http://hdl.handle.net/20.500.11956/188293Identifikátory
SIS: 256171
Kolekce
- Kvalifikační práce [11242]
Autor
Vedoucí práce
Oponent práce
Helcl, Jindřich
Fakulta / součást
Matematicko-fyzikální fakulta
Obor
Informatika se specializací Webové a datově orientované programování
Katedra / ústav / klinika
Ústav formální a aplikované lingvistiky
Datum obhajoby
5. 2. 2024
Nakladatel
Univerzita Karlova, Matematicko-fyzikální fakultaJazyk
Čeština
Známka
Výborně
Klíčová slova (česky)
generování textu z dat|jazykové modely|ecommerceKlíčová slova (anglicky)
data-to-text generation|language models|ecommercePopisky produktů jsou důležitou součástí prezentace zboží v ecommerce. Tato bakalářská práce zkoumá možnosti použití jazykových modelů, založe- ných na architektuře Transformer, ke generování popisků produktů na zá- kladě textových informací o produktech. Během práce byla použita data z reálného eshopu a byly vyzkoušeny tři různé přístupy. Fine-tuning ma- lého modelu GPT2 small czech, využití modelu Mistral s překladem jeho vstupů a výstupů do angličtiny a přímé použití ChatGPT na českých da- tech. K vyhodnocení vygenerovaných textů byla použita kombinace auto- matických metrik a lidského hodnocení. Výsledkem je jasné pořadí těchto přístupů (ChatGPT, Mistral, GPT2 small czech) s tím, že se ukázalo, že pro použití v praxi není žádný z přístupů dostatečně spolehlivý.
Product descriptions are an important part of product presentation in e-commerce. This bachelor thesis explores the possibilities of using language models based on the Transformer architecture to generate product descrip- tions based on textual product information. Data from a real ecommerce store was used and three different approaches were tested during the work. Fine-tuning of the GPT2 small Czech model, using the Mistral model with the translation of its inputs and outputs into English and directly using Chat- GPT on the Czech data. A combination of automated metrics and human moderation was used to evaluate the generated texts. The result is a clear ranking of these approaches (ChatGPT, Mistral, GPT2 small Czech), with none proving sufficiently reliable for practical use.