Multilingual Entity Linking Using Dense Retrieval

Farhan, Dominik

Vícejazyčné propojování entit pomocí vektorového vyhledávání

bakalářská práce (OBHÁJENO)

Zobrazit/otevřít

Záznam o průběhu obhajoby (347.2Kb)

Trvalý odkaz

http://hdl.handle.net/20.500.11956/192065

Identifikátory

SIS: 267919

Oponent práce

Bojar, Ondřej

Fakulta / součást

Matematicko-fyzikální fakulta

Obor

Informatika se specializací Obecná informatika

Katedra / ústav / klinika

Ústav formální a aplikované lingvistiky

Datum obhajoby

28. 6. 2024

Nakladatel

Univerzita Karlova, Matematicko-fyzikální fakulta

Jazyk

Angličtina

Známka

Výborně

Klíčová slova (česky)

propojování entit|vektorové vyhledávání|vícejazyčné propojování entit|bi-enkóder

Klíčová slova (anglicky)

entity linking|dense retrieval|entity disambiguation|multilingual entity linking|bi-encoder

Propojování entit je úloha, ve které jsou zmínky z textu propojovány s příslušnými entitami. Stejně jako v mnoha jiných oblastech zpracovaní přirozeného jazyka se i v pro- pojování entit výrazně projevil vliv hlubokého učení, což vedlo k významnému zlepšení výkonu. V současnosti se ale stávající modely trénují pomalu a spoléhají na nejednotné zdroje dat, což ve výsledku komplikuje reprodukovatelnost. V této práci vyvíjíme něko- lik systémů, které se učí rychle, čímž ukazujeme, že konkurenceschopných výsledků lze dosáhnout i bez velkého GPU clusteru. Zároveň trénujeme na konkrétním veřejně dostup- ném datasetu. Naše výsledky jsou tak snadno reprodukovatelné. Modely vyhodnocujeme na devíti jazycích, což nám poskytuje kvalitní přehled o jejich silných stránkách. Mimo to také podrobně analyzujeme nastavení značného množství hyperparametrů bi-enkóderů - populárního přístupu pro propojování entit - čímž zjednodušujeme rozhodování na- vazujícím pracem. Náš výzkum ukazuje, že lze vytvářet silné mnohojazyčné systémy na propojování entit i za použití pouze omezených výpočetních zdrojů. Tím činíme celou úlohu přístupnější.

Abstrakt (anglicky)

Entity linking (EL) is the computational process of connecting textual mentions to corresponding entities. Like many areas of natural language processing, the EL field has greatly benefited from deep learning, leading to significant performance improvements. However, present-day approaches are expensive to train and rely on diverse data sources, complicating their reproducibility. In this thesis, we develop multiple systems that are fast to train, demonstrating that competitive entity linking can be achieved without a large GPU cluster. Moreover, we train on a publicly available dataset, ensuring reproducibility and accessibility. Our models are evaluated for 9 languages giving an accurate overview of their strengths. Furthermore, we offer a detailed analysis of bi-encoder training hy- perparameters, a popular approach in EL, to guide their informed selection. Overall, our work shows that building competitive neural network based EL systems that oper- ate in multiple languages is possible even with limited resources, thus making EL more approachable.

Citace dokumentu

Metadata

Zobrazit celý záznam