dc.contributor.advisor | Helcl, Jindřich | |
dc.creator | Mitka, Jan | |
dc.date.accessioned | 2024-11-28T22:59:33Z | |
dc.date.available | 2024-11-28T22:59:33Z | |
dc.date.issued | 2024 | |
dc.identifier.uri | http://hdl.handle.net/20.500.11956/192940 | |
dc.description.abstract | Se zvětšujícími se databázemi roster poptávka po efektivních vyhledávacích algoritmech. Tato bakalářská práce zkoumá vyhledávání vědeckých článků pomocí modelů založených na Transformeru: BERT, SciBERT, RoBERTa a MPNet, a také specializovaných modelů: SPECTER, SciNCL a tři Sentence Transformery. Analyzujeme každý model a porovnáváme jejich výkon na testovacích datasetech z SciRepEvalu. Sentence Transformer s architekturou MPNet dosahuje nejlepších výsledků v 7 z 9 testů, přičemž překonává i modely specializované na reprezentaci dokumentů. Naše jednoduchá vyhledávací aplikace slouží jako ukázka možnosti volby modelu pro vyhledávání. | cs_CZ |
dc.description.abstract | As databases expand, the demand for effective information retrieval algorithms increases. This thesis investigates the research paper retrieval using Transformer-based models: BERT, SciBERT, RoBERTa, and MPNet, and fine-tuned models: SPECTER, SciNCL, and three Sentence Transformers. We analyze each model and compare their performance on SciRepEval benchmark datasets. The Sentence Transformer with MPNet architecture achieves the best performance in 7 out of 9 tasks, outperforming even the document representation fine-tuned models. Our simple search application showcases the option for users to choose the model for searches. | en_US |
dc.language | English | cs_CZ |
dc.language.iso | en_US | |
dc.publisher | Univerzita Karlova, Matematicko-fyzikální fakulta | cs_CZ |
dc.subject | Information Retrieval|Transformer Models|Document Representation | en_US |
dc.subject | vyhledávání informací|Transformer Modely|reprezentace dokumentů | cs_CZ |
dc.title | Transformer-Based Approaches to Research Paper Retrieval: A Benchmark Analysis with Application | en_US |
dc.type | bakalářská práce | cs_CZ |
dcterms.created | 2024 | |
dcterms.dateAccepted | 2024-09-05 | |
dc.description.department | Institute of Formal and Applied Linguistics | en_US |
dc.description.department | Ústav formální a aplikované lingvistiky | cs_CZ |
dc.description.faculty | Matematicko-fyzikální fakulta | cs_CZ |
dc.description.faculty | Faculty of Mathematics and Physics | en_US |
dc.identifier.repId | 250549 | |
dc.title.translated | Metody na Bázi Transformeru pro Vyhledávání Vědeckých Článků: Srovnávací Analýza s Aplikací | cs_CZ |
dc.contributor.referee | Hajič, Jan | |
thesis.degree.name | Bc. | |
thesis.degree.level | bakalářské | cs_CZ |
thesis.degree.discipline | Computer Science with specialisation in Computer Graphics, Vision and Game Development | en_US |
thesis.degree.discipline | Informatika se specializací Počítačová grafika, vidění a vývoj her | cs_CZ |
thesis.degree.program | Computer Science | en_US |
thesis.degree.program | Informatika | cs_CZ |
uk.thesis.type | bakalářská práce | cs_CZ |
uk.taxonomy.organization-cs | Matematicko-fyzikální fakulta::Ústav formální a aplikované lingvistiky | cs_CZ |
uk.taxonomy.organization-en | Faculty of Mathematics and Physics::Institute of Formal and Applied Linguistics | en_US |
uk.faculty-name.cs | Matematicko-fyzikální fakulta | cs_CZ |
uk.faculty-name.en | Faculty of Mathematics and Physics | en_US |
uk.faculty-abbr.cs | MFF | cs_CZ |
uk.degree-discipline.cs | Informatika se specializací Počítačová grafika, vidění a vývoj her | cs_CZ |
uk.degree-discipline.en | Computer Science with specialisation in Computer Graphics, Vision and Game Development | en_US |
uk.degree-program.cs | Informatika | cs_CZ |
uk.degree-program.en | Computer Science | en_US |
thesis.grade.cs | Výborně | cs_CZ |
thesis.grade.en | Excellent | en_US |
uk.abstract.cs | Se zvětšujícími se databázemi roster poptávka po efektivních vyhledávacích algoritmech. Tato bakalářská práce zkoumá vyhledávání vědeckých článků pomocí modelů založených na Transformeru: BERT, SciBERT, RoBERTa a MPNet, a také specializovaných modelů: SPECTER, SciNCL a tři Sentence Transformery. Analyzujeme každý model a porovnáváme jejich výkon na testovacích datasetech z SciRepEvalu. Sentence Transformer s architekturou MPNet dosahuje nejlepších výsledků v 7 z 9 testů, přičemž překonává i modely specializované na reprezentaci dokumentů. Naše jednoduchá vyhledávací aplikace slouží jako ukázka možnosti volby modelu pro vyhledávání. | cs_CZ |
uk.abstract.en | As databases expand, the demand for effective information retrieval algorithms increases. This thesis investigates the research paper retrieval using Transformer-based models: BERT, SciBERT, RoBERTa, and MPNet, and fine-tuned models: SPECTER, SciNCL, and three Sentence Transformers. We analyze each model and compare their performance on SciRepEval benchmark datasets. The Sentence Transformer with MPNet architecture achieves the best performance in 7 out of 9 tasks, outperforming even the document representation fine-tuned models. Our simple search application showcases the option for users to choose the model for searches. | en_US |
uk.file-availability | V | |
uk.grantor | Univerzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistiky | cs_CZ |
thesis.grade.code | 1 | |
uk.publication-place | Praha | cs_CZ |
uk.thesis.defenceStatus | O | |