Zobrazit minimální záznam

Hledání chyb a nekonzistencí v koreferenčním datasetu CorefUD
dc.contributor.advisorPopel, Martin
dc.creatorDohnalová, Barbora
dc.date.accessioned2024-11-28T11:52:16Z
dc.date.available2024-11-28T11:52:16Z
dc.date.issued2024
dc.identifier.urihttp://hdl.handle.net/20.500.11956/192872
dc.description.abstractProjekt CorefUD se snaží harmonizovat anotaci koreference napříč různými jazyky, po vzoru iniciativy Universal Dependencies. Od roku 2022 je CorefUD dataset využíván v CRAC Shared Task on Coreference Resolution, soutěži, ve které je cílem zúčastněných automaticky koreferenci anotovat. Jelikož jsou predikce zúčastněných systémů veřejně dostupné, rozhodli jsme se otestovat s jejich pomocí následující domněnku: Pokud se většina predikcí shodne, že by zlatá data měla být anotovaná jinak, potenciálně to ukazuje na chybu právě ve zlatých datech. Abychom ji ověřili, naprogramujeme PluCorAED, systém na detekci anotačních chyb, který klasifikuje chyby, které predikce udělaly, a posčítá je. Následně provedeme analýzu výsledků, abychom zjistili, pro které typy chyb je tento přístup vhodný. Nakonec shrneme chyby, které jsme našli a opravili v CorefUDu - Některé z oprav již byly zakomponovány do nejnovější verze.cs_CZ
dc.description.abstractThe CorefUD project attempts to harmonise coreference annotation accross different languages, in the spirit of the Universal Dependencies initiative. Since 2022 it is also used in the CRAC Shared Task on Coreference Resolution, where participants try to annotate the data automatically. As the submission predictions are publicly available, we decided to test the following hypothesis: If most of the predictions agree that the gold annotation should be different, it might indicate an error in the gold data. To verify this, we build PluCorAED, an annotation error detection system, which classifies errors the submissions made and aggregates them. Then we analyse the results to see which types of errors this approach might be suitable for. Finally, we give an overview of the errors we have found and corrected in CorefUD. Some of the corrections have already been incorporated into a new release.en_US
dc.languageEnglishcs_CZ
dc.language.isoen_US
dc.publisherUniverzita Karlova, Matematicko-fyzikální fakultacs_CZ
dc.subjectcoreference|annotation error detection|CorefUDen_US
dc.subjectkoreference|detekce chyb v anotaci|CorefUDcs_CZ
dc.titleFinding errors and inconsistencies in the CorefUD coreference dataseten_US
dc.typebakalářská prácecs_CZ
dcterms.created2024
dcterms.dateAccepted2024-09-05
dc.description.departmentInstitute of Formal and Applied Linguisticsen_US
dc.description.departmentÚstav formální a aplikované lingvistikycs_CZ
dc.description.facultyMatematicko-fyzikální fakultacs_CZ
dc.description.facultyFaculty of Mathematics and Physicsen_US
dc.identifier.repId255447
dc.title.translatedHledání chyb a nekonzistencí v koreferenčním datasetu CorefUDcs_CZ
dc.contributor.refereeNovák, Michal
thesis.degree.nameBc.
thesis.degree.levelbakalářskécs_CZ
thesis.degree.disciplineComputer Science with specialisation in Foundations of Computer Scienceen_US
thesis.degree.disciplineInformatika se specializací Obecná informatikacs_CZ
thesis.degree.programComputer Scienceen_US
thesis.degree.programInformatikacs_CZ
uk.thesis.typebakalářská prácecs_CZ
uk.taxonomy.organization-csMatematicko-fyzikální fakulta::Ústav formální a aplikované lingvistikycs_CZ
uk.taxonomy.organization-enFaculty of Mathematics and Physics::Institute of Formal and Applied Linguisticsen_US
uk.faculty-name.csMatematicko-fyzikální fakultacs_CZ
uk.faculty-name.enFaculty of Mathematics and Physicsen_US
uk.faculty-abbr.csMFFcs_CZ
uk.degree-discipline.csInformatika se specializací Obecná informatikacs_CZ
uk.degree-discipline.enComputer Science with specialisation in Foundations of Computer Scienceen_US
uk.degree-program.csInformatikacs_CZ
uk.degree-program.enComputer Scienceen_US
thesis.grade.csVýborněcs_CZ
thesis.grade.enExcellenten_US
uk.abstract.csProjekt CorefUD se snaží harmonizovat anotaci koreference napříč různými jazyky, po vzoru iniciativy Universal Dependencies. Od roku 2022 je CorefUD dataset využíván v CRAC Shared Task on Coreference Resolution, soutěži, ve které je cílem zúčastněných automaticky koreferenci anotovat. Jelikož jsou predikce zúčastněných systémů veřejně dostupné, rozhodli jsme se otestovat s jejich pomocí následující domněnku: Pokud se většina predikcí shodne, že by zlatá data měla být anotovaná jinak, potenciálně to ukazuje na chybu právě ve zlatých datech. Abychom ji ověřili, naprogramujeme PluCorAED, systém na detekci anotačních chyb, který klasifikuje chyby, které predikce udělaly, a posčítá je. Následně provedeme analýzu výsledků, abychom zjistili, pro které typy chyb je tento přístup vhodný. Nakonec shrneme chyby, které jsme našli a opravili v CorefUDu - Některé z oprav již byly zakomponovány do nejnovější verze.cs_CZ
uk.abstract.enThe CorefUD project attempts to harmonise coreference annotation accross different languages, in the spirit of the Universal Dependencies initiative. Since 2022 it is also used in the CRAC Shared Task on Coreference Resolution, where participants try to annotate the data automatically. As the submission predictions are publicly available, we decided to test the following hypothesis: If most of the predictions agree that the gold annotation should be different, it might indicate an error in the gold data. To verify this, we build PluCorAED, an annotation error detection system, which classifies errors the submissions made and aggregates them. Then we analyse the results to see which types of errors this approach might be suitable for. Finally, we give an overview of the errors we have found and corrected in CorefUD. Some of the corrections have already been incorporated into a new release.en_US
uk.file-availabilityV
uk.grantorUniverzita Karlova, Matematicko-fyzikální fakulta, Ústav formální a aplikované lingvistikycs_CZ
thesis.grade.code1
uk.publication-placePrahacs_CZ
uk.thesis.defenceStatusO


Soubory tohoto záznamu

Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail
Thumbnail

Tento záznam se objevuje v následujících sbírkách

Zobrazit minimální záznam


© 2017 Univerzita Karlova, Ústřední knihovna, Ovocný trh 560/5, 116 36 Praha 1; email: admin-repozitar [at] cuni.cz

Za dodržení všech ustanovení autorského zákona jsou zodpovědné jednotlivé složky Univerzity Karlovy. / Each constituent part of Charles University is responsible for adherence to all provisions of the copyright law.

Upozornění / Notice: Získané informace nemohou být použity k výdělečným účelům nebo vydávány za studijní, vědeckou nebo jinou tvůrčí činnost jiné osoby než autora. / Any retrieved information shall not be used for any commercial purposes or claimed as results of studying, scientific or any other creative activities of any person other than the author.

DSpace software copyright © 2002-2015  DuraSpace
Theme by 
@mire NV