Bestalde, used predikatuarentzat sometimes denbora adjuntua (argM-TMP) eta charity (arg1) argumentua etiketatu ditu sailkatzaileak. Azkenik, know adi-tzak hiru adjuntu eta bi argumentu dauzkala ikus daiteke 2.6 irudian.
Aurrera jarraitu aurretik argitu beharra daukagu predikatu-lexikoietan adiera bakoitzarentzat zehazten diren argumentuek ez dutela zertan beti agertu testuetan dituzten gauzatzeetan. know aditzaren kasuan (know.01), esate baterako, arg0, arg1 eta arg2 rolak jasotzen dituela azaltzen da, baina adibidetako erabili du-gun esaldian ikus daiteke arg2 rola jokatzen duen argumentua ez dela agertzen. Adjuntuei dagokienez, ordea, ez dago adiera bakoitzak izan ditzakeen adjuntuen zerrendarik eta, beraz, printzipioz behintzat, edozein adjuntu jaso ditzakete.
2.2.2 Ebaluaziorako metrikak
Azpiatal honetan dependentzia etiketatzaileen eraginkortasuna neurtzeko erabiltzen di-ren Labeled Attachment Score, Labeled F1 eta Labeled Macro F1 Score metriken aurkez-pena eginen dugu.
Labeled Attachment Score-LAS: Dependentzia sintaktikoak etiketatzerakoan siste-mak izan duen eraginkortasuna adierazten du. Zehazkiago esan, esaldi bat eta dagokion zuhaitz sintaktikoa emanda, token bakoitzari zuhaitzean dagokion bu-ruko tokena (HEAD), eta tokenaren eta buruaren arteko erlazio sintaktiko mota (DEPREL) ongi denituta daukaten tokenen ehunekoa da. Buruko tokena edo erla-zio sintaktiko mota gaizki etiketatuta badago erlaerla-zio guztia gaizki dagoela ulertzen da. Eman dezagun s1 eta s2 esaldien dependentziak etiketatu direla eta lehenen-goak 10 token dituela, eta bigarrenak 45. Pentsa dezagun, gainera, etiketatu diren dependentzia hauetatik burua eta etiketa ongi eskuratu direla s1eko 9 tokenentzat eta s2ko 15 tokenentzat. Orduan bi aukera izango lirateke LAS neurria kalkulatze-ko: (1) LAS micro edo (2) LAS macro neurriak.
1. LAS micro: tokenetan oinarrituta kalkulatzen da LAS metrika. Adibidean (9 + 15)/(10 + 45) = 0.436egingo litzateke, alegia 100 ∗ 0.436 = %43.6 izango litzateke sistemaren eraginkortasuna, dependentzia sintaktikoak eskuratzeko orduan.
2. LAS macro: esaldietan oinarrituta kalkulatzen da LAS metrika. Adibidean (9/10 + 15/45)/2 = 0.617 egingo litzateke, alegia 100 ∗ 0.617 = %61.7 izango litzateke sistemaren eraginkortasuna, dependentzia sintaktikoak eskuratzeko orduan.
Labeled F1: Neurri honek dependentzia semantikoak etiketatzean sistemak izan duen eraginkortasuna adierazten du. Hau kalkulatu ahal izateko bi dependentzia semantiko mota hartzen dira kontutan: (1) predikatu baten eta honen argumentu edo adjuntuen artekoak, eta (2) predikatuen eta esaldiaren zuhaitz semantikoaren erro artiziala den root tokenaren artekoak. Dependentzia sintaktikoekin egin den moduan, erlazio semantiko bat ongi egongo da burua den tokena (predikatua edo erroa) eta etiketa semantikoa ((1) motako erlazioen kasuan rol semantikoa edo
adjuntu-etiketa eta (2) motakoenean predikatuaren adiera) zuzen etiketatuta ba-daude. Neurri honek ahalbidetzen du predikatu-argumentu-adjuntu egitura batean predikatuari dagokion adiera gaizki esleituta egonda ere, argumentu edo adjuntuak ongi etiketatuta baldin badaude, hauengatik puntuak jasotzea. Eman dezagun s1 eta s2 esaldien dependentzia semantikoak etiketatu direla, eta bertan e11, e12 eta e21 predikatu-argumentu-adjuntu egiturak etiketatu direla. Honela:
s1:
e11 = predikatua.01: arg0, arg1, argM-TMP e12 = predikatua.04: arg0, arg1
s2:
e21 = predikatua.01: arg0, arg1, arg2, argM-LOC
Eman dezagun, gainera, dependentzia semantiko hauetako batzuk gaizki dau-dela, buruko tokena edo erlazio semantiko mota ongi eskuratu ez direlako. Adibi-dean ezabatuta agertzen direnak gaizki dauden dependentzia semantikoei dagozkie.
s1:
e11 = predikatua.01: arg0, arg1, argM-TMP e12 = predikatua.04: arg0, arg1
s2:
e21 = predikatua.01: arg0, arg1, arg2, argM-LOC
e11 egituraren kasuan ikusten den bezala, adiera zuzena ez izatea ere depen-dentzia okertzat ulertzen da. Estrategia hau baliaturik, hemen ere bi aukera daude, micro edo macro:
1. Micro: tokenetan oinarrituta kalkulatzen da. Adibidean (2+3+3)/(4+3+5) = 0.666egingo litzateke, alegia 100 ∗ 0.666 = %66.6 izango litzateke sistemaren eraginkortasuna, dependentzia semantikoak eskuratzeko orduan.
2. Macro: Predikatu-argumentu-adjuntu egituretan oinarrituta kalkulatzen da. Adibidean ((2/4 + 3/3) + (3/5))/3 = 0.7 egingo litzateke, alegia 100 ∗ 0.7 = %70 izango litzateke sistemaren eraginkortasuna, dependentzia semantikoak eskuratzeko garaian.
Ondoren, micro eta macro aukerei dagozkien doitasuna, estaldura eta F1 neurriak kalkulatuko lirateke. Hauei micro eta macro Labeled doitasuna, Labeled estaldura eta Labeled F1 neurriak esaten zaie, hurrenez hurren.
Labeled Macro F1 Score: Metrika honek aurreko biak konbinatzen ditu. Dependen-tzia etiketatzaileen kasuan, LAS macro eta macro Labeled F1 elkartzen dituen La-beled Macro F1 Score neurria erabiltzen da sistemaren eraginkortasuna neurtzeko. Hala ere, aukera dago LAS micro eta micro Labeled F1 uztartu eta Labeled Mic-ro F1 Score neurria kalkulatzeko. Bi kasuetan LAS eta Labeled F1en konbinatzea berdin egiten da. Erabiltzen den formula, macro aukerara egokitua, hau da:
LMP = Wsem * LPsem + (1 - Wsem) * LAS LME = Wsem * LEsem + (1 - Wsem) * LAS
Labeled Macro F1 Score = batezbesteko_harmonikoa (LMP, LME) LMP Labeled Macro Doitasuna da, eta LME, berriz, Labeled Macro Estaldura. Wsem aldagaiak dependentzia semantikoen azpiatazari, eta ondorioz dependentzia sintak-tikoenari ere (1 - Wsem), ematen zaion pisua adierazten du. Eskuarki (CoNLL-2008, 2009 ) biei garrantzia bera ematen zaie, erdia eta erdia (Wsem = 0.5). LPsem eta LEsem aldagaiak dependentzia semantikoen ebaluazioaren atalean kalkulatu ditu-gun macro Labeled doitasuna eta macro Labeled estaldura neurriak dira. Behin LMP eta LME kalkulatuz gero bien arteko batezbesteko harmonikoa kalkulatzen da, sis-tema osoaren eraginkortasuna adierazten duen Labeled Macro F1 Score neurria lortzeko. (Surdeanu et al., 2008) artikuluan esaten denez, LMP eta LME lortzeko, LAS doitasuna LP doitasunarekin eta LE estaldurarekin uztar daiteke, LAS neurria doitasun eta estaldura kasu berezitzat ikus daitekeelako. Honetan sistemak etike-tatutako dependentzia sintaktiko kopurua eta eskuzko etiketatze kopurua (gold) bera da.
2.3 Euskararako SRL prototipoa
Atal honetan tesi lanean garatu dugun euskarazko SRL sistemaren lehen eredua deskri-batzen da (Salaberri et al., 2014); hemendik aurrera SRL prototipoa deituko diogu tresna honi. 2.2 atalean esan dugun bezala, dependentzietan oinarritzen den rol semantikoen
etiketatze automatikoak bost urrats ditu. Prototipo honetan, hala ere, predikatuen ar-gumentu eta adjuntuei dagozkien rolak eta adjuntu-etiketak esleitzera mugatu gara, hau da, prozesuaren azkeneko urratsera.
Metodologiaren aldetik egokia iruditu zaigu lehenengo aldiz SRL atazari era honetara heltzea. Izan ere, tesi lanaren helburuetako bat euskararako SRL sistema guztiz automa-tikoa garatzea da, arkitekturako bost urratsak automatikoki egiten dituena. Horregatik, pentsatu dugu lehenik urrats bakar batean zentratuta algoritmorik egokienak eta emai-tzarik onenak itzultzen dituzten ezaugarriak zein diren identikatzea beharrezkoa dela.
Tesi lanean zehar erabili dugun corpusak ahalbidetzen duenez, prototipoan PropBank eta VerbNet ereduak jarraitzen dituen argumentuen sailkapena egin dugu. Honek bi rol multzoen arteko alderaketa egin eta azken sistemarako egokiena aukeratzea ahalbidetu digu. Prototipoaren garapenetik ateratako ondorioak kontuan izan ditugu bRol, SRL etiketatzaile guztiz automatikoa garatzeko orduan.
2.3.1 Informazioaren adierazpidea
EPEC-RolSem corpuseko txategiak CoNLL formatura bihurtu genituen, besteak beste irakurterrazagoak eta prozesatzeko erosoagoak izan zitezen. Modu honetara dependen-tzia etiketatzaileen arloan estandarra den formatuarekin lan egiteko aukera izan dugu. Gainera, adierazpide hau erabiltzeak ahalbidetu du SRL prototipoan oinarrituta garatu dugun bRol tresna CoNLL-2008, 2009 saioetako ebaluaziorako scriptak erabilita ebalua-tu ahal izatea, tesebalua-tuinguru estandarrean alegia. 2.7 irudian Egiptora Axtarteren hilobia bilatzera zihoala esan zion norbaiti esaldiaren CoNLL formatuan adierazitako txategia ikus daiteke.
Adibideak adierazten duenez CoNLL izeneko formatu edo adierazpidea den honetan informazioa zutabetan dago antolatuta (Z1-Z16). Azkeneko sei zutabeetan antzeman daitekeen moduan, esaldian identikatu den predikatu bakoitzarentzat bi rol zutabe sortzen dira, bat PropBank ereduko rol eta adjuntuentzat (Z11, Z13, Z15) eta beste bat VerbNet ereduko rolentzat (Z12, Z14, Z16). look.05 adiera daukan predikatuari Z11 eta Z12 zutabeak dagozkio, go.01 adierakoari Z13 eta Z14 zutabeak eta, azke-nik, say.01/tell.01 adiera duen predikatuari Z15 eta Z16. Hortaz, formatu honetan zutabe kopurua predikatu kopuruaren araberakoa da. Gainerako zutabeei dagokienez (Z1-Z10), hau da gordetzen duten informazioa: