Euskararen Datu Base Lexikala
Euskararen Datu-Base Lexikala edo EDBL (Donostia, 1992) euskarazko hitz eta morfemei buruzko informazio zabala biltzen duen datu-basea da, Internet bidez arakatu daitekeena. Beraz, hiztegi informatiko baten moduko zerbait da, baina hitzez gain, atzizkiak-eta hartzen ditu. Esanahia barik, bakoitzaren propietate lexiko eta morfologikoak zehazten ditu definizio bakoitzak. Informazio hori Xuxen zuzentzaile ortografikoaren eta EHUko Ixa Taldearen beste tresna eta aplikazio askoren oinarri lexikala da.[1][2][3][4]
Euskararen Datu Base Lexikala | |
---|---|
Jatorria | |
Egilea(k) | Ixa taldea eta UZEI |
Izenburua | Euskararen Datu-Base Lexikala |
Ezaugarriak | |
Hizkuntza | euskara |
ixa2.si.ehu.es… |
Aplikazioak
EDBL euskararen tratamendu automatikorako beharrezko den oinarri lexikala da. Hasiera batean, Xuxen zuzentzaile ortografikoaren euskarri gisa garatu bazen ere, denboraren poderioz helburu askotarako erreminta dela frogatu du, gaur egun, zuzentzaile ortografikoaren oinarri izateaz gain, Morfeus analizatzaile morfologikoaren eta Eustagger lematizatzailearen oinarri lexikala ere badelako, eta noski analisi sintaktiko-semantikorako ere erabiltzen da.
Xuxen-en programa barruan ez dago sartuta hitz edo atzizkiei buruzko informazioa, hori aparte dago EDBLn. Xuxen-en bertsio berri bat egin nahi denean programa berriarekin batera EDBL datu-basean unean dagoen informazioaren esportazio bat erabiltzen da. 2018an kaleratutako azken bertsioa bostgarrena izan zen (5.1).[5]
Garapenaren historia
1994an Xuxenen lehen bertsioa argitaratu zenean 60.000 sarrera zeuden EDBLn, baina osatuz joan zen UZEIren EEBS corpusa (Egungo Euskararen Bilketa Sistematikoa) hedatzen joan zen heinean, eta geroago Euskaltzaindiak hiztegi batua hedatzen joan den heinean.[4] Aberaste-prozesu horren ondorioz 2018an 125.074 sarrera zeuden EDBL datu-basean.[5] Beraz, 1992ko datu-basearen hasierako 60.000 sarrera haiek, ea bikoiztu egin ziren 25 urte geroago, hau da euskararen normalizazio-prozesuaren dinamismoaren zenbaki bat. Besteak beste ikertzaile hauek parte hartu dute datu-basearen diseinuan, sorkuntzan edo aberasketan: Miriam Urkia, Itziar Aduriz, Iñaki Alegria, Xabier Artola, Jon Mikel Intsausti, Gorka Labaka Izaskun Aldezabal, Xabier Arregi, Arantza Diaz de Ilarraza, Nerea Ezeiza, Koldo Gojenola, Montserrat Maritxalar, Kepa Sarasola, Ruben Urizar, Klara Zeberio eta Ainara Estarrona.[6]
Iturburuak
EEBS corpusa urtero urtero handitzen joan zen 2002era arte, orduan Euskaltzandiaren eskuetara pasa zen eta oraingo XX. mendeko euskararen corpus estatistikoa bihurtu zen. Harrezkero Lexikoaren behatokia corpusa eta Hiztegi Batua izan dira EDBL handitzen joateko iturburuak. Lexikoaren behatokia proiektua 2008. urtean jarri zuen abian Euskaltzaindiak, Andoni Sagarna euskaltzainaren zuzendaritzapean. Euskaltzaindiko ikerketarako testu-corpus etiketatu eta linguistikoki anotatu bat prestatzea du helburu. Corpus hori osatzeko hainbat hornitzaile aurreikusi ziren, hedabideak bereziki, eta horien artean, besteak beste, interes orokorreko komunikabideak. 2012. urtearen bukaeran 26.565.924 testu-hitz zeuzkan corpusak eta urtean-urtean handituz joan da. Euskaltzaindia, IXA taldea, Elhuyar Fundazioa eta UZEI dira proiektuaren kideak.[7]
Antolaketa
Teoria linguistiko desberdinekiko neutrala, malgua, irekia eta erabilterraza izanik, corpusekin batera, hizkuntzaren prozesamenduko (HP) lanetarako ezinbesteko tresna da. 125.075 sarrera ditu bakoitza bere informazio morfologikoarekin, hiru atal nagusitan banatuta: [5]
- 104.116 hiztegi-sarrera (hiztegi konbentzional batean aurkitzen direnak bezalakoxeak: "etxe", "madari"...)
- 20.599 forma flexionatu (aditz-formak: "dut", "nintzen", "niezaion"...)
- 355 morfema ez-independente. Atzizkiak edo aurrizkiak eurak bakarrik hitz oso bat osatzerik ez dutenak dira horiek. Adibidez, “lako” atzizkia erabil dezakezu “delako”, “naizelako” edo “nintzelako” hitzak osatzeko, baina “lako” hori ez da inoiz hitz oso bat.
Forma horien guztien artean 6.581 unitate ez-estandarrak dira, adibidez “eritzi”, Batuan onartuta dauden unitateak estandarrak dira, adibidez “iritzi” estandarra da, eta “eritzi” ez da estandarra.
Forma guzti horien artean 2.209 hitz anitzeko unitate lexikal dira, adibidez, "aditzera eman", "botoi-zulo", "hain zuzen ere"... [8]
- Hitz ez-estandarren proportzioa
- Hiztegiko sarrera, hitz flexionatu eta ez-independenteen proportzioa
- Hitz anitzekoen proportzioa
Oinarrizko teknologia
Egun, ORACLE V7 kudeatzaileaz eta UNIX sistema eragilearen pean garaturik dago. Egitura hierarkikoz antolaturik dago, euskararentzat egokitutako kategoria-sistemaren arabera. Euskara batuko lexiko orokorra islatzea du helburu, eta lexiko horretaz HPan beharrezko den informazioaren biltegi da.[9][10][11]
Euskarazko zuzentzailea ez da hiztegi huts batean oinarritzen, segmentatzaile morfologikoa behar baitu hitz bat zuzen idatzita dagoen ala ez erabakitzeko. Aipatutako datu-basea hizkuntza prozesatzeko lan guztietan erabiltzen da, etengabe eguneratzen da, etengabe zuzendu eta aberasten da; eta Xuxenen bertsio berri hau prestatzeko, Elhuyarren hiztegiekin ere erkatu da, eta esan behar da erkatze horretatik eratorri diren zuzentze-aberasteak garrantzi handikoak izan direla. Gaur egun, Euskaltzaindiak Hiztegi Batuaren bidez emandako arau eta gomendio guztiek dute beren isla EDBLn, eta Euskaltzaindiak plazaratu ahala gauzatzen dira arau horiek datu-basean. Beraz, EDBL egunean mantentzen da beti, eta handik sortzen da zuzentzaileak behar duen lexikoa, zuzentzaileak behar duen formatuan.[12]
Iñaki Alegria informatikariaren tesiak eta Miriam Urkia hizkuntzalariarenak Xuxen zuzentzaile ortografikoaren oinarri informatikoa eta linguistikoa ezarri zuten.[13][14][15][16] Euskara mundu digitalean erabili ahal izateko lehen urratsetako bat izan zen; 1995ean Luistxo Fernandezek idatzitako Leihoak Zabalduz txostenean azaltzen zen bezala; urte berean plazaratu zen euskaraz zebilen lehen sistema eragilea ere (Windows 95).
Geroago, Morfologia konputazionala: euskararen morfologiaren deskribapena liburua argitaratu zuten bien artean 2002an.[17]
Galeria
- Itziar Aduriz eta Miriam Urkia (1994)
Erreferentziak
- «EDBL | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2020-05-13).
- «EDBL - Euskararen Datu-Base Lexikala Interneten» ixa2.si.ehu.es (Noiz kontsultatua: 2020-05-13).
- «Xuxen euskararako lehen zuzentzaile ortografikoa kaleratu berri dute.» Euskaldunon Egunkaria (Noiz kontsultatua: 2020-04-24).
- «Leihoak Zabalduz. Windows95 euskaratua, hizkuntza makinen bidez lantzeko tresna berriak... Informatikaren eta euskararen arteko muga esploratu gabeetan barrena abiatu gara - Wikiteka» eu.wikisource.org (Noiz kontsultatua: 2020-05-13).
- Zenbat hitz desberdin ezagutzen ditu Xuxen 5.1-ek? – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-05-13).
- «EDBL | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2020-05-13).
- Mintegia: Lexikoaren Behatokia proiektua eta EDBL aberasten Hiztegi Batuarekin (2013/12/11) – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-05-13).
- «Euskarazko hitz anitzeko unitate lexikalen tratamendu konputazionala | Ixa taldea» ixa.si.ehu.es (Noiz kontsultatua: 2020-05-13).
- «EDBL: a General Lexical Basis for the Automatic Processing of Basque | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2020-05-13).
- «EDBL: a Multi-Purposed Lexical Support for the Treatment of Basque | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2020-05-13).
- «Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2020-05-13).
- Ongi etorri, Xuxen 5 – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-05-13).
- Urkia, Miriam. (1997). Euskal morfologiaren tratamendu informatikorantz. UPV/EHU - TESIKER euskarazko tesiak.
- Alegria Loinaz, Iñaki. (1995). https://www.euskadi.eus/w10aTesDocWar/tesisDoctoralJSP/w10aConsultarTesisDoctoralLookUpDispath.do?clave=accionVer134. UPV/EHU - TESIKER euskarazko tesiak.
- Alegria Loinaz, Iñaki. (1995). «EUSKAL MORFOLOGIAREN TRATAMENDU AUTOMATIKORAKO TRESNAK.» www.educacion.gob.es (TESEO tesis doctorales) (Noiz kontsultatua: 2020-04-24).
- Urkia, Miriam. (1997). «EUSKAL MORFOLOGIAREN TRATAMENDU INFORMATIKORANTZ» www.educacion.gob.es (UPV/EHU) (Noiz kontsultatua: 2020-04-25).
- Alegria Loinaz, Iñaki; Urkia Gonzalez, Miriam. (2002). Morfologia konputazionala. UEU ISBN 9788484380344. (Noiz kontsultatua: 2018-12-15).
- Fernandez, Luistxo. (1995-12-24). «Leihoak Zabalduz. Windows95 euskaratua, hizkuntza makinen bidez lantzeko tresna berriak... Informatikaren eta euskararen arteko muga esploratu gabeetan barrena abiatu gara - Wikiteka» eu.wikisource.org (Euskaldunon Egunkaria) (Noiz kontsultatua: 2020-04-25).
Kanpo estekak
- EDBLren kontsulta online
- xuxen.eus webgunea.
- Txertatu Xuxen gehigarria (add-on) Mozilla Firefox nabigatzailean.
- Eusko Jaurlaritzaren Hizkuntza politika sailburua, XUXEN eta beste euskarazko softwarea deskargatzeko webgunea.
- Mozilla Firefox-erako Xuxen gehigarriaren deskarga-estatistikak (250.000 baino gehiago)
- Xuxen.eus gunearen bisita kopuruaren estatistika (eguneko 125 bisitari, 2020-04-25).