Begoña Altuna
Begoña Altuna Diaz (Deustu, Bilbo, 1989) Euskal Herriko Unibertsitateko Hitz zentroko filologo ikertzailea da, Ixa taldean. Euskarazko testuetan espazio eta denboraren errepresentazioa ikertzen du. Giza eta gizarte zientzietan ikerketa euskaraz egin ahal egiteko baliabideak eskaintzen dituen Clariah-eus sarea sortzeko sustatzaileetako bat izan da Euskal Herrian.[1]
Begoña Altuna | |
---|---|
Bizitza | |
Jaiotza | Deustu eta Bilbo, 1989 (34/35 urte) |
Hezkuntza | |
Heziketa | Deustuko Unibertsitatea Euskal Herriko Unibertsitatea |
Tesi zuzendaria | Arantza Diaz de Ilarraza Sanchez Maxux Aranzabe |
Jarduerak | |
Jarduerak | hizkuntzalari konputazionala eta ikertzailea |
Enplegatzailea(k) | Euskal Herriko Unibertsitatea HiTZ zentroa |
Kidetza | Ixa taldea Udako Euskal Unibertsitatea HiTZ zentroa Sociedad Española para el Procesamiento del Lenguaje Natural |
Hainbat urtetan parte hartu du Deustuko bizitza kulturalean, eragile izanik. Ohiko kolaboratzailea da Uriola.eus atarian non Deustualdeko albiste lokalak zabaltzen dituen.[2]
Udako Euskal Unibertsitateak antolatzen dituen Ikergazte kongresuetan saria jaso zuen 2015ean eta 2017an. Geroago kongresuaren antolakuntzan ere parte hartu du baita UEUko hizkuntzalaritza sailean ere.
Ikasketak
Familiak ingeniaria izango zela uste zuen, baina institutuko azken urtean berea hizkuntzarekin jolastea zela erabaki eta Euskal Filologian eman zuen izena Deustuko unibertsitatean. Manchesterren egin zuen Erasmusa eta han Deustun lantzen ez ziren hizkuntzalaritzako beste gai batzuk ikasteko aukera izan zuen.[3]
Trentoko unibertsitateko ikerketa zentroan ikerketa egonaldi luzeak egin ditu euskarazko testuetan espazio eta denboraren errepresentazioa ikertzen.[4] Trentoko taldeak italiera eta ingeleserako egindako ikerketa batzuk euskarara ere moldatzen eta testu-corpusak biltzen aritu izan da Trenton.
Ikerlaria
Karrera bukatu eta urtebete Belgikan gaztelania irakasle egin ondoren, Hizkuntzaren Azterketa eta Prozesamendua masterra egin zuen Donostiako Informatika Fakultatean.[3] eta 2018an 'Euskarazko denbora-egituren azterketa eta corpusaren sorrera' izenburuko doktore-tesia aurkeztu zuen Arantza Diaz de Ilarraza eta Maxux Aranzabe irakasleen zuzendaritzapean.[5]
Tesia egiten zuen bitartean birritan irabazi zuen Giza zientzietako Ikergazte saria, 2015ean eta 2017an. 2015ean “Euskarazko denbora-egituren tratamendu automatikorako azterketa” izenburuko aurkezpenarekin irabazi zuen saria.[6][7][8] 2017koan giza zientzietako poster onenaren saria jaso zuen “Euskarazko ezeztapenaren tratamendu automatikorako azterketa” lanarekin. Ikerketa-ildo nagusia denbora-informazioaren azterketa eta tratamendua zen. Hau da, testuetan zer gertatzen den eta noiz gertatzen den aztertzen du. Zer gertatzen den eta zer ez den gertatzen erabakitzeko prozesu horretan ezeztapena aztertzea nahitaezkoa da, izan ere, ezezka agertzen den gertaera ez da gertatu edo ez da gertatuko. Ondorioz, euskaraz ezeztapena nola gauzatzen zen eta testuko zein elementuren gainean duen eragina aztertu zuen tesian eta informazio hori era normalizatuan adierazi zuen gero. Ondoriorik nabarmenena euskarazko ezeztapena identifikatzea nahiko erraza dela da. Etiketatzaileak nahiko ados egon ginen ezeztapena identifikatzean. Izan ere, euskaraz ezeztapen bakarra dugu perpausean (ez, ezin). Gaztelaniaz, ordea, bi ezeztapen agertu ohi dira perpausetan “NO he traído NINGÚN libro” eta horrek zailtasun gehiago du ezeztapena zein den erabakitzean. Ezeztapenak zeri eragiten dion, ordea, zailagoa da erabakitzen, bai euskaraz bai inguruko hizkuntzetan. Adibidez, “Mikel ez da autoz etorri” perpausean ez dakigu Mikel izan den etorri dena, etorri den ala ez edo etorri bai, baina bizikletaz etorri den. Kontu horrek hainbat eztabaida sortu ditu ezeztapenari buruz ikertzen ari diren hizkuntzalarien artean eta askotan norbere ikuspegiaren araberako erantzun guztiak balekoak dira. Ordenagailuek, ordea, guztiz objektiboak diren irizpideak behar dituzte eta horiek erabakitzen saiatzen dira.[3][9][10]
Clariah-eus sarea sortzeko sustatzaileetako bat da Euskal Herrian. Giza eta gizarte zientzietako ikerketa euskara oinarri hartuta eta euskaraz egiteko baliabideak eskaintzen ditu azpiegitura horrek.[1]
Denbora-informaziodun testuetatik denbora-lerroetara
Hizkuntzaren Prozesamenduko ataza nagusietako bat testuetako informazioa automatikoki erauztea da. Horretarako, tresna automatikoak garatu behar dira eta, askotan, horiek garatzeko oinarrian ikasketa-algoritmoak daude. Ikasketa-algoritmoek testuetako informazio esanguratsua markaketa-lengoaien bidez etiketatuta duten testuak (urre-patroiak) behar dituzte. Horretan datza corpus etiketatuen interesa. Gainera, corpus horiek garatutako tresnak ebaluatzeko baliabide garrantzitsuak dira.[11]
Denbora-informazioaren kasuan, zer noiz gertatzen den identifikatzen da. Esaterako, honako adibide honetan:
- "Apple-ren kapitala hirukoiztu egin zen 2004an, bikoiztu 2005ean eta % 16 hazi 2006an."
denborazko hiru adierazpen agertzen dira: "2004an", "2005ean" eta "2006an".
Informazio hori Hizkuntzaren Prozesamenduko tresnekin baliatu ahal izateko, denbora-informazioa modu formal baten arabera errepresentatu behar da, alegia, markaketa-lengoaia baten bidez etiketatu behar da. Adibidez, lehengo esaldia honela izan daiteke Altunak moldatu duen EusTimeML markaketa-lengoaiaren arabera.[12][11]
Ikus daitekeenez, gertaerek <EVENT> etiketa hartzen dute eta denbora-adierazpenek, <TIMEX3>. Etiketa bakoitzak atributu zerrenda bat hartzen du eta horien bidez gertaeren edo denbora-adierazpenen atributuak (mota eta balio normalizatuak, besteak beste) esplizitu egiten dira. Halaber, gertaeren eta denbora-adierazpenen artean aldiberekotasuna (IS INCLUDED) adierazten duten denbora-erlazioak etiketatu dira. Informazio hori baliatuta, irudiko denbora-lerroa sor daiteke. Denbora-lerro hori eraikitzeko, esaldiko gertaerak gertatzen diren uneetara ainguratu edo lotu behar dira. Horretarako, zein gertaera zein unetan gertatu den kontuan hartu behar da.[11]
Euskarazko denbora-informazioaren prozesamenduan, EusTimeML markaketa-lengoaia definitzeaz gain, horri jarraituta, EusTimeBank corpusa sortu zuen Altunak Ixako taldekideekin,[5] baita euskarazko denbora-informazioak automatikoki erauzten duten EusHeidelTime[13] eta bTime tresnak.[14][11]
Zehazki, EusHeidelTimek denbora-adierazpenak identifikatzen eta sailkatzen ditu, eta ISO-8601 arauaren araberako balio normalizatua esleitzen die; bTimek, berriz, gertaerak eta denbora-erlazioak identifikatzen eta sailkatzen ditu.[11]
EusHeidelTimek eta bTimek denbora-informazioa etiketatuta duten testuak itzultzen dituzte. KroniXa sistemak, etiketatuta dagoen informazio horretan oinarrituta, testuetako gertaerak ardatz kronologikoan kokatzen ditu. Denbora-lerroak eskuz etiketatuta dituen EusTimeBank-TL corpusak hainbat esaldi dauzka bakoitza bere denbora-lerroarekin. Datu horiek eskuz sortu dira eta, esan bezala, beharrezkoak dira denbora-lerroak automatikoki sortuko dituzten programak entrenatu eta ebaluatzeko.[11]
Sariak
- 2015: Giza zientzietako Ikergazte saria,
- 2017: Giza zientzietako Ikergazte saria,
- 2017: SEPLN biltzarreko artikulu onenaren saria jaso zuen artikulu honekin: ‘EusHeidelTime: Time Expression Extraction and Normalisation for Basque‘. Ingeleserako eta beste hizkuntzetarako erabiltzen den HeidelTime tresna egokitu zuten euskaraz ere erabili ahal izateko. Morfologia aberatsa duen hizkuntza baterako ere baliagarria izan daitekeela frogatu zuten.[15][13]
Erreferentziak
- Urdalleta Lete, Irati. (2023-05-18). ««Clariah-eus pertsonen, baliabideen eta tresnen sare bat izango da»» Berria (Noiz kontsultatua: 2023-08-30).
- «Begoña Altuna - Komunitatea - Uriola.eus» uriola.eus (Noiz kontsultatua: 2023-08-30).
- «Begoña Altuna Diaz: "Batzuetan nire burua imajinatzen dut robot batekin euskaraz, hitz egin eta ulertu"» www.ueu.eus (Noiz kontsultatua: 2023-08-29).
- (Gaztelaniaz) «'Todo lo que es prescindible está cerrado, sin embargo, lo necesario está asegurado'» EITB 2020-03-12 (Noiz kontsultatua: 2023-08-30).
- Altuna Díaz, Begoña. (2018-11-21). Euskarazko denbora-egituren azterketa eta corpusaren sorrera/Analysis of Basque temporal constructions and creation of a corpus.. (Noiz kontsultatua: 2023-09-01).
- Loinaz, Iñaki Alegria; Nuñez, Ainhoa Latatu; Ibarra, Miren Josu Omaetxebarria. (2015). “Euskarazko denbora-egituren tratamendu automatikorako azterketa” Begoña Altuna. Honetan: I. Ikergazte: Nazioarteko ikerketa euskaraz. Kongresuko artikulu-bilduma. UEU, 46-53 or. ISBN 978-84-8438-539-4. (Noiz kontsultatua: 2023-08-29).
- Ikergazteko sari bana Begoña Altuna eta Olatz Perez de Viñasprerentzat – Hizkuntza-teknologiak. (Noiz kontsultatua: 2019-01-17).
- «Begoña Altuna: "Ikerketan jarraitzeko animatu nauen saria izan da, gauza ondo eginek fruituak ematen dituztenaren seinale" — Unibertsitatea.Net» www.unibertsitatea.net (Noiz kontsultatua: 2019-01-17).
- Loinaz, Iñaki Alegria; Nuñez, Ainhoa Latatu; Ibarra, Miren Josu Omaetxebarria; Zaratiegi, Patxi Salaberri. (2017-05-07). “Euskarazko ezeztapenaren tratamendu automatikorako azterketa” Begoña Altuna. Honetan: II. Ikergazte. Nazioarteko ikerketa euskaraz. Kongresuko artikulu bilduma. Zientzia Zehatzak eta Natur Zientziak. UEU, 127 or. ISBN 978-84-8438-631-5. (Noiz kontsultatua: 2023-08-29).
- IKERGAZTE sari bat Begoña Altunari – Hizkuntza-teknologiak, Ixa Taldearen bloga. (Noiz kontsultatua: 2023-08-29).
- Altuna Diaz, Begoña; Aranzabe Urruzola, Maxux; Diaz de Ilarraza Sanchez, Arantza. (2019). EusTimeBank-TL corpusa: denbora-informaziodun testuetatik denbora-lerroetara. Honetan: "III. Ikergazte. Nazioarteko ikerketa euskaraz. Kongresuko artikulu bilduma. Giza zientziak eta Artea". Udako Euskal Unibertsitatea doi: . (Noiz kontsultatua: 2023-09-01).
- Altuna Díaz, Begoña; Aranzabe Urruzola, María Jesús; Díaz de Ilarraza Sánchez, Arantza. (2016-02-11). Euskarazko denbora-egiturak etiketatzeko gidalerroak v2.0. (Noiz kontsultatua: 2023-09-01).
- (Gaztelaniaz) Altuna, Begoña; Aranzabe, María Jesús; Díaz de Ilarraza, Arantza. (2017-09-05). «EusHeidelTime: Time Expression Extraction and Normalisation for Basque» Procesamiento del Lenguaje Natural 59 (0): 15–22. ISSN 1989-7553. (Noiz kontsultatua: 2023-08-29).
- Salaverri Izco, Haritz. (2017-07-27). Rol semantikoen etiketatzeak testuetako espazio-denbora informazioaren prozesamenduan daukan ereaginaz. (Noiz kontsultatua: 2023-09-01).
- SEPLN2017 biltzarreko artikulu onenaren saria – Hizkuntza-teknologiak, Ixa Taldearen bloga. (Noiz kontsultatua: 2023-08-29).
Kanpo estekak
- Begoña Altuna HiTZ Zentroa (25 argitalpen, 5 proiektu).
- Begoña Altuna Linkedin sare profesionalean.
- Begoña Altuna Google Scholar-ren.
- Begoña Altuna, Ordenagailuen euskara irakaslea. Deustualdeko 50tik gora albiste baino gehiago Bilboko auzoetako albisteen euskarazko atarian.
- IkerGazteko parte hartzaile bik egindako bideoa: “Eskerrik asko UEU” (UEU . Youtube, 2015).
- #ikergazte2017 Begoña Altuna. (UEU . Youtube, 2015).