WordNet
WordNet ingelesezko[1] datu-base lexikal bat da. Ingelesezko hitzak synset deituriko sinonimo-taldeetan elkartuta, definizio laburrez eta erabilera-adibideez hornituta, eta sinonimo-taldeen arteko harreman semantikoak biltzen ditu. Synsetak modu hierarkikoan antolatuta daudenez, taxonomia gisa ere ikus daiteke wordnet, hiperonimia eta hiponimia erlazioen bitartez egiten da hori. Beraz, Wordnet hiztegi eta thesaurus baten arteko konbinazio moduan ikus daiteke. Giza erabiltzaileak web nabigatzaile baten bidez sar daitezkeen arren[2], bere erabilera nagusiak testu-analisi automatikoko eta adimen artifizialeko aplikazioak dira. Datu-base eta software tresnak BSD lizentziapean argitaratu dira, eta WordNeten webgunetik doan deskarga daitezke. Datu-basea ekoizteko datu lexikografikoak eta konpiladorea ere eskuragarri daude.
Ingelesezko wordneta da sortu zen zen lehenengoa, 1985ean, baina geroago hainbat eta hainbat hizkuntzatarako ere sortu izan dira wordnetak,[3] Gainera wordnet horietako kontzeptuen artean hizkuntza arteko loturak definitu ohi dira. Horrela, adibidez, Euskal WordNet Europako hainbat hizkuntzekin lotuta dago EuroWordNet barruan, eta munduko 30 hizkuntzatako wordnetekin Open Multilinguak Wordnet proiektuan.
Historia eta taldeko kideak
WordNet Princeton Unibertsitateko Zientzia Kognitiboaren Laborategian sortu zen 1985ean George Armitage Miller psikologia irakaslearen zuzendaritzapean, eta azken urteotan Christiane Fellbaum izan da zuzendaria. Proiektuak Zientziaren Fundazio Nazionala, Defentsarako Ikerkuntza Aurreratuen Proiektuen Agentzia (DARPA), Teknologia Disruptiboaren Bulegoa (DTO) eta REFLEX-en moduko gobernu-agentzien diru-laguntzak jaso zituen. George Miller eta Christiane Fellbaum-ek 2006 urteko Antonio Zampolli Saria jaso zuten WordNeten egindako lanagatik.
Datu-basearen edukia
2012ko azaroan, WordNeten azken Online-bertsioa 3.1 da.[4] Datu-baseak 155 327 hitz dauzka 175 979 synsetetan antolatuta, eta guztira 207 016 hitz-zentzu bikote ditu; era konprimatuan, gutxi gorabehera 12 megabyte-eko tamainan.[5]
WordNet biltzen dituen kategoria lexikoak izenak, aditzak, adjektiboak eta adberbioak dira, eta preposizioak, determinatzaile eta beste funtzio hitzak baztertu egiten ditu.
Kategoria lexiko berekoak diren eta gutxi gorabeherako sinonimoak diren hitzak synset-etan biltzen dira. Synset hauek hitz arruntez gain kolokazioak bil ditzakete. Hitz polisemiko baten esanahi desberdinak synset desberdinetan banatzen dira. Synset-aren esanahia argiago ikusten da definitzeko gloss labur batekin eta erabilera-adibide bat edo gehiagorekin. Hona hemen adjektiboen synset baten ingelesezko adibidea:
- good, right, ripe – (most suitable or right for a particular purpose; "a good time to plant tomatoes"; "the right time to act"; "the time is ripe for great sociological changes")
Synset guztiak beste synsetekin lotuta daude harreman semantikoen bidez. Harreman horiek ez daude beti kategoria lexiko guztietan banatuta, eta honakoak dira:
- Izenak
- hiperonimoak: Y X-ren hiperonimoa da baldin eta edozein X Y mota bat bada (txakurra hitzaren hiperonimo bat canidae da).
- hiponimoak: Y X-ren hiponimoa da baldin eta edozein Y X mota bat bada (canidae hitzaren hiponimo bat txakurra da).
- termino koordinatuak: Y X-ren termino koordenatu bat da baldin eta X eta Y-k hiperonimo bat partekatzen badute (otso eta txakur elkarrekiko termino koordinatuak dira).
- meronimoak: Y X-ren meronimo bat da baldin eta Y X-ren atal bat bada (eraikin hitzaren meronimo bat leiho da).
- holonimoak: Y X-ren holonimo bat da baldin eta X Y-ren atal bat bada (leiho hitzaren holonimo bat eraikin da).
- Aditzak
- hiperonimoak: Y aditza X aditzaren hiperonimoa da baldin eta X jarduera Y mota bat bada (entzun aditzaren hiperonimo bat hauteman da).
- troponimoak: Y aditza X aditzaren troponimoa da baldin eta Y jarduera X egiten ari bada eraren batean (hitz egin aditzaren troponimo bat zizipazatu (s-ak z gisa esan) da).
- ondorio logikoak: Y aditza X aditzaren ondorio logikoa da baldin eta X egiteko Y egitea beharrezkoa bada (lo egitea zurrunga egitearen ondorio logikoa da).
- termino koordenatuak: Y aditza X aditzaren termino koordenatu bat da baldin eta X eta Y-k hiperonimo bat partekatzen badute (zizipazatu eta oihukatu elkarrekiko termino koordenatuak dira).
Harreman semantiko hauek lotutako synset bakoitzeko elementuen artean mantendu egiten dira. Synset bateko elementu bakunak (hitzak) ere harreman lexikoen bidez lotuta egon daitezke. Adibidez, "zuzendari" hitzaren esanahi bat "zuzendu" aditzaren esanahi batekin lotuta dago, bertatik eratorrita baitago erlazio "morfosemantiko" bitartez.
Datu-basearekin banatutako softwarearen morfologia funtzioak erabiltzaileak sartutako hitz baten lema edo tema deduzitzen saiatzen dira. Forma irregularrak lista batean gordetzen dira, eta ingelesezko "ate" bilatzeak "eat" itzuliko du, adibidez.
Ezagutza-egitura
Izenak eta aditzak hierarkikoki antolatuta daude, hiperonimiaerlazioen arabera. Esaterako, txakur hitzaren esanahi bat jarraian ageri den hiperonimia hierarkian agertzen da, maila bereko hitzak synset berekoak izanik. Sinonimo-talde bakoitzak indize desberdin bat dauka.
dog, domestic dog, Canis familiaris => canine, canid => carnivore => placental, placental mammal, eutherian, eutherian mammal => mammal => vertebrate, craniate => chordate => animal, animate being, beast, brute, creature, fauna => ...
Goiko mailan, hierarkia horiek oinarrizko 25 izenen zuhaitz-etan eta 15 aditzen zuhaitz-etan banatzen dira (mantentze-mailan lexikografia fitxategi deritze). Guztiak entitate deituriko oinarrizko synset batekin lotuta daude. Izen hierarkiak aditzenak baino askoz sakonagoak dira.
Adjektiboak ez dira zuhaitz hierarkikoetan antolatzen. Horren ordez, adibidez, bero eta hotz moduko bi "erdiko" antonimok bi poloak eratzen dituzte. Bestalde, sargori eta fresko bezalako "satelite" sinonimoak dagozkien poloekin "antzekotasun" harreman bidez lotu daitezke. Beraz, adjektiboak "pisu" egitura batean bezala ikus daitezke, "zuhaitz" egituraren ordez.
Alderdi psikolinguistikoak
WordNet proiektuaren hasierako helburua 1960ko hamarkadaren amaieran garatutako giza memoria semantikoaren teoriekin koherentea izango zen datu-base bat eraikitzea zen. Hainbat esperimentu psikologikok hiztunek beraien kontzeptuen ezagutza era ekonomiko eta hierarkikoan antolatzen dutela adierazi zuten. Kontzeptuen ezagutza horretara sarbidea izateko berreskuratze-denbora eta hiztunak ezagutzara iristeko "gurutzatu" behar zituen hierarkia kopurua zuzenki erlazionatuta zeudela zirudien. Horrela, esaterako, hiztun batek azkarrago egiazta zezakeen kanarioek abestu dezaketela, izan ere, kanarioak txori abeslariak dira, baina denbora apur bat gehiago behar zuten kanarioek hegan egin dezakete egiaztatzeko (kasu honetan atzitu beharreko txori kontzeptua goiko mailakoa baita) eta, are denbora gehiago kanarioek azala dute egiaztatzeko (atzipen honek hainbat hiponimia mailatan bilatzea eskatzen baitu, "animalia" kontzeptura iritsi arte).[6] Nahiz eta esperimentu hauek eta oinarrituta dauden teoriak asko kritikatu diren, WordNeten erakundeko batzuk koherenteak dira proba esperimentalekin. Adibidez, afasia anomikoaren ondorioz hiztunek kategoria semantiko jakin bateko hitzak eratzeko gaitasuna galtzen dute, hau da, WordNeteko hierarkia batekoak. Adjektibo antonimoak (WordNeteko pisu egiturako erdiko adjektiboak) kasualitatez baino gehiagotan gertatzen dira, eta hori hizkuntza askotan gertatzen dela ikusi da.
Ontologia lexiko moduan
Askotan WordNet ontologia bat dela esaten da, nahiz eta bere sortzaileak ez duten halakorik aipatzen. Izenen synseten arteko hiperonimia/hiponimia erlazioak kategoria kontzeptualen arteko espezializazio erlazio moduan interpreta daitezke. Beste era batera esanda, WordNet ontologia lexiko moduan interpretatu eta erabili daiteke informatikan. Hala ere, halako ontologia bat zuzendu egin beharko litzateke erabili aurretik, oinarrizko semantikako ehunka inkoherentzia baititu, esaterako, (i) kategoria esklusiboetarako espezializazio komunak eta (ii) espezializazio-hierarkiako erredundantziak. Gainera, WordNet ezagutzaren adierazpenerako erabilgarria den ontologia lexiko bihurtzeko (i) espezializazio-erlazioak subtypeOf eta instanceOf erlazioetan banatu eta (ii) kategoria bakoitzari identifikadore intuitibo bakarrak esleitu beharko lirateke. WordNet 1.7 bertsioa WebKB-2[7] era kooperatiboan eguneratzen den ezagutza oinarrian integratu zenean zuzenketa hauek burutu eta dokumentatu egin ziren arren, ezagutzan oinarritutako aplikazioetarako (batez ere, ezagutzan orientatutako informazio-berreskuratzean) WordNet erabiltzen duten proiektu gehienek, besterik gabe, zuzenean erabiltzen dute.
WordNet zehaztapen formal ere bihurtu da, bottom-up top-down metodologiaren hibrido bat erabiliz, WordNetetik lotura-harremanak automatikoki ateratzeko eta lotura horiek kontzeptu-harreman multzo baten gisa interpretatzeko, DOLCE fundatzaile ontology ontologian formalki definituta dauden moduan.[8]
WordNet ontologia moduan integratuta daukatela aldarrikatzen duten lan gehienetan, WordNeten edukia ez zen beharrezkoa zenean zuzendu. Horren ordez, WordNet era askotan berrinterpretatu eta eguneratu izan da komeni izan den kasuetan. Adibidez, WordNeten goi-mailako ontologia berregituratu egin zen[9] OntoClean metodologian oinarritutako hurbilketan, edo SENSUS ontologiaren behe-klaseak eraikitzeko WordNet erabili zenean.
Mugak
WordNetek ez dauka hitzen etimologia edo ahoskerari buruzko informaziorik, eta erabilerari buruzko informazio mugatua soilik jasotzen du. WordNeten helburua eguneroko ingelesa biltzea da, eta ez du domeinu espezifikoko terminologiarik jasotzen.
WordNet hitzen adiera-desanbiguazioan gehien erabiltzen den ingelesezko lexiko konputazionala da. Zeregin horren xedea testu bateko hitzen testuinguruaren araberako esanahia (hau da, synseteko kideak) esleitzea da.[10] Hala ere, WordNetek zentzu-bereizketak oso era zehatzean kodetzen dituela argudiatu izan da. Arazo honek WSD edo Hitzen adiera-desanbiguazioaren sistemak gizakiek duten errendimendu-mailara iristea eragozten du, izan ere gizakiek desadostasunak izaten dituzte hitz batek testuinguru jakin batean izan dezakeen esanahia hiztegiko esanahi batekin lotu behar dutenean. Zehaztasunaren arazoari aurre egiteko, hitz beraren antzeko esanahi edo zentzuak automatikoki taldekatzen dituzten clustering metodoak erabili dira.[11][12][13]
Lizentziadun Wordnet-ak vs. WordNet Irekiak
Beste hizkuntzetarako ere WordNetak sortu ziren. 2012 inkesta batek WordNetak eta beraien eskuragarritasuna zerrendatzen ditu.[14] WordNeten erabilera sustatzeko ahaleginean, Global WordNet komunitatea bere WordNetak apurka domeinu ireki batera birlizentziatu zituen, bertan errazagoa baitzen ikertzaile eta garatzaileek sarbidea izatea, eta WordNetak hizkuntza naturalaren prozesamenduan ontologia- eta lexiko-ezagutza baliabide gisa erabiltzea.
The Open Multilingual WordNet[15] deiturikoak, Princeton Wordnet of English (PWN) deritzonari lotuta dauden hainbat hizkuntzatako wordnetetara sartzeko aukera eskaintzen du. Horren xedea hainbat hizkuntzatako wordnetak erabiltzea erraztea da.
Aplikazioak
WordNet informazio-sistemetan hainbat helbururekin erabili da, besteak beste, hitzen adiera-desanbiguazioan, informazioa berreskuratzeko, testuen sailkapen automatikoan, testuen laburpen automatikoan, itzulpen automatikoan eta baita hitz gurutzatuen sorkuntza automatikoan ere.
WordNeten erabilera komun bat hitzen arteko antzekotasun-maila zehaztea da. Hainbat algoritmo proposatu dira, horien artean, adibidez, hitzen eta WordNeten grafo egituraren arteko distantzia neurtzekoa, synset arteko ertzak kontatuz burutzen dena. Intuizioaren arabera, bi hitz edo synset zenbat eta gertuago egon dira, beren esanahiak ere antzekoagoak dira. WordNeten oinarritutako hitzen antzekotasunari buruzko hainbat algoritmo WordNet::Similarity[16] deituriko Perl paketean eta NLTK[17] izeneko Python-en paketean inplementatuta daude. WordNeten oinarritutako antzekotasun-teknika sofistikatuagoen artean, besteak beste, ADW[18] aurki daiteke, eta horren aplikazioa eskuragarri dago Java-n. Bestalde, WordNet beste hiztegiak elkarren artean lortzeko ere erabil daiteke.[19]
Interfazeak
Princeton-ek lotura duten proiektuen zerrenda bat mantentzen du[20], hainbat programazio-lengoaia eta ingurunetan asko erabiltzen diren eta eskuragarri dauden APIen estekak biltzen dituena.
Lotutako proiektuak eta hedapenak
WordNet Web Semantikoko hainbat datu-basetara konektatuta dago. Gainera, WordNeteko synset eta ontologietako kategorien arteko mapaketetan ere sarritan berrerabiltzen da. Gehienetan, WordNeten goi-mailako kategoria soilik mapatzen dira.
Global WordNet Elkartea
Global WordNet Elkartea (GWA) [21] erakunde publiko eta ez komertzial bat da, munduko hizkuntza guztien wordnetak eztabaidatu, partekatu eta konektatzeko plataforma bat eskaintzen duena. Horrez gain, hizkuntza arteko wordneten estandarizazioa sustatzen du, giza hizkuntzetako synseten zenbaketaren uniformetasuna bermatzeko. Elkarte honek munduan zehar garatutako wordneten zerrenda gordetzen du.[22]
Erreferentziak
- G. A. Miller, R. Beckwith, C. D. Fellbaum, D. Gross, K. Miller. 1990. WordNet: An online lexical database. Int. J. Lexicograph. 3, 4, pp. 235–244.
- .
- (Ingelesez) «Talk: The Open Multilingual Wordnet (F. Bond., 2018-06-13)» Ixa Group. Language Technology. (Noiz kontsultatua: 2018-06-11).
- .
- .
- Collins A., Quillian M. R. 1972. Experiments on Semantic Memory and Language Comprehension. In Cognition in Learning and Memory. Wiley, New York.
- .
- .
- Oltramari, A.; Gangemi, A.; Guarino, N.; Masolo, C.. (2002). Restructuring WordNet's Top-Level: The OntoClean approach. Las Palmas, Spain, 17–26 or..
- R. Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1–69
- E. Agirre, O. Lopez. 2003. Clustering WordNet Word Senses. In Proc. of the Conference on Recent Advances on Natural Language (RANLP’03), Borovetz, Bulgaria, pp. 121–130.
- R. Navigli. Meaningful Clustering of Senses Helps Boost Word Sense Disambiguation Performance, In Proc. of the 44th Annual Meeting of the Association for Computational Linguistics joint with the 21st International Conference on Computational Linguistics (COLING-ACL 2006), Sydney, Australia, July 17-21st, 2006, pp. 105–112.
- R. Snow, S. Prakash, D. Jurafsky, A. Y. Ng. 2007. Learning to Merge Word Senses, In Proc. of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), Prague, Czech Republic, pp. 1005–1014.
- Francis Bond and Kyonghee Paik 2012a. A survey of wordnets and their licenses. In Proceedings of the 6th Global WordNet Conference (GWC 2012). Matsue. 64–71
- https://web.archive.org/web/20140819084613/http://compling.hss.ntu.edu.sg/omw/
- .
- NLP using Python NLTK/
- M. T. Pilehvar, D. Jurgens and R. Navigli. Align, Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity.. Proc. of the 51st Annual Meeting of the Association for Computational Linguistics (ACL 2013), Sofia, Bulgaria, August 4–9, 2013, pp. 1341-1351.
- Ballatore, A., etal. (). «Linking geographic vocabularies through WordNet» Annals of GIS 20 (2).
- .
- .
- .