OpenTrad

OpenTrad itzulpen automatikoa eskaintzen duen kode irekiko sistema da. Espainiar estatuko lau hizkuntza kontuan hartuta diseinatu zen: euskara, galiziera, gaztelania eta katalana. Gaur egun, 20 hizkuntza bikote baino gehiagoren arteko itzulpenak egin ditzake, eta asturiera ere sartu dute. Euskarari dagokionez, gaztelaniatik itzultzeko baino ezin da itzuli. Helburutzat dute itzulpen aukerak ahalik eta gehien zabaltzea.[1]

Sorrera

Opentrad itzultzaile automatikoa 2006ko maiatzean aurkeztu zen, Kataluniako Unibertsitate Politeknikoan. Hurrengo hizkuntzen artean itzulpenak egiteko balio du: asturiera,gaztelania, galiziera, katalana, valentziera eta euskara. Itzulpen automatiko hau Source Forge-ren bidez sailkatzen da, azken programazioaren gune garrantzitsuena baita.

Sortzaileak

2004an hasi zen OpenTrad deituriko itzulpen automatikoko programak zazpi partaide ditu, hauen arteko elkarlanaren ondorio izan zen:

Zergatiak

Euskara, hizkuntza guztiak bezala, indarra hartzen ari da Interneten. Horren ondorioz, itzulpen automatikoko programa edota gune bat nahiko ondo dator. Modu honetan, euskal orrialdeak itzultzeko aukera izango dute Interneteko erabiltzaile guztiak.

Finantzaketa

Industria, Merkataritza eta Turismo-ko Ministerioa, I+G+B Plan Nazionala eta Ikerketa Teknikoak Sustatzeko Programa-k baliabide ekonomikoak eskeini dituzte proiektu hau aurrera atera ahal izateko.

Azken urte honetan Eusko Jaurlaritzak ere diru-laguntzak eskaini dizkio proiektu honi. Dena den, programa honen erabilera guztiz doakoa da Interneteko erabiltzaileentzat. Hau gutxi izango balitz, murrizketarik gabe sartzeko aukera dago orrialdean.

Helburua

Software librea sortu izan nahi dute; abiadura handiko eta kode irekiko itzulpen automatikoko bi gailu edo motor garatzea da OpenTrad proiektuaren helburua. Horietako bat hizkuntza ahaideko bikoteentzat da, transferentzia sintaktiko partziala egiteko; bestea berriz, transferentzia sintaktiko osokoa, elkarrengandik urrutiago dauden hizkuntz bikoteentzat. Proiektu honetako partaide den erakunde batek garatutako motorrak izango dituzte oinarri gailu horiek. Proiektu honen amaieran, gehigarri tekniko batek zehatzago deskribatzen du itzulpen automatikoko sistema horien diseinua.

Zientzia.net-ek Opentraden helburuei buruzko Iñaki Aranzabalek esandako hitz batzuk: "batetik, galegoa-gaztelania eta katalana-gaztelania bikoteentzat itzultzaile automatiko ona, azkarra eta kode irekikoa lortu nahi genuen, eta, bestetik, gaztelaniatik euskarara itzultzeko prototipoa. Kontuan izan behar da hizkuntza guztien abiapuntua ez zela berdina: gaztelania-katalana bikotea nahiko aurreratua zegoen, eta, beste muturrean, gaztelaniatik euskarara automatikoki itzultzeko, ia dena egiteko zegoen" .

Hona hemen hizkuntza-bikoteak:

  • Gaztelania <--> Katalana/Valentziera
  • Gaztelania <--> Galegoa
  • Gaztelania --> Euskara


Proiektuaren azken helburua da goian aipatutako hizkuntza-bikoteen arteko itzulpenak egiteko gai den sistema-prototipoa sortzea, eta partzuergoko partaide diren enpresek sistema hedatzea eta merkaturatzea da, itzulpen automatikoaren erabilera hainbat arlotan hedatuz.

Berrikuntza teknologikoak

Opendradek hainbat berrikuntza garrantzitsu ekarri ditu:

  1. Gaztelania-euskara itzulpen automatikorako sistema sortu du eta momentuz euskara-gaztelania itzultzen duen itzultzaile automatiko bakarra da.
  2. Estatu espainiarreko hizkuntzen artean, itzulpen automatikorako kodea eta datu linguistikoen irekiera eta estandarizazio bat eragin du. Horrek, eduki eleanitzeko sorkuntza-prozesuetan eragiten duen elkarrekintza, modularitatea eta integratzeko gaitasuna ahalbidetzen du.
  3. Talde unibertsitarioetan erabiltzen diren teknologiei esker, itzulpen-abiadura handia du (adibidez, egoera finituko teknikak).

Erabilerak

Euskarazko itzulpenak jarduera komertzialerako erabili izan ohi dira eta horrek murrizketa batzuk eragin ditu, gaizki erabil ez dadin:

  • 50 lerro baino ezin dira itzuli
  • Ezin da dokumenturik itzuli

Hala ere, web guneetako edozein testu itzul daiteke. Dagoeneko bi egunkarik erabiltzen dute: "El Correo Gallego", normalean gaztelaniaz editatzen dena eta orain galegozko bertsioa duena eta "La voz de Galicia", egun bere bertsio elektronikoa galegoz egiten duena.

Funtzionamendua

Opentradek hamar urrats egiten ditu, Vigoko Unibertsitatean aurkeztutako txostenaren arabera:[2]

  1. Desformateatzea, hemen testua HTML hizkuntzatik banatzen dira.
  2. Analisi morfosintaktikoa
  3. Hitz homografoen anbiguotasunak kentzea
  4. Analisi sintaktikoa
  5. Egitura transferentziak, gaztelania, euskara, katalan eta galegorako.
  6. Transferentzia lexikoak: hitzen itzulpena.
  7. Sorkuntza sintaktikoa, soilik gaztelania-euskera bikoterako.
  8. Sorkuntza morfologikoa
  9. Sorkuntza ondokoa: ortografiari lotutako aldaketak, hala nola apostrofoak, laburdurak...
  10. Berriz formateatzea: testua berriro HTML hizkuntzan ipintzea.

Itzulpenerako behar diren tresnak nahiz erabiltzen diren kodeak SourceForgeren bidez eskura daitezke. Itzulpenak ez dira adibideetan oinarritzen; hala ere, etorkizunean teknika hori erabiltzeko asmoa dute. Oraingoz, bi teknologia ditu oinarri: Apertium,[3] antzekotasunak dituzten hizkuntzen artean itzulpenak egiteko; eta Matxin, egitura ezberdinak dituzten hizkuntzen artean erabiltzekoa.

Erabilitako teknologia automatetan oinarritua dagoenez, itzulpenak nabigazioa bezain arin egin daitezke. Horrela, nahi ditugun orrien itzulpena lor dezakegu, denbora askorik galdu gabe.

Azkenik, aipatu beharrekoa da gehienez 16.384 karaktere sar daitezkeela, itzultzeko.

Gazi-gezak

IXA taldeak Azpeitiko Euskara Patronatuaren webgunean argitaratutako artikuluaren arabera,[4] 2006an hauek ziren akats-tasak:

  • Gaztelania-katalana eta gaztelania-galegoa itzulpenetan, %4 baino ez dira aurkitutako akatsak.
  • Gaztelania-euskera itzulpenetan, akatsen ehuneko gordina %32,90 izan da. Hala ere, euskararen berezitasunak kontuan hartuta, ehuneko hori konparagarri izan dadin normalizatu egin behar da; beraz, tasa garbia %24,80 da.

Horri buruzko ohar txiki bat egin behar da: itzulpen sistemen akats tasak % 10etik beherakoa izan behar du produkzio sisteman sartu ahal izateko. Horrenbestez, gaztelania-euska sistema prototipotzat dago definituta.

Akatsen iturburua bi multzotan sailkatzen ahal da:

  • Gaztelania-galegoa eta gaztelania-katalana sistemetan, hiztegietan ageri ez diren hitzek ematen dituzte arazo nagusiak.
  • Gaztelania-euskera sisteman, sintaxiak eta deklinabideek ematen dituzte buruhauste gehienak.

Nahiz eta itzulpenen egokitasuna hobetu daiteken, nahiko arin jasotzen dira emaitzak. Alde horretatik sortzaileak pozik daude, Iñaki Aranzabalen hitzetan.

Abantaila aipagarrien artean, hauek daude:

  • Noranzko biko itzulpenak eskaintzen dituzte.
  • Integrazio osoa ahalbidetzen du.
  • Hornitzaileari independentzia ematen dio.
  • Erabiltzaileen komunitatea garatzea sustatzen du.

Parte-hartzaileak

Erreferentziak

  1. (Gaztelaniaz) Loinaz, Iñaki Alegría; Arantzabal, Iñaki; Forcada, Mikel L.; Guinovart, Xavier Gómez; Padró, Lluis; PichelCampos, José Ramom; Waliño, Josu. (2006). «OpenTrad: Traducción automática de código abierto para las lenguas del Estado español» Procesamiento del Lenguaje Natural 37 (0) ISSN 1989-7553. (Noiz kontsultatua: 2018-02-21).
  2. Iñaki Alegría Loinaz, Iñaki Arantzabal, Mikel L. Forcada eta beste: OpenTrad: Traducción automática de código abierto para las lenguas del Estado español.
  3. Apertium softwarearen webgunea.
  4. IXA taldea: «OpenTrad: itzulpen automatiko librea», Erabili.com webgunea (2006-09-14).

Ikus, gainera

Kanpo estekak

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.