Datu zientzia
Datu zientzia edo datuen zientzia jakintza erauzteko metodo zientifikoak, prozesuak eta sistemak uztartzen dituen disziplinarteko alorra da. Datuen errepresentaziotik estrategia berrien sormenerako baliabideak lortzeko erabiltzen da.
Historia
1962an, John W. Turkey-k "Datu zientzia" terminoa aurretik aipatu zuen bere "The Future of Data Analysis" artikuluan, estatistika matematikoaren bilakaera bat azaltzean. Bertan, lehenengoz definitu zuen datuen analisia: "Datuak aztertzeko prozedurak, prozeduren emaitzak interpretatzeko teknikak, datuen azterketa errazagoa, zehatzagoa eta zuzenagoa egiteko berauen bilketaren planifikazio moduak, eta datuen azterketan aplikatzen den makineria eta Matematika-estatistiken emaitzak.". 1997an "Exploratory Data Analysis" argitaratu zuen datuen erabileran enfasi handiagoa jarri behar zela argudiatuz, bertan, eredu estatistikoetan hipotesi berriak probatzeko iradoki zuen.
Datu zientzia, sortu berri den diziplinatzat hartu da orokorrean, baina Peter Naur zientifiko daniarrak kontzeptu hau erabili zuen hirurogeigarren hamarkadan, konputazio zientziaren ordez. Alegia, 1974an "Concise Survey of Computer Methods" liburua argitaratu zuen, non behin eta berriz kontzeptuaren aipamena egiten du. Honek arlo akademikoan libreki erabiltzea eta hedatzea sortarazi zuen.
1996an, lehendabizi datu zientzia terminoa aipatu zen Koben, Japonian, egindako konferentzia batean. International Federation of Classification Societies (IFCS) taldeko partaideen arteko hitzaldia izan zen, "Datu zientzia, sailkapena eta erlazionatutako metodoak" izena zuena.
2002ko apirilean, Committee on Data for Science and Technology-k (CODATA) Data Science Journal-en argitalpena hasi zuen, datu-sistemen deskribapen arazoetara, aplikazioetara eta lege-arazoetara bideratuta. Geroago, 2003ko urtarrilean, Kolonbiako Unibertsitateak The Journal of Data Science argitaratzen hasi zen, hainbat datu zientzialarik ideiak partekatzea eta haien perspektibak plazaratzea eskaintzen zuen plataforma izan zena.
2009an, Research Center for Dataology and Data Science-eko Yangyong Zhu eta Yun Xiong ikertzaileek, “Introduction to Dataology and Data Science” argitaratu zuten. Natur-zientziekin eta gizarte-zientziekin alderatuta, datu zientziak saretik informazioa eskuratzea eta azterketa helburu duela adierazi zuten.
IEEE Task Force on Data Science and Advanced Analytics 2013an sustatu zuten, ostera, bere lehenengo nazioarteko konferentzia 2014an egin zen. 2015ean Springer-ek International Journal on Data Science and Analytics argitara eman zuen datu zientzietako lan originalak argitaratzeko.
Aplikazioak
Marketinan
Netflixek, multimedia edukia ematen duen enpresa estatubatuarrak, algoritmoen bidez erabiltzaileak duen kontsumo ohitura aztertzen duen plataforma eskaintzen die bere 120 milioi erabiltzaileei. Identifikatzeko zein diren bilatzen dituzten edukiak eta interesezkoa izan dezaketena determinatzeko. Metatzen den informazio guztia zehazki aztertua izateko erabiltzen da, erabiltzailearengandik ikasteko eta gomendio zuzenak eman ahal izateko.
Gobernantzan
Eusko Jaurlaritzak konpromisoa hartu du bere esku dauden datu publikoak irekitzeko, eta hauek biltzen eta eskaintzen dituen Open Data Euskadi webgunea publikatu zen 2010ean. Alegia, Jaurlaritzaren eta bere menpeko erakundeen datu-irekien ataria. Administrazio publikoko datuak formatu berrerabilgarrietan irekitzea da sustatu nahi dena, gizarte-balioa sortzea eta herri-administrazioa eraginkorragoa eta gardenagoa lortzeko helburuarekin. Beste herri-administrazio batzuekin lankidetzan dagoen plataforma ere bada, esaterako, Espainiako Gobernuaren eta Europar Batasunaren datu-katalogoetan ere publikatzen ditu bere datu-multzoak. Herritarren parte-hartzea metodo aberasgarritzat hartzen dute, datu-irekien eta informazio publikoaren berrerabilpenaren inguruko zenbait lehiaketa, ekitaldi eta ikastaro antolatuz.[1]
Osasunean
Osasun arloan datu-iturburu heterogeneo anitzek gaixoekin, gaixotasunekin eta osasun-zentroekin erlazionatutako informazio kantitate handiak deskribatzen dituzte. Analisi sakon eta egoki baten ondorioz, garrantzizko erabilgarritasuna izan dezakeena sanitarioentzat. Historia-klinikoek eta medikuntza-dispositiboek, osasun-datuak eskaintzen dituzte aurrerago erabakiak hartzera eramaten dutenak eta datu horien ikerketa egoki baten euskarriak gaixoei osasun-zerbitzu hobekiago bat bermatzen du. Informazio-analisi teknika berriek baliabide sanitarioak modu eraginkorragoan erabiltzea baimendu dute, baita sintometatik abiatuta gaixotasunak aurresatea edo gaixoari txostena automatikoki egitea ere.
Finantzan
Norbanakoen premiak eta merkatuaren egungo egoera zein den aztertu dezake datuen zientziak. Sektore zehatz batean lehian dauden enpresa ugari daude eta ezinbestekoa dute jakitea zer den momentu oro bezero potentzialek nahi dutena. Internet bidezko bilaketek edo egindako galdeketek bezeroari buruzko informazioa eskuratzea egiten dute, zer eta zein neurritan produktua behar duten enpresei jakiten ahalbidetzen dute, datu hauen prozesaketa batek merkatuan hazkunde ekonomikoak sorraraziz.
Datu zientzialaria
Datu zientzian jarduten den jakitunari datu zientzialaria deritzo. Master in Data Science masterraren arabera, estatistikoen, informatikarien eta sormenerako pentsatzailearen nahasketa da, hurrengo trebetasunekin:
- Hainbat datu-basetatik baliozko informazioa erauzteko, biltzeko eta prozesatzekoa.
- Bere ondorioak eta emaitzak datu zientzialariak ez direnei komunikatzeko, bistaratzeko eta ulertarazteko gaitasuna.
- Datuetan oinarritutako soluzioak sortzeko, kostuak murrizteko eta mozkinak handiagotzeko gaitasuna.
- Maila guztietako eta industria guztietako datuetan oinarritutako proiektuei aurre egiteko ahalmena.
Proposatzen zaizkion auziei erantzuna emateko gai izan behar da. Horretarako, datu zientzialari batek jarraitzen duen prozesua hurrengo urratsetan labur daiteke:
- Datuak erauzi, edozein bolumenetakoak, haien iturria edozein dela ere.
- Datuak iragazi, emaitzetan oztopa dezaketenak ezabatu.
- Datuak prozesatu metodo estatistikoak erabiliz. Esaterako, erregresio ereduak, hipotesi-probak, inferentzia-estatistikoa, etab.
- Behar izatekotan saiakuntza gehigarriak diseinatu
- Ikerketan esanguratsuak diren datuen bistaratze grafikoak sortu.
Estatistikan doktorea den Nathan Yau-k zehaztu zuen: datu zientzialaria APIak, datu-baseak, eta datuen erauzketak egiten ikasi behar duen estatistikoa da. Programatzen ikasi beharko duen diseinatzailea, eta adierazgarriak diren datuen lorpena eta analisia egiten jakin behar duen konputologoa da.
Erlazionatutako alorrak
Big Data
Datu zientziaren eta Big Dataren arteko desberdintasunak adieraziko dira hurrengo taulan[2].
Datu zientzia | Big Data |
---|---|
Erabilpen zientifikora
bideratutako datuak |
Datu-bolumen handiak |
Teknikak biltzen dituen
alor espezializatua |
Datu-iturri desberdinek
sortutako zenbait datu-mota |
Big Data erabili negozio
erabakietarako |
Abiaduragatik, bolumenagatik
aniztasunagatik bereiztua |
Erabakiak hartzeko euskarria | Negozio-prozesuak optimizatzeko |
Datu meatzaritza
Datu zientziaren eta datu meatzaritzaren arteko desberdintasunak adieraziko dira hurrengo taulan[3].
Datu zientzia | Datu meatzaritza |
---|---|
Arloa | Teknika |
Ikasketa zientifikoa | Negozio prozesua |
Diziplina anitzekoa | Azpimultzoa |
Eredu anitzeko datuak | Datu egituratutak |
Analisi soziala eta
aurresateko modeloen kreazioak |
Joeren bilaketa |
Erreferentziak
- Vasco, Eusko Jaurlaritza-Gobierno. «Open Data Euskadi, Eusko Jaurlaritzaren datu irekiak - Euskadi.eus» opendata.euskadi.eus (Noiz kontsultatua: 2019-11-21).
- (Ingelesez) «Big Data vs Data Science - How Are They Different ?» EDUCBA 2018-02-17 (Noiz kontsultatua: 2019-11-21).
- (Ingelesez) «9 Awesome Difference Between Data Science Vs Data Mining» EDUCBA 2018-03-04 (Noiz kontsultatua: 2019-11-21).