Osagai nagusien analisi
Aldagai anitzeko estatistikan, osagai nagusien analisia (ONA) edo Principal Components Analysis (PCA) elkarrekiko independenteak eta ergodikoak den aldagai multzo edo osagai multzo batetik bariantzarik gabeko aldagai kopuru bat osatzea da,, hasierako osagaien korrelazioa agerian uzteko helburuarekin. Horretarako korrelazio matrizea hartu eta bariantza minimotzen da, puntuek osagaietan dituzten puntuazioak atera asmoz eta horrela egitura hobeto ikusteko.
Zehatzago: , minimotu behar da, non o osagaiak diren.
Osagai bakoitza aldagai guztien konbinazio lineal bat izango da eta batez ere elkarrekiko bariantza nabarmena duten aldagaiekin izango da loturik. Zenbaitetan Konposatu Nagusien Analisia (KNA) izenez ezagutzen da.
Jatorria
Datuen analisirako teknika hau Hotelling-i (1933) zor zaio, nahiz eta lehen aurrekariak Karl Pearson-en doitze ortogonaletan (1901) aurkitzen diren. Aplikazio arloaren arabera beste izen batzuekin ere ezagutzen da, esaterako: Karhunen-Loève transformatua (KLT) edo Hotelling transformatua.
Adibideak
Erabilera bikoitza du; lehenik agerian ez dauden aldagaiak aurkitzen laguntzen du, eta gainera normalean koerlazionatuta dauden aldagaiak aldagai independente berrietan bihurtzen ditu. Orohar, psikologian, ekonomian, irudien prozesamenduan eta ingeniaritzan erabili izan da, datu kopuru handiak lantzerako orduan.
Adibidez, izarrei buruzko aldagaia asko jasotzen badira (distira, masa, ...), osagai nagusien analisiak izarren tipologia bat osatzen lagunduko du, elkar loturik dauden aldagaiak bariantzaren bitartez lotuz. Osagaiak agertzen duten bariantza totalaren zatiari buruz ordenatuko dira: lehenbizi bariantza totalaren zati handiena azaltzen duen osagaia erauziko da, ondoren geratzen den bariantzatik zati handiena azaltzen duena, ... Horrela, osagai nagusien analisia aldagai multzo batean seinalea (osagaia eta azaltzen duen bariantza) eta zarata (azaldu gabeko bariantza) bereizteko ere erabiltzen da.
Azalpena
Transformazio ortogonal baten bidez, Osagai Nagusiak deituriko aldagai berriak kalkulatzen dira, zeinak aldagai orijinalen konbinazio linealak diren, bariantzari gabeko osagaien bitartez. Lehen osagai nagusia datuen bariantza osoa azaldu behar du, eta bigarrenak bariantza handiagoa izan behar du, lehenak bariantza txikiena zuenez, 0 hain zuzen, eta gainera ahalik eta bariantza gehien azaldu. Aldagai berri hauen balioari faktore deritzo, eta geometrikoki behaketa orijinalen Osagai Nagusien gaineko proiekzio bezala uler daiteke.
Faktore hauek aldagaien korrelazioz kalkulatzen dira eta faktore bakoitzak aldagai batekin duen korrelazioak biek amankomunean duten informazioa azaltzen du, korrelazio honi, pisua deitzen zaio. Hala ere, osagai nagusiak beraien artean independenteak izateko datu orijinalek aldagai anitzeko distribuzio normala jarraitu behar dute.
ONA burutzeko prozedura matematiko eta estatistiko konplexua jarraitzen da, zeinetan zehar eigenbektore eta eigenbalio deituriko kontzeptuak erabiltzen diren.
Emaitzak
ONA-ren emaitzak irudi moduan ematen dira. Bi irudikapen ezberdin bila daitezke, lehena, indibiduoak irudikatzeko eta bigarrena aldagaiak irudikatzeko. Indibiduoak irudikatzeko, behapenen proiekzioak konposatu nagusien gainean lortzen dira, eta indibiduo bakoitza konposatu nagusi horiekiko non dagoen ikus daiteke.
Bigarren irudikapenean, aldagaiak osagaiek sortutako espazioan irudikatzen dira pisuak bere koordinatu bezala erabiliz. Aldagaiak, beraz, bere korrelazio koefizienteen bidez irudikatuko dira, eta hauen edo pisuen karratuen baturak unitatea balio du beti aldagai bakoitzarentzat.
Bi osagai nagusiek era perfektuan irudikatzen dutenean informazio guztia, puntuek zirkunferentzia bat osatuko dute, zirkunferentzia bat koordenatuen karratuen baturak konstantea ematen duen irudi geometrikoa da eta. Bi konposatu nagusiek informazio guztia perfektuki azaltzen ez dutenean puntuak korrelazio biribilaren barruan egongo dira.
ONA-ren irudikatzearen garrantzia irudi horien interpretazioaren erraztasunean datza, korrelazio biribilaren logikari jarraituz erraz ulertzen baita aldagai bakoitzaren garrantzia zenbatekoa den. Horrela, aldagai bat korrelazio biribiletik hurbil badago bi konposatu nagusientzat garrantzia izango du, eta, aldiz, zentrutik hurbil badago aldagaiak garrantzi txikiagoa izango du.
Kanpo estekak
- (Ingelesez) University of Copenhagen video by Rasmus Bro YouTuben
- (Ingelesez) Stanford University video by Andrew Ng YouTuben
- (Ingelesez) A Tutorial on Principal Component Analysis
- (Ingelesez) A layman's introduction to principal component analysis YouTuben (a video of less than 100 seconds.)
- (Ingelesez) StatQuest: Principal Component Analysis (PCA) clearly explained YouTuben
Artikulu hau zirriborroa da. Wikipedia lagun dezakezu edukia osatuz. |