Kuantil
Estatistikan, kuantilak banaketa edo datu-multzo batean datu-kopuru bereko datu-azpimultzoak mugatzen dituzten balioak dira[1]. Adibidez, azterketa bat burutu duten ikasleen kalifikazioak jasotzen direnean, 4-koantilek banaketa osatzen duten kalifikazioak lau datu-azpimultzoetan zatitzen dute eta bakoitzean ikasleen %25 kokatzen da; 4-kuantil hiru daude, kuartil izenekoak, eta horrela, adibidez, hirugarren kuartilaren azpitik ikasleen %75ak daude.
Probabilitate banaketa baterako ere definitzen dira kuantilak. Notazio arrunt bati jarraiki, Q(p) koantila bere azpitik p probabilitatea uzten duen zorizko aldagaiaren balioa da. Era horretan, Q(0.75) 75garren pertzentila da, adibidez. Datuetarako, beraz, lagin-koantilak, Q(p) populazio-kuantilen zenbatespen moduan, izendatzen dira eta ordena-estatistikoetan oinarrituta kalkulatzen dira.
Kuantilek banaketa bateko kokagune jakingarriak zehazteaz gainera (ikasleen %80ak zein kalifikaziotik behera kokatzen diren, adibidez), hainbat estatistiko jasankor kalkulatzeko erabiltzen dira, hala nola zentro joerako neurrietan (moztutako batezbestekoak, kasu) eta sakabanatze-neurrietan (kuartil arteko ibiltartea eta dezil arteko ibiltartea, kasu).
Kuantil jakingarriak
Badira izen berezia jasotzen duten k-kuantil jakingarriak:
- 4-kuantilak 3 dira eta kuartil deritze: Q1, Q2, Q3 (lehenengo kuartila, bigarren kuartila, hirugarren kuartila);
- 10-kuantilak 9 dira eta dezil deritze: D1, ...., D9;
- 100-kuantilak 99 dira eta pertzentil edo zentil deritze: P1, ...., P99.
Era berean kintilek eta oktilek maiztasun bereko 5 eta 8 azpimultzoetan, hurrenez hurren, zatitzen dute banaketa.
Kuantil ezberdinen artean baliokidetasunak daude; adibidez, lehenengo koartila bat dator 25garren pertzentilarekin.
Mediana 2-kuantila da, bere azpitik datuen %50ak utzi eta horrela banaketa bi zatitan egiten duelako [2]
Kuantilen kalkulua
datuetarako, oro har, interpolazio lineala darabilen formula honi jarraiki kalkulatzen dira kuantilak[3]:
- izanik.
Adibidez, toki batean otsaileko 3 egunetako tenperatura minimoak jasota, balioa aukeratuz:
- izanik.
Horrela, lagin horretan oinarriturik, egun guztietatik %60etan tenperatura minimoa otsailean 4.4 edo txikiagoa dela zenbatesten da.
Estatistika-paketeetan koantilak kalkulatzeko bestelako aukerak ere eskaintzen dira, balio ezberdinetarako. Ondoren, R estatistika paketeetan eskaintzen diren aukerak zehazten dira:
R aukera | m | Oharrak |
---|---|---|
R-4 | m=0 | p<1/n kasuan, Q(p)=x1 hartzen da. p=1 kasuan, Q(p)=xn hartzen da. Ez du ordea mediana ematen p=1/2 denean. |
R-5 | m=1/2 | p<1/2n kasuan, Q(p)=x1 hartzen da. p ≥ (N - 1/2) / N kasuan, Q(p)=xn hartzen da. |
R-6 | m=p | p < 1 / (N+1) kasuan, Q(p)=x1 hartzen da. p ≥ N / (N + 1) kasuan Q(p)=xn hartzen da. |
R-7 | m=1-p | p=1 kasuan Q(p)=xn hartzen da. |
R-8 | m=(p+1)/3 | p < (2/3) / (N + 1/3) kasuan, Q(p)=x1 hartzen da. p ≥ (N - 1/3) / (N + 1/3) kasuan Q(p)=xn hartzen da. |
R-9 | m=p/4+3/8 | p < (5/8) / (N + 1/4) kasuan, Q(p)=x1 hartzen da. p ≥ (N - 3/8) / (N + 1/4) kasuan Q(p)=xn hartzen da. Horrela, populazioa normala denean, zenbatespenak ia alboragabeak dira. |
m=2p-1/2 | p < (3/2) / (N + 2) kasuan, Q(p)=x1 hartzen da. p ≥ (N + 1/2) / (N + 2) kasuan Q(p)=xn hartzen da. |
Arestiko metodoarekin bat ez datozen formulak ere erabiltzen dira:
- np baliotik gertuen dagoen zenbaki osoari dagokion datua kalkulatzen da; adibidez, 30. pertzentila kalkulatu behar bada 6 datuetan, 6×0.3=1.8 emaitza lortzen da eta beraz, gertuen dagoen zenbaki osoa 2 izanik, 30. pertzentila 2. datua izango da, datuak txikienetik handienera ordenaturik betiere; R paketeko 3. aukera da kantilak kalkulatzeko;
- balioari dagokion datua kalkulatzen da. Adibidez, 20. pertzentila kalkulatu behar bada 6 datuetan, 6×0.2=1.2 emaitza lortzen da eta beraz, sabai-funtzioa erabiliz, 30. pertzentila 2. datua izango da; R paketeko 1. aukera da koantilak kalkulatzeko;
- eta balioei dagozkien datuen batez bestekoa kalkulatzen da. Adibidez, 20. pertzentila kalkulatu behar bada 6 datuetan, 6×0.2=1.2 emaitza lortzen da eta beraz, 30. pertzentila 1. eta 2. datuen batez besteko aritmetiko sinplea da; R paketeko 2. aukera da.
Kalkulua tartetan bilduriko datuetarako
Datuak tartetan bildurik daudenean, ez da ezagutzen datu bakoitzaren balio zehatza eta beraz, kuantilak zenbatesteko tarte barneko hurbilketa bat egin behar da interpolazio linealez. Adibidez, herri bateko biztanleen adinari buruzko datuak bilduta, balioa kalkulatu behar bada:
Biztanleen adinak Biztanleak Maiztasun metatuak 0-20 9 9 20-40 18 27 40-60 26 53 60-80 7 60 80-100 4 64
Lehenengo pausoa np kalkulatzea da. Kasu honetan: np=64×0.3=19.2. Beraz, 30. pertzentila 19.2garren datua litzateke, 20-40 tartean kokatzen dena, maiztasun metatuetan egiazta daitekeenez. 19.2garren datuaren balio hurbildua hiruko erregela sinple batez kalkulatzen da:
Horrela, biztanleen %30ak 31.33 urtetik beherakoa dela zenbatesten da. Emaitza hau hurbilketa bat dela nabarmendu behar da. Emaitza zehatza izateko jatorrizko datuetara jo behar da.
Ariketak
- Pertzentilak zer diren ulertzeko bideoa.
- Mediana eta kuartilak kalkulatzeko ariketa.
Historia
Kuantilen kontzeptua 1879. urtean sortu bazen ere, kuartilak lehenengo aldiz erabili zirenean, 1940. urtean agertu zen terminoa lehen aldiz Maurice Kendall estatistikariaren eskutik, berak idatziriko "Note on the Distribution of Quantiles for Large Samples" artikuluan.
Erreferentziak
- Aldagai kuantitatibo eta ordinaletarako kalkula daitezke koantilak.
- Gainera, mediana bat dator bigarren koartilarekin, bosgarren dezilarekin eta berrogeita hamargarren pertzentilarekin: Me=Q2=D5=P50.
- funtzioa zoru-funtzioa da. Adibidez, .