Sturges erregela
Estatistikan, Sturges erregela, datu-multzo bati dagokion histograma bat eratzeko behar den tarte kopurua kalkulatzen duen erregela bat da, Herbert Sturgesek 1926 urtean proposatutakoa. Erregelak n datu kopuruaren arabera kalkulatzen du tarte kopurua:
Erregelak datu-multzoa banaketa normal bati jarraiki banatzen dela hartzen du hipotesi moduan. Oinarri estatistiko sendorik ez badu ere, maiz erabiltzen da praktikan.
Formularen dedukzioa
Sturgesen arabera histograma ideala i=0, 1, ..., (k-1) balioetan zentraturiko tarteak dituena da, balioko maiztasunekin. Adibidez, k=5 tarteetarako, maiztasun idealak 1-5-10-5-1 lirateke. [1]Beraz, datu kopuru totala honela adieraz daiteke:
Koefiziente binomialen propietateak erabiliz,[2]
Eta hortik, k tarte kopurua honela kalkulatu behar da:
Formularen hipotesiak
maiztasunak B(k-1,0.5) banaketa binomial bateko probabilitateak kalkulatzeko koefiziente binomialak dira. Banakuntza binomial honetan, probabilitateak honela kalkulatzen dira:
- .
handitzean, aurreko probabilitateak (eta beraz, enpirikoki dagozkion maiztasunak) mendean soilik geratzen dira, koefizientea ez baitago i-ren mendean.
Beste alde batetik, banaketa binomial hori, k handietarako banaketa normal baten bitartez hurbildu daiteke.
Beraz, Sturgesek histogramako tarteetako erdipuntuak banaketa binomial bati jarraiki banatzen direla irizten du. Tarte kopuru handietarako, banaketa normala litzateke datuen eredua.[3]
Erabilera
Sturges erregela eratzean onarttuako hipotesiak oso murritzak direnez, formulak oinarri estatistiko eskasa duela esan daiteke. Hala ere, maiz erabiltzen da praktikan, bereziki datu-kopuru txikietarako (n<200) formula zorrotzagoen antzeko emaitzak ematen dituelako, datu-kopurua soilik hartuta eta datuetan oinarrituta beste kalkulurik egin beharrik gabe. Datu kopuru handiagoetarako erregelak beste formulek baino tarte kopuru txikiagoa ematen du, bereziki alborapen handiko eta moda anitzeko datu-multzoetan, histograma leunduz horrela.
Formula aplikatzean, tarte kopurua zenbaki ez-osoak ematen ditu oro har. Gehienetan, gehiegiz biribildu eta hurrengo balioa hartzen da aplikatu beharreko tarte kopuru moduan.
Ondoren, datu-kopuru batzuetarako ematen dituen tarte kopuruak azaltzen dira:
n (datu kopurua) k (tarte kopurua) 20-32 6 33-64 7 64-128 8 128-200 9
Kanpo estekak
- (Ingelesez) Sturges, Herbert A.. (1926). «The Choice of a Class Interval» Journal of the American Statistical Association.
- (Ingelesez) Binomial Sums, mathworld.wolfram.com, 2012-11-07an kontsultatua.
- (Ingelesez) Scott, David W.. (1992). Multivariate Density Estimation. , 47-48 or..