Kruskal-Wallis-Test
Der Kruskal-Wallis-Test (nach William Kruskal und Wilson Allen Wallis; auch H-Test) ist ein parameterfreier statistischer Test, mit dem im Rahmen einer Varianzanalyse getestet wird, ob unabhängige Stichproben (Gruppen oder Messreihen) hinsichtlich einer ordinalskalierten Variable einer gemeinsamen Population entstammen.[1] Er ähnelt einem Mann-Whitney-U-Test und basiert wie dieser auf Rangplatzsummen, mit dem Unterschied, dass er für den Vergleich von mehr als zwei Gruppen angewendet werden kann. Im Falle abhängiger Stichproben kann stattdessen der Friedman-Test verwendet werden.
Die Nullhypothese lautet: Zwischen den Gruppen besteht kein Unterschied. Als Prüfgröße des Kruskal-Wallis-Tests wird ein sogenannter H-Wert berechnet. Der H-Wert wird wie folgt gebildet:[2] Der Rang für jede der Beobachtungen in der Vereinigung der Stichproben wird bestimmt. Daraus werden dann die Rangsummen für die einzelnen Gruppen und daraus die Teststatistik
bzw. beim Vorliegen von Bindungen:
(mit die Zahl der gebundenen Beobachtungen mit Rang ) errechnet. Die Prüfgröße ist bei Gültigkeit der Nullhypothese asymptotisch, d. h. für großen Stichprobenumfang in allen Gruppen, Chi-Quadrat-verteilt. Die Anzahl der Freiheitsgrade (Df) berechnet sich nach Df=k-1, wobei k die Anzahl der Klassen (Gruppen) ist. Die berechnete Prüfgröße H wird mit einer theoretischen Größe aus der Chi-Quadrat-Verteilung für eine a priori gewählte Irrtumswahrscheinlichkeit verglichen. Ist der errechnete H-Wert größer als der H-Wert aus der Chi-Quadrat-Tabelle, wird die Nullhypothese verworfen, es besteht also ein signifikanter Unterschied zwischen den Gruppen.
Ist und , so ist die Teststatistik nicht -verteilt und es muss auf tabellierte kritische Werte zurückgegriffen werden.
Ein ähnlicher Test wie der Kruskal-Wallis-Test ist der Jonckheere-Terpstra-Test oder dessen Verallgemeinerung, der Umbrella-Test nach Mack und Wolfe.[3] Eine Erweiterung des Kruskal-Wallis-Tests auf den Anwendungsbereich der mehrfaktoriellen Varianzanalyse ist der Scheirer-Ray-Hare-Test.[4]
Da der H-Test lediglich eine Aussage zur Unterschiedlichkeit aller betrachteten Stichproben macht, ist es sinnvoll, einen Post-hoc-Test durchzuführen, der die einzelnen Stichproben paarweise vergleicht. Hier bietet sich zum Beispiel die Bonferroni-Methode an.[5]
Einzelnachweise
- W. H. Kruskal, W. A. Wallis: Use of ranks in one-criterion variance analysis. In: Journal of the American Statistical Association. Band 47, Nr. 160, 1952, S. 583–621, doi:10.1080/01621459.1952.10483441, JSTOR:2280779.
- Douglas C. Montgomery: Design and Analysis of Experiments. John Wiley & Sons, Danvers 2005, ISBN 0-471-48735-X, S. 110–111.
- H. B. Mack, D. A. Wolfe: K-sample rank tests for umbrella alternatives. In: Journal of the American Statistical Association. Band 76, Nr. 373, 1981, S. 175–181, doi:10.1080/01621459.1981.10477625, JSTOR:2287064
- James Scheirer, William S. Ray, Nathan Hare: The Analysis of Ranked Data Derived from Completely Randomized Factorial Designs. In: Biometrics. 32(2), 1976, S. 429–434, JSTOR:2529511
- H. Abdi: Encyclopedia of Measurement and Statistics. Hrsg.: N. J. Salkind. Sage, Thousand Oaks CA 2007, Bonferroni and Sidak corrections for multiple comparisons (utdallas.edu [PDF]).