Randomisiertes Experiment
Ein randomisiertes Experiment ist ein Experiment, in dem unterschiedliche, in ihren Effekten zu evaluierende Behandlungen per Zufall Beobachtungseinheiten zugeteilt werden. Durch die zufällige Zuteilung sollen sich die Beobachtungseinheiten im Durchschnitt (mit Ausnahme der Behandlungen) nicht unterscheiden. Das Gegenteil ist das Quasi-Experiment.[1]
Ronald Fishers randomisiertes Experiment
Ronald Fisher gilt als der Erfinder des randomisierten Experiments. In The Design of Experiments (1935) beschrieb er sein Konzept anhand eines heute bekannten Beispiels. In diesem Fall soll überprüft werden, ob eine Frau anhand eines Geschmackstests einer Tasse Tee mit Milch unterscheiden kann, ob der Tasse zuerst die Milch oder der Tee hinzugefügt wurde. Zu Fishers Zeit bestand die vorherrschende Herangehensweise an derartige Fragen darin, Kovariaten, die das Ergebnis beeinflussen könnten, konstant zu halten. In diesem Fall würde dies bedeuten, beispielsweise die Temperatur und Stärke des Tees, die Menge des hinzugefügten Zuckers oder der Milch, oder die Art der Tasse bei beiden Behandlungen (Tee zuerst, Milch zuerst) exakt anzugleichen. Fisher lehnte diese Herangehensweise aus zwei Gründen ab. Erstens sei es unmöglich. Zweitens sei es, selbst wenn es annähernd möglich wäre, zu teuer.[1]
Anstelle des vorherrschenden Diktums, alle Faktoren konstant zu halten, schlug Fisher vor, nichts konstant zu halten, nämlich durch Randomisierung. Fisher schlug zur Klärung der konkreten Frage vor, vier Tassen erst mit Milch, dann mit Tee zu befüllen, und vier andere Tassen erst mit Tee, dann mit Milch zu befüllen. Der Frau wird mitgeteilt, dass vier Tassen erst Milch, dann Tee, und vier andere erst Tee, dann Milch erhalten haben, aber nicht, welche Tassen dies jeweils sind. Die acht Tassen werden in zufälliger Reihenfolge vor der Frau präsentiert. Ihre Aufgabe ist es nun, per Geschmackstests die Tassen jeweils der korrekten Gruppe zuzuteilen. Die Zahl der Tassen beträgt also . Die Reihenfolge der Präsentation der Tassen ist eine Zufallsvariable , und jede einzelne Präsentation ist die Realisierung dieser Zufallsvariable, . Eine bestimmte Präsentation kann beispielsweise mit beschrieben werden. Alle möglichen Präsentationen sind Elemente der Menge aller möglichen Präsentationen Ω. Drittens wird ein Resultat zu beobachten sein. Sollte die Frau im obigen Beispiel von alle Tassen korrekt zuordnen, wäre . Zuletzt soll das Experiment entscheiden, ob die Nullhypothese (Frau kann nicht schmecken, ob der Tasse zuerst Tee oder Milch hinzugefügt wurde) bei einer bestimmten Irrtumswahrscheinlichkeit abgelehnt werden muss.[1]
Vor der Durchführung randomisierter Experimente sollten alle möglichen Resultate vorausgesagt werden. Zentral ist dabei die Zahl der Elemente in Ω. Da es sich bei Fishers Experiment um eine Permutation handelt, lässt sich wie folgt berechnen:[1]
Es existieren also 70 mögliche Anordnungen (und ebenfalls 70 mögliche Resultate ). Fisher fragte nun, wie groß die Wahrscheinlichkeit sei, dass die Frau allein durch Zufall alle acht Tassen korrekt zuordnet. Diese Wahrscheinlichkeit beträgt . Sollte sich also ergeben, kann man bei einer Irrtumswahrscheinlichkeit von weniger als 2 % schließen, dass die Frau tatsächlich die Fähigkeit besitzt, die Reihenfolge des Einschenkens von Tee und Milch herauszuschmecken. Unter einer weniger strengen Definition der Fähigkeit, nach der zwei Zuordnungsfehler erlaubt sind, betrüge die Irrtumswahrscheinlichkeit bereits . Unter dieser Definition hätte das oben beschriebene Experiment keine ausreichende statistische Aussagekraft mehr.[1]
Kernelemente
Rosenbaum (2002) fasst die Kernelemente eines randomisierten Experiments wie folgt zusammen:[1]
- Experimente benötigen keine Homogenität der Behandlungseinheiten
- Experimente benötigen keine Zufallsstichprobe einer Population von Behandlungseinheiten
- Um eine valide Folgerung zu den Effekten einer Behandlung aus einem Experiment ziehen zu können, müssen die Behandlungen zufällig auf die Behandlungseinheiten verteilt sein
- Wahrscheinlichkeit spielt im Experiment nur im Zusammenhang mit der Zuweisung von Behandlungen zu Behandlungseinheiten eine Rolle.
Arten von randomisierten Experimenten und statistischen Tests
Fishers Methode wurde zum Goldstandard in vielen Gebieten, wie Landwirtschaft, Informatik, Produktionsprozessen, Medizin oder Wohlfahrt. Neben dem komplett randomisierten Experiment existieren Varianten wie das Blockdesign (Blockplan) oder gepaarte randomisierte Experimente. Zudem existiert eine Reihe von statistischen Tests, die bei randomisierten Experimenten (im Gegensatz zu nichtrandomisierten Experimenten) nahezu ohne Annahmen auskommen. Rosenbaum (2002) fasst sie wie folgt zusammen:[1]
- Tests für binäre Resultate: Exakter Test nach Fisher, Mantel–Haenszel-Statistik, McNemar-Test
- Tests für ordinale Resultate: Mantels (1959) Erweiterung der Mantel–Haenszel-Statistik
- Tests für ein einzelnes Stratum mit Intervallskala und Verhältnisskala: Wilcoxon-Rangsummentest
- Tests für ordinale Resultate (mit großer Zahl an Strata im Vergleich zur Stichprobenzahl): Hodges-Lehmann-Schätzer
Kritik an sozialen randomisierten Experimenten
Wenngleich sich das randomisierte Experiment seit Fisher in vielen Anwendungen als sehr nützlich erwiesen hat, wurde in den vergangenen drei Jahrzehnten Kritik laut, die sich gegen die Anwendung beim Menschen richtete. Insbesondere wurde kritisiert, dass durch Zuweisung in Kontrollgruppen einigen Menschen Behandlungen vorenthalten werden, was unethisch und/oder illegal sein kann.[1]
James Heckman und Kollegen betonte zudem die Notwendigkeit der Modellierung der Prozesse, die Menschen zur Teilnahme oder Nichtteilnahme an Programmen oder Behandlungen führen. Die Kritik richtete sich dabei auch gegen die fundamentale Annahme des randomisierten Experiments, dass Randomisierung Selektionsbias beseitige.[1]
Einzelnachweise
- Shenyang Guo & Mark W. Fraser: Propensity Score Analysis: Statistical Methods and Applications. Sage Publications, 2009. ISBN 9781412953566. S. 5–12.