A-priori-Wahrscheinlichkeit
Die A-priori-Wahrscheinlichkeit (auch Anfangswahrscheinlichkeit[1], Vortest- oder Ursprungswahrscheinlichkeit[2]) ist in den Naturwissenschaften ein Wahrscheinlichkeitswert, der anhand von allgemeinem Vorwissen bzw. vernünftig erscheinenden Grundannahmen über ein System (zum Beispiel symmetrische Eigenschaften eines Würfels) als naheliegend vermutet wird. Der lateinische Begriff „a priori“ kann in diesem Zusammenhang etwa als „augenscheinlich“ oder „auf den ersten Blick am naheliegendsten“ verstanden werden: Es erscheint beispielsweise vernünftig, dass ein Würfel alle sechs Augenzahlen im Schnitt gleich häufig zeigt, d. h. die A-priori-Wahrscheinlichkeit, jede Augenzahl zu würfeln, ist 1/6.
Die älteste Methode zur Bestimmung von A-priori-Wahrscheinlichkeiten stammt von Laplace: Sofern kein Grund bekannt ist etwas anderes anzunehmen, wird allen elementaren Ereignissen (das sind beim Würfel die möglichen Ergebnisse eines einzelnen Wurfs, also die Augenzahlen 1 bis 6) dieselbe Wahrscheinlichkeit zugeordnet (Indifferenzprinzip). Entsprechend sind bei einem Münzwurf die elementaren Ereignisse „Kopf“ und „Zahl“ a priori gleich wahrscheinlich: Solange kein Grund besteht anzunehmen, die Münze sei manipuliert, weist man beiden Ereignissen dieselbe Wahrscheinlichkeit 1/2 zu. Sollte sich jedoch anhand einer langen Versuchsreihe herausstellen, dass die Elementarereignisse mit (sehr) unterschiedlicher Häufigkeit auftreten, liegt nahe, dass die A-priori-Annahme nicht zutraf, etwa weil das Material der Würfel bzw. die Münze nicht gleichmäßig ist; die im Nachgang einer solchen Versuchsreihe ermittelte Wahrscheinlichkeit nennt man A-posteriori-Wahrscheinlichkeit (die Wahrscheinlichkeit, die sich hinterher herausgestellt hat).
Die Unterschiede zwischen A-priori- und A-posteriori-Wahrscheinlichkeit lassen sich als mathematische Ausdeutung des volkstümlichen Spruchs verstehen: Probieren (=eine A-posteriori-Wahrscheinlichkeit durch eine Versuchsreihe ermitteln) geht über Studieren (=eine A-priori-Wahrscheinlichkeit auf rein theoretischer Grundlage anhand naheliegender Vermutungen festlegen).
Eine Erweiterung des Laplace-Prinzips ist das Prinzip der maximalen Entropie. Hier wird davon ausgegangen, dass man bereits etwas über das abzuschätzende System weiß, aber noch nicht alles. Nun wird argumentiert, dass die A-priori-Wahrscheinlichkeit unter den verbleibenden kompatiblen Wahrscheinlichkeitsverteilungen so gewählt werden muss, dass die (Informations-)Entropie maximal ist. Da die Entropie ein Maß für die „Unsicherheit des Wissens“ darstellt, würde jede andere Wahl implizieren, dass man weitere Informationen über das System hat, was per Definition aber nicht gegeben sein kann.
Falls keinerlei Informationen über das System bekannt sind, reduziert sich dieses Prinzip wieder auf das Indifferenzprinzip.
A-priori-Verteilungen
Folgende Situation ist gegeben: ist ein unbekannter Populationsparameter, der auf der Basis von mehreren Beobachtungen einer Zufallsgröße geschätzt werden soll.
Gegeben sei eine Verteilung für den Parameter , die das Wissen über den Parameter vor der Beobachtung der Stichprobe beschreibt. Diese Verteilung wird A-priori-Verteilung genannt.
Weiterhin sei die bedingte Verteilung der Stichprobe unter der Bedingung gegeben, die auch als Likelihood-Funktion bekannt ist.
Aus der A-priori-Verteilung und der Likelihood-Funktion kann mit Hilfe des Satzes von Bayes die A-posteriori-Verteilung berechnet werden, welche grundlegend für die Berechnung von Punktschätzern (siehe Bayes-Schätzer) und Intervallschätzern in der bayesschen Statistik (siehe Glaubwürdigkeitsintervall) ist.
Nichtinformative und informative A-priori-Verteilungen
Eine nichtinformative A-priori-Verteilung ist als eine A-priori-Verteilung definiert, die keinen Einfluss auf die A-posteriori-Verteilung hat. Dadurch erhält man eine A-posteriori-Verteilung, die identisch mit der Likelihood-Funktion ist. Maximum-a-posteriori-Schätzer und Konfidenzintervalle, die mit einer nichtinformativen A-priori-Verteilung gewonnen wurden, sind daher numerisch äquivalent zu Maximum Likelihood-Schätzern und frequentistischen Konfidenzintervallen.
Eine informative A-priori-Verteilung liegt in allen anderen Fällen vor.
Der Begriff der nichtinformativen A-priori-Verteilung sei an einem Beispiel erläutert: Die Zufallsgröße Y sei der mittlere Intelligenzquotient in der Stadt ZZZ. Aufgrund der Konstruktion des Intelligenzquotienten ist bekannt, dass Y normalverteilt ist, mit Standardabweichung 15 und unbekanntem Parameter . An einer Stichprobe von N Freiwilligen wird der Intelligenzquotient gemessen. In dieser Stichprobe wird ein arithmetisches Mittel von 105 beobachtet.
Eine nichtinformative A-priori-Verteilung ist in diesem Fall gegeben durch
- ,
wobei eine positive reelle Zahl ist. Auf diese Weise erhält man als A-posteriori-Verteilung eine Normalverteilung mit Mittelwert 105 und Standardabweichung . Der Maximum-a-posteriori-Schätzer für den Mittelwert ist dann 105 (d. h.: das arithmetische Mittel der Stichprobe) und somit identisch zum Maximum-Likelihood-Schätzer.
Eigentliche und uneigentliche A-priori-Verteilungen
An obigem Beispiel kann ein Problem illustriert werden, das häufig bei der Verwendung nichtinformativer A-priori-Verteilungen auftritt: definiert eine sogenannte uneigentliche A-priori-Verteilung. Uneigentliche A-priori-Verteilungen sind dadurch gekennzeichnet, dass das Integral der A-priori-Verteilung größer als 1 ist. Daher sind uneigentliche A-priori-Verteilungen keine Wahrscheinlichkeitsverteilungen. In vielen Fällen kann jedoch gezeigt werden, dass die A-posteriori-Verteilung auch bei Verwendung einer uneigentlichen Verteilung definiert ist. Dies trifft zu, wenn
für alle gilt. Eine eigentliche A-priori-Verteilung ist dadurch definiert, dass sie unabhängig von den Daten ist und dass ihr Integral den Wert 1 ergibt.
Konjugierte A-priori-Verteilungen
A-priori- und A-posteriori-Verteilung sind konjugiert für eine gegebene Likelihood-Funktion, wenn sie den gleichen Verteilungstyp besitzen.
Ein Beispiel hierfür ist das Binomial-Beta-Modell: sei eine binomialverteilte Zufallsgröße mit Erfolgswahrscheinlichkeit als Parameter. In Einzelversuchen werden Erfolge beobachtet. Als A-priori-Verteilung für wird eine -Verteilung auf verwendet. Unter diesen Voraussetzungen ist die A-posteriori-Verteilung eine -Verteilung.
Ein weiteres Beispiel ist das Update eines normalverteilten Priors mit einer gaußförmigen Likelihood-Funktion. Die A-posteriori-Verteilung ist dann ebenfalls eine Normalverteilung.
Siehe auch
Literatur
- James O. Berger: Statistical decision theory and Bayesian analysis (= Springer Series in Statistics.). 2nd edition. Springer, New York NY u. a. 1985, ISBN 0-387-96098-8.
- Andrew Gelman, John B. Carlin, Hal S. Stern, David B. Bunson, Aki Vehtari, Donald B. Rubin: Bayesian Data Analysis. 3rd edition. Chapman & Hall u. a., Boca Raton FL u. a. 2013, ISBN 978-1-4398-4095-5.
Einzelnachweise
- Arthur Pap: Analytische Erkenntnistheorie. Kritische Übersicht über die neueste Entwicklung in USA und England. Springer, Wien 1955, S. 99.
- Intuition, Statistik und Beweiswürdigung (Memento vom 31. Mai 2009 im Internet Archive)