Funktion und Sinn von Statistik/Wahrscheinlichkeit
Vorheriges Kapitel: 1.2 Formen der Statistik
1.3 Wahrscheinlichkeiten, nicht Gewissheit
verfasst von Erwin Ebermann
(Analytische) Statistik nimmt Wahrscheinlichkeiten an, nicht Gewissheiten.
In der Statistik beschreiben und analysieren wir meist Stichproben[1], also eine Auswahl einer Grundgesamtheit. Dabei ist immer damit zu rechnen, dass sich auch eine sorgfältig zusammengesetzte Stichprobe in wesentlichen Parametern von der Grundgesamtheit[2] unterscheidet, sie also nicht wiederspiegelt.
Wenn wir z.B. 100 Mitmenschen zu ihren Wahlpräferenzen befragen, dann kann es sein, dass die Beliebtheit der SPÖ bei ihnen deutlich anders ausfällt als bei der Grundgesamtheit, auch wenn aus der Schichtung der Stichprobe keinerlei tendenziöse Verteilung der Personen ersichtlich war.
Konfidenzintervalle
Besonders in der analytischen Statistik gibt man daher Konfidenzintervalle bzw. Schwankungsbreiten an, innerhalb derer sich ein wahrer Wert bewegen soll, d.h. der vermutete Wert in der Grundpopulation. Die Breite der Konfidenzintervalle hängt von der Größe der Stichprobe, deren relativer Größe im Verhältnis zur Grundpopulation sowie von der gewählten Irrtumswahrscheinlichkeit ab.
Beispiel Hochrechnung am Wahlsonntag:
Wir erleben dies immer am Wahlsonntag, wenn gegen 17h zum Zeitpunkt der 1. Hochrechnung die Statistikexperten angeben, dass die Partei A mit zwischen 35,3 und 36,8% der Stimmen zu rechnen hat, Partei B etc.
Verweise:
[1] Siehe Kapitel 2.1.1
[2] Siehe Kapitel 2.1
Inhalt
1.3.1 Schwankungsbreiten und Konfidenzintervalle
Unter Schwankungsbreite bzw. Konfidenzintervall versteht man einen Bereich, innerhalb dessen eine Merkmalsausprägung für die Grundpopulation bei einer festgesetzten Irrtumswahrscheinlichkeit angenommen wird, wobei der für die Schätzung verwendete Ausgangswert aus einer Stichprobe ermittelt wurde.
Die Schwankungsbreite oder das Konfidenzintervall hängen von folgenden Faktoren ab:
a. dem gewählten Signifikanzniveau (je signifikanter, dester größer die Schwankungsbreite);
b. dem größenmäßigen Verhältnis zwischen Stichprobe und Grundpopulation[1] (je größer der Unterschied, desto größer die Wahrscheinlichkeit, dass die Ergebnisse voneinander abweichen und damit die Schwankungsbreite);
c. der Größe der Stichprobe[2] (je kleiner, desto größer ist die Schwankungsbreite)
Beispiel zu Punkt b am Wahlabend:
Während die StatistikerInnen gegen 17 h bei vielleicht 10 % der ausgezählten Stimmen die Schwankungsbreite der Stimmen für Partei A mit zwischen 35,3 bis 36,8 angeben (also einer Spanne von 1,5 %), wird gegen 19 h, wenn etwa 90 % der Stimmen ausgezählt sind, eine Schwankungsbreite von vielleicht 0,2 oder 0,3 % angegeben werden, also 35,9-36,2 %).
Siehe auch Konfidenzintervall (Wikipedia)[3].
Verweise:
[1] Siehe Kapitel 2.1
[2] Siehe Kapitel 2.1.1
[3] http://de.wikipedia.org/wiki/Konfidenzintervall
1.3.2 Irrtumswahrscheinlichkeit und Signifikanzniveau
Unter der Irrtumswahrscheinlichkeit p versteht man die zahlenmäßig ausgedrückte Wahrscheinlichkeit, dass sich ein Ergebnis einer statistischen Analyse substantiell vom tatsächlichen Ergebnis der Grundpopulation unterscheidet.
In der Statistik arbeitet man meist mit den drei folgenden Signifikanzniveaus oder -grenzen:
p ≤ 0,05: signifikant (Irrtumswahrscheinlichkeit kleiner als 5 %)
p ≤ 0,01: sehr signifikant (Irrrtumswahrscheinlichkeit kleiner als 1 %)
p ≤ 0,001: höchst signifikant (Irrtumswahrscheinlichkeit kleiner als 1 ‰)
Wenn daher bei einer Hochrechnung am Wahlabend gesagt wird, dass bei einer Irrtumswahrscheinlichkeit von weniger als 1 % eine Partei zwischen 35,2 und 35,6 % der Stimmen erhalten wird, dann bedeutet dies, dass nur in weniger als 1% aller Fälle das tatsächliche Endergebnis außerhalb dieses Bereiches liegen wird.
Siehe auch Signifikanz (Wikipedia)[1].
Verweise:
[1] http://de.wikipedia.org/wiki/Statistische_Signifikanz