Ausgewählte statistische Grundlagen und Analysemethoden/Korrelation

From Eksa
Jump to: navigation, search

Vorheriges Kapitel: 3.4 Streuungsmaße oder ’Wie allgemeingültig ist der Mittelwert’

Contents

3.5 Der Zusammenhang zwischen Variablen

verfasst von Erwin Ebermann

Zu den spannendsten Fragen gehört die Untersuchung von Zusammenhängen zwischen Variablen. Es ist naheliegend, sich die Frage zu stellen, ob es z.B. einen Zusammenhang zwischen Rassismus und Bildung bzw. Sozialisation, Einkommen, Erfahrungen gibt. Es ist denkbar, dass die Religion einer Person Auswirkungen auf ihre Kinderzahl hat; es ist denkbar, dass Menschen eher zu biologischen und meist auch teureren Lebensmittel greifen, wenn auch ihr Einkommen höher ist usw.

Um derartige Zusammenhänge aufzudecken, verfügen wir über verschiedene Methoden, wie z.B. die Kreuztabellen-Analyse oder die Korrelation(en).

Inhalt

3.5.1 Optische Erkennung von Zusammenhängen

Optische Darstellung von Zusammenhängen: das Streudiagramm

Trägt man auf einer Matrix von links nach rechts die Ausprägungen für die Variable A ein und die Ausprägungen für die Variable B auf der Y- Achse, so erhält man eine Reihe von Schnittpunkten. Das sich aus den Schnittpunkten ergebende Diagramm wird auch Verteilungsgrafik (auch Streuungsdiagramm, Streudiagramm oder Scatterplot genannt).

Herstellung eines Streudiagramms

Streudiagramme eignen sich zur grafischen Darstellung bivariater Daten, also zur Darstellung von Wertepaaren in einem Koordinatensystem. An Lage und Dichte des Punkteschwarms lässt sich anschaulich ablesen, ob ein Zusammenhang zwischen den Variablen besteht. Sie werden folgendermaßen erstellt: Man trägt in einem Diagramm jeweils die Schnittpunkte der beiden Variablen ein, wobei der Wert der 1. Variablen auf der X- Achse, der Wert der 2. Variable auf der Y- Achse liegt. Im Beispiel unten trägt man auf der X- Achse den Alphabetisierungsgrad des Landes ein, auf der Y-Achse das Bruttonationalprodukt des gleichen Landes. Wo beide Einträge aufeinander treffen, wird eine Markierung (ein Punkt) eingefügt.

Streudiagramm Zusammenhang zwischen weiblicher Bildung und Kindersterblichkeit

Zusammenhänge bereits visuell erkennbar

Hier erkennen wir bereits optisch einen gewissen Zusammenhang. Die meisten Schnittpunkte befinden sich links oben und gehen in einer Linie nach rechts unten. Man könnte durch die Schnittpunkte annäherungsweise eine Gerade[1] ziehen, die von rechts oben nach links unten geht. Man spricht hier von einem linearen Zusammenhang.

Die Aussage der Grafik ist: je höher der Alphabetisierungsgrad der Frauen, desto niedriger die Kindersterblichkeit.

Streudiagramm Zusammenhang zwischen Alphabetisierungsrate und BNP

Aus diesem Diagramm ist ersichtlich, dass ein gewisser Zusammenhang zwischen Alphabetisierungsrate und BNP besteht. Länder mit nur geringer Alphabetisierungsrate haben ausnahmslos ein sehr niedriges BNP, mit hoher Alphabetisierungsrate steigt die Wahrscheinlichkeit, auch ein sehr hohes BNP aufzuweisen, doch liegen die Werte bei hoher Alphabetisierungsrate extrem auseinander. Hier lässt sich wesentlich schwerer eine Gerade ziehen, es liegt nur mehr bedingt ein linearer Zusammenhang vor.

Nachfolgend verschiedene weitere Diagramme, welche teilweise deutliche Zusammenhänge zeigen (wie oben links) oder keinerlei Zusammenhang (wie unten links). Diskutieren Sie in der Gruppe die Art der Zusammenhänge in den restlichen Diagrammen.

Mehrere Streudiagramme (1)
Mehrere Streudiagramme (2)


Verweise:
[1] Siehe Kapitel 3.5.4.2


3.5.2 Kreuztabellen-Analyse

Unter Kreuztabellen (auch Kontingenztafeln genannt) versteht man die tabellarische Darstellung der Häufigkeiten[1], welche bei der Kombination der Ausprägungen von zwei oder mehr Variablen auftreten.

Wenn z.B. zwei Variablen vorliegen, werden die Ausprägungen der Variablen A in Spalten von links nach rechts und die Ausprägungen der Variablen B in Zeilen von oben nach unten eingetragen. In jeder einzelnen Zelle wird sodann die spezifische Häufigkeit der jeweiligen Kombination Ausprägung der Variablen A mit Ausprägung der Variablen B vermerkt.

Kreuztabelle Deutschkenntnisse und Muttersprache



Verweise:
[1] Siehe Kapitel 3.1.3.3.2



3.5.2.1 Berechnung von Kreuztabellen-Analysen mit SPSS

Wir möchten mit einer Kreuztabelle zeigen, wie gut in Wien lebende AfrikanerInnen nach (überprüften) Eigenangaben Deutsch beherrschen und überprüfen, ob ihre Sprachkompetenz im Deutschen mit ihrer Nationalsprache zusammenhängt.

Dazu klicken wir in SPSS auf ANALYSIEREN - DESKRIPTIVE STATISTIKEN - KREUZTABELLEN. In den Zeilen klicken wir die Herkunftssprache an, unter Spalten die Sprachkompetenz im Deutschen. Nach Klicken auf OK erhalten wir bereits folgende Tabelle:

Kreuztabelle Zusammenhang Muttersprache - Deutschkenntnisse

Man kann die Ergebnisse leichter interpretieren, wenn auch die relativen Häufigkeiten[1] ermittelt werden. Dazu klicken wir unter Zellen auf zeilenweise Prozentwerte:

Kreuztabelle mit Zeilenprozentwerten zum Zusammenhang Muttersprache - Deutschkenntnisse

Nun können wir sofort erkennen, dass in unserer Stichprobe die durchschnittlichen Deutschkenntnisse der Zuwanderer aus Ländern mit französischer Nationalsprache besser als die aus Ländern mit englischer Nationalsprache sind. 70,7 % der Frankophonen sprechen besser Deutsch, aber nur 49,0 % der Anglophonen.


Verweise:
[1] Siehe Kapitel 3.1.3.3.2



3.5.2.1.1 Überprüfung von Zusammenhängen mit dem Chi-Quadrat-Test

Der Chi-Quadrat-Test, angewandt auf Kreuztabellen, ermittelt die Wahrscheinlichkeit[1], ob Zusammenhänge mehr als nur zufälliger Natur sind.

Im vorigen Beispiel (Kreuztabelle) sahen wir, dass offensichtlich ein deutlich höherer Prozentsatz von frankophonen AfrikanerInnen besser Deutsch spricht als Anglophone. Wir wissen jedoch noch nicht, ob diese Unterschiede auch signifikant sind.

Berechnung des Chi-Quadrat-Tests mit SPSS

Dazu wählen wir unter ANALYSIEREN - DESKRIPTIVE STATISTIKEN - KREUZTABELLEN den Punkt Statistik, setzen dort bei Chi-Quadrat ein Häkchen und erhalten als zusätzliche Ausgabe:

Chi-Quadrat-Test

Für uns interessant ist hier der Wert für Asymptotische Signifikanz. Dort wird 0,023 aufgeführt, also ein Wert kleiner als 0,05. Damit ist mit einer Wahrscheinlichkeit von mehr als 95 % anzunehmen (oder mit einer Irrtumswahrscheinlichkeit von weniger als 5 %), dass tatsächlich ein Zusammenhang zwischen Nationalsprache und Sprachkompetenz im Deutschen besteht. Bei einem Wert > 0,01 wäre die Wahrscheinlichkeit eines Zusammenhangs sogar größer als 99 %, also wäre das Ergebnis hoch signifikant[2].


Verweise:
[1] Siehe Kapitel 1.3
[2] Siehe Kapitel 1.3.2



3.5.2.2 Grafische Darstellung von Kreuztabellen mit SPSS

Die Ergebnisse von Kreuztabellen können mit Gruppierten Balkendiagrammen[1] besonders anschaulich dargestellt werden.

Mit SPSS ist deren Erstellung sehr einfach.

Klicken Sie auf ANALYSIEREN - DESKRIPTIVE STATISTIKEN - KREUZTABELLEN und machen Sie ein Häkchen beim Punkt Gruppierte Balkendiagramme anzeigen.

Spielen Sie mit den einzelnen Elementen dieser Grafik herum. Beim Doppelklick auf Details dieses Diagramms werden sich viele Einstellmöglichkeiten öffnen.

Gruppiertes Balkendiagramm



Verweise:
[1] Siehe Kapitel 3.6.1.3


3.5.3 Die Korrelation

Unter einer Korrelation versteht man eine Kennzahl für den Zusammenhang zwischen Variablen. Prinzipiell können folgende Zusammenhänge bestehen:

  • Übereinstimmung: je höher der Wert der Variablen A, desto höher ist meist auch der Wert der Variablen B: positive Korrelation
  • Gegensatz: je höher Variable A, desto niedriger ist meist die Variable B: negative Korrelation
  • Unabhängigkeit: Hohe Werte von A können relativ beliebigen Werten von B entsprechen und umgekehrt: keine Korrelation

Korrelationskoeffizienten können Werte zwischen -1,00 und +1,00 annehmen. Ein Wert von -1,0 bedeutet eine perfekte negative Korrelation: Hohe Werte der Variablen A gehen ausnahmslos mit niedrigen Werten der Variablen B einher und umgekehrt. Ein Wert von (+)1,0 bezeichnet eine perfekte positive Korrelation: hohe Werte von A entsprechen praktisch immer hohen Werten von B und umgekehrt.

Je nach Art der Grundskalierung[1] muss man zu unterschiedlichen Korrelationskoeffizienten greifen:

Geeigneter Korrelationskoeffizient für unterschiedliche Skalenniveaus

Vorsicht bei vorschneller Herstellung von Zusammenhängen

Gefundene Korrelationen müssen dennoch nochmals kritisch hinterfragt werden. Es gibt z.B. Scheinkorrelationen[2], die nur deshalb auftreten, weil beide Variablen hoch mit einer dritten Variable korrelieren, und verdeckte Korrelationen[3], bei welchen sich Subgruppen der Stichprobe[4] gegenseitig neutralisieren, selbst aber eine hohe Korrelation bei den beiden Variablen aufweisen. Erst die Signifikanz[5] gibt einer Korrelation die nötige Aussagekraft.


Verweise:
[1] Siehe Kapitel 3.1.2
[2] Siehe Kapitel 3.5.3.4.3
[3] Siehe Kapitel 3.5.3.4.2
[4] Siehe Kapitel 2.1.1
[5] Siehe Kapitel 3.5.3.4.4



3.5.3.1 Maßkorrelation

Der am häufigsten verwendete Korrelationskoeffizient ist der die Maßkorrelation beschreibende Pearsonsche Korrelationskoeffizient (Pearsons r). Er wird auch linearer Korrelationskoeffizient genannt.

Voraussetzungen zu seiner Anwendung:

• der Zusammenhang zwischen X und Y ist (annähernd) linear[1],

• beide Variablen sind normalverteilt[2].

Die Berechnung der Maßkorrelation r erfolgt durch folgende Formel:

Formel zur Berechnung der Maßkorrelation


Verweise:
[1] Siehe Kapitel 3.5.4.2
[2] Siehe Kapitel 3.1.3.1



3.5.3.1.1 Berechnung der Maßkorrelation mit SPSS

Beispiel:
Wir möchten bei Fahrzeugen den Zusammenhang zwischen Gewicht und Beschleunigung feststellen. Wir kontrollieren mithilfe eines Histogramms[1], ob die beiden Variablen annähernd normalverteilt[2] sind:

Kontrolle der ersten Bedingung (Normalverteilung)

Kontrolle der ersten Bedingung (Normalverteilung)

Kontrolle der 2. Bedingung (linearer Zusammenhang)

Dann erstellen wir ein Streudiagramm, welches uns einen Einblick gibt, ob die beiden Variablen systematische Entsprechungen zeigen und versuchen, in diese eine Regressionsgerade zu legen[3]. Falls dies möglich ist, ist auch die zweite Bedingung zur Anwendung der Maßkorrelation erfüllt.

Kontrolle der zweiten Bedingung (Linearer Zusammenhang)

Wir sehen einen merkbaren, wenn auch nicht extrem eindeutigen linearen Zusammenhang. Nun haben wir die Voraussetzungen geprüft, um diese Korrelationsberechnung anwenden zu können.

Berechnung der Maßkorrelation mit SPSS:

Klicken Sie in der Menüleiste auf ANAYLISEREN - KORRELATION - BIVARIAT und wählen Sie dort die entsprechende Korrelationsform, nämlich die nach Pearson. Im Feld Variablen fügen Sie die beiden Variablen ein, deren Zusammenhang Sie berechnen möchten. Klicken Sie auf OK:

Mit SPSS berechnte Maßkorrelation

Ergebnis des Beispiels:
Es gibt einen nachweisbaren Zusammenhang zwischen der Beschleunigung von Fahrzeugen und ihrem Gewicht. Dieser Zusammenhang ist mit einer Irrtumswahrscheinlichkeit von 1 % signifikant[4]. Da es eine negative Korrelation ist, kann man sagen, dass mit steigendem Gewicht des Fahrzeugs seine Beschleunigung abnimmt, was nicht weiter überraschend ist.


Verweise:
[1] Siehe Kapitel 3.6.1.5
[2] Siehe Kapitel 3.1.3.1
[3] Siehe Kapitel 3.5.4.2
[4] Siehe Kapitel 3.5.3.4.4



3.5.3.2 Rangkorrelation R (Krueger-Spearman)

Die Rangkorrelation R (nach Krueger- Spearman) wird v.a. bei der Auswertung psychologischer, pädagogischer und soziologischer Untersuchungen verwendet, wenn also keine wissenschaftlichen Maßeinheiten vorhanden sind, dennoch aber z.B. eine Reihung nach Größe und Intensität sinnvoll sein kann.

Z.B. kann man Kameradschaftlichkeit oder Egoismus kaum sinnvoll in Zahlenwerten messen, aber dennoch Menschen ersuchen, Mitmenschen bezüglich dieser Eigenschaften rangzureihen.

Auch verwendet für Zusammenhänge zwischen metrischen und ordinalskalierten Daten

Man setzt die Rangkorrelation häufig auch ein, wenn man den Zusammenhang von ordinalskalierten[1] und metrischen[2] Variablen berechnen möchte. Dabei wandelt man die Messwerte zuerst in Rangplätze um (nachdem man diese größenmäßig gereiht hat) um danach R berechnen zu können. Fallen mehrere umgewandelte Messwerte auf den gleichen Rangplatz, teilen sie sich diese Plätze (arithmetisches Mittel), also 6., 7., 8. und 9. Platz = 30 (6+7+8+9). 30 dividiert durch 4 (Anzahl der Rangplätze) =7,5. Jeder dieser 4 gleichen Messwerte erhält somit den Rangplatz 7,5.

Berechnung der Rangkorrelation:

Formel zur Berechnung der Rangkorrelation R

R= 1-, di= Differenz des Rangplatzpaares (xi-yi); n= Anzahl der Rangplätze

Beispiel:

Beispiel zur Berechnung der Rangkorrelation R

Berechnung R= 1-(6*38)/(9*(81-1) = 0,68


Verweise:
[1] Siehe Kapitel 3.1.2.3
[2] Siehe Kapitel 3.1.1.1



3.5.3.2.1 Berechnung der Rangkorrelation mit SPSS

Klicken Sie in der Menüleiste auf ANALYSIEREN - KORRELATION - BIVARIAT und wählen Sie dort die entsprechende Korrelationsform, nämlich die nach Spearman. Im Feld Variablen fügen Sie die beiden Variablen ein, deren Zusammenhang Sie berechnen möchten. Falls die Variablen über höherwertige Skalierungen[1] als die Ordinalskala[2] verfügen (Intervall-[3] oder Proportionalskala[4]), werden sie automatisch von SPSS in die entspechenden Rangplätze umgewandelt. Klicken Sie dann auf OK. Sie erhalten die Ausgabe der Korrelation gemeinsam mit der Beurteilung ihrer Signifikanz[5].


Verweise:
[1] Siehe Kapitel 3.1.2
[2] Siehe Kapitel 3.1.2.3
[3] Siehe Kapitel 3.1.2.4
[4] Siehe Kapitel 3.1.2.5
[5] Siehe Kapitel 3.5.3.4.4



3.5.3.3 Rangkorrelation Tau (Kendall)

Die Rangkorrelation TAU (nach Kendall) wird häufig verwendet, wenn N, also die Gesamtanzahl an Fällen, sehr niedrig ist (< 20).

Berechnung: Zuerst werden alle Ausprägungen der beiden Variablen in Ränge umgewandelt.

Schritt 1 zur Berechnung der Rangkorrelation Tau (Kendall)

Danach wird eine Variable größenmäßig sortiert (nach Rangplätzen), die zum gleichen Fall gehörenden Rangplätze der anderen Variablen werden darunter geschrieben:

Schritt 2 zur Berechnung der Rangkorrelation Tau (Kendall)

Die 1. Rangreihe ist bereits größenmäßig sortiert. In der 2. Rangreihe wird nun verglichen, ob die Rangordnung der 1. Rangreihe (Schulbildung) eingehalten wird. D.h. bei einer maximalen positiven Korrelation von Schulbildung und Schichtzugehörigkeit müsste bei Schichtzubehörigkeit ebenfalls B den 1. Platz haben, E den 2., D den 3. usw., bei einer negativen Korrelation selbstverständlich umgekehrt.

Für jede Person der 2. Rangreihe (Schichtzugehörigkeit) wird nun verglichen, ob auf sie folgenden Rangzahlen größer oder kleiner sind. ’Richtig’ wäre eine größere nach einer kleineren Rangzahl; ’falsch’ eine kleinere nach einer größeren Rangzahl:

Schritt 3 zur Berechnung der Rangkorrelation Tau (Kendall)

Insgesamt überprüfen wir 10 Zahlenpaare. Für jede 'richtige' Zahlenfolge zählen wir ein "Plus", für jede 'falsche' Reihenfolge ein "Minus".

Schritt 4 zur Berechnung der Rangkorrelation Tau (Kendall)

Wir zählen 6-Plus und 4-Minuszeichen, zieht man die Minus von den Plus ab, ergibt sich die Summe S = 2. Diese Summe S wird bei der Berechnung von Tau mit der höchstmöglichen Summe dieser Art Smax verglichen.

Smax errechnet sich aus N(N-1)/2, denn die Gesamtzahl von Paarvergleichen hängt nur von N (also der Länge der Rangreihe ab). Ist die zweite Rangreihe identisch mit der ersten (geordneten), so ergeben sich beim Paarvergleich nur ’richtige’ Reihenfolgen und die Gesamtsumme des "Plus- Zeichen" ist gleich der Summe der insgesamt möglichen Paarvergleiche Smax.

Tau ergibt sich als TAU = S/Smax.

In unserem Beispiel ist Smax = 5*4/2 = 10. TAU ist also gleich 2/10 = 0,2

Formel zur Berechnung der Rangkorrelation Tau (Kendall)

Diese Berechnungsart sollte nur dann angewendet werden, wenn innerhalb einer Rangreihe keine geteilten Rangplätze auftreten.



3.5.3.3.1 Berechnung von TAU mit SPSS

Klicken Sie in der Menüleiste auf ANAYLISEREN - KORRELATION - BIVARIAT und wählen Sie dort die entsprechende Korrelationsform, nämlich Kendall-Tau. Im Feld Variablen fügen Sie die beiden Variablen ein, deren Zusammenhang Sie berechnen möchten. Falls die Variablen über höherwertige Skalierungen[1] als die Ordinalskala[2] verfügen (Intervall[3] - oder Proportionalskala[4]), werden sie automatisch umgewandelt. Klicken Sie dann auf OK. Sie erhalten die Ausgabe der Korrelation gemeinsam mit der Beurteilung ihrer Signifikanz[5].


Verweise:
[1] Siehe Kapitel 3.1.2
[2] Siehe Kapitel 3.1.2.3
[3] Siehe Kapitel 3.1.2.4
[4] Siehe Kapitel 3.1.2.5
[5] Siehe Kapitel 3.5.3.4.4



3.5.3.4 Aussagekraft einer Korrelation

Die Aussagekraft einer Korrelation hängt von mehreren Faktoren ab:

A. der Höhe der Korrelation

B. der Größe der Stichprobe[1](n)

C. der Sorgfalt beim Ausschluss einer möglichen Scheinkorrelation bzw. des Erkennens verdeckter Korrelationen.

Die statistische Kennzahl der Signifikanz berücksichtigt sowohl die Höhe der Korrelation wie auch die Größe der Stichprobe und gibt Auskunft über die Wahrscheinlichkeit[2], dass die erhaltene Korrelation rein zufällig auftrat. Sie ist statistisch von äußerst großer Bedeutung.


Verweise:
[1] Siehe Kapitel 2.1.1
[2] Siehe Kapitel 1.3.2



3.5.3.4.1 Wann sind Korrelationen bemerkenswert?

Die Größe einer Korrelation sagt alleine noch nichts über ihre Aussagekraft aus. Prinzipiell gilt, dass eine hohe Korrelation umso leichter zu erzielen ist, je kleiner die Stichprobe ausfällt. Bei einer Stichprobengröße von 1 liegt jede Korrelation beim Maximalwert r=1.

Bei kleineren Stichproben (etwa n=20) sind folgende Einschätzungen von r bzw. R weitverbreitet:

Einstufungen von Korrelationskoeffizienten

Ob eine Korrelation bedeutend oder unbedeutend ist, hängt auch von der Art des (überraschenden) Zusammenhangs ab. Eine hohe Korrelation der Schuhgröße mit der Körpergröße von r=0,8 ist deutlich weniger bedeutend als eine gesicherte Korrelation von r=0,4 bei einer großen Stichprobe über den Zusammenhang zwischen dem Konsum eines bestimmten Nahrungsmittels und der Entwicklung einer bestimmten Krankheit.



3.5.3.4.2 Verdeckte Korrelation

Von einer verdeckten Korrelation spricht man, wenn statistisch keinerlei Korrelation errechnet wurde, obwohl sachlich eindeutig Zusammenhänge vorliegen.

Dies ist z.B. möglich, wenn Subgruppen der untersuchten Population in hohem Maße Tendenzen aufweisen, welche durch andere Subgruppen neutralisiert werden, weil diese sich gegenläufig verhalten.

Fiktives Beispiel: Zusammenhang von Zigarettenkonsum und -werbung

Wir untersuchen, welchen Einfluss ein unterschiedlich intensiver Kontakt mit einer bestimmten Tabak-Werbung auf das Rauchverhalten von Jugendlichen ausübt. Wir stellen fest, dass es keinen messbaren Zusammenhang zwischen dem Konsum der Werbung und dem Zigarettenkonsum gibt. Der Zigarettenkonsum hat sich durch die Wahrnehmung der Werbung nicht verändert.

Korrelation zwischen Zigarettenkonsum und Zigarettenwerbung

Ein Blick auf die zugrundeliegenden Daten zeigt jedoch, dass es sehr wohl einen substantiellen Zusammenhang geben muss. Wir betrachten dazu ein Histogramm (In SPSS -> GRAFIKEN - HISTOGRAMM), bei welchem wir die Werbung als Variable eintragen, die Veränderung des Zigarettenkonsums in Felder anordnen als und unter Variable verspachteln das Geschlecht eintragen.

Befehlsschaltfläche Histogramm in SPSS

Wir erhalten dann folgende zwei nach Geschlechtern getrennte Histogramme:

Nach Geschlechern getrennte Histogramme zum Zigarettenkonsum

Wir sehen, dass bei den Jungen eine perfekte negative Korrelation[1] vorliegt (r=-1), bei den Mädchen hingegen eine perfekte positive Korrelation (r=1). Die Jungen haben die Werbung eher als erschreckend für den Tabakkonsum aufgefasst, die Mädchen hingegen als ermutigend. Am Ende des Untersuchungszeitraums rauchten die Mädchen im gleichen Maße mehr als die Jungen weniger rauchten. Dadurch ergab sich eine Null-Korrelation auf der Ebene der gesamten Stichprobe[2].


Verweise:
[1] Siehe Kapitel 3.5.3
[2] Siehe Kapitel 2.1.1



3.5.3.4.3 Scheinkorrelationen und Störvariable

Eine Scheinkorrelation ist ein statistisch gemessener Zusammenhang zwischen zwei Variablen, welcher nur deshalb auftritt, weil beide Variablen systematisch von einer dritten Variablen beeinflusst werden.

Zusammenhang kann auf Störfaktoren zurückgehen

Die Korrelation ist eine interessante Methode zur Berechnung von Zusammenhängen. Jedoch sollte man sich vergewissern, dass der gemessene Zusammenhang tatsächlich prioritär und somit kausal ist.

Es ist immer auch möglich, dass andere Erklärungen (Störfaktoren) für den Zusammenhang übersehen wurden, was zu Scheinkorrelationen führen kann.

Beispiel 1: Bringen Störche Kinder?
So zeigt sich in Untersuchungen verschiedener Länder ein hoher Zusammenhang zwischen der Storchenpopulation und der Geburtenrate (teilweise bis r=0,7) im Laufe der Jahrzehnte. Die Erklärung dieses verblüffenden Zusammenhanges ist einfach: Durch bessere Bildungs- und Berufschancen der Frauen ging die Geburtenrate zurück, durch zunehmende Umweltbelastung die Storchenpopulation. Daher ist der Zusammenhang von Storchenpopulation und Geburtenrate rein zufällig. Er ergibt sich statistisch einfach dadurch, dass sowohl Storchenpopulation wie auch Geburtenrate hoch mit der Wirtschaftsentwicklung korrelieren. Diese führte zu besseren Jobchancen für Frauen und dadurch auch zu geringeren Kinderzahlen wie auch zu einer zunehmenden Umweltbelastung und damit zu sinkenden Storchenpopulationen.

Beispiel 2: Haben reichere Männer weniger Haare?
Es lässt sich ein hoher Zusammenhang zwischen Männern mit schütterem Haar und hohem Einkommen nachweisen. Tatsächlich besteht aber eher ein Zusammenhang zwischen dem Alter der Männer und ihrem Einkommen und mit zunehmendem Alter nimmt auch die Zahl der Haare ab.

Ist man unsicher, ob eine errechnete Korrelation haltbar ist, kann man kann mögliche Störfaktoren mit der Partiellen Korrelation herausfiltern.



3.5.3.4.3.1 Partielle Korrelation mit SPSS

Beispiel: Korrelation von Fertiliät und weiblicher Lebenserwartung

Wir untersuchen den Zusammenhang zwischen Fertilität und weiblicher Lebenserwartung (basierend auf den Daten in world95.sav der UNO). Eine Rangkorrelation zwischen beiden liefert folgendes Resultat:

Korrelation zwischen weiblicher Fertilität und Lebenserwartung

Überlegung:

Wir sehen einen hohen und signifikanten Zusammenhang zwischen beiden Variablen. Offensichtlich führt eine große Kinderzahl zu stark abnehmender weiblicher Lebenserwartung und umgekehrt. Doch warum sollte dies so sein? Wir kennen doch Personen in unserer Gesellschaft, welche viele Kinder haben und dennoch in voller Gesundheit sehr alt wurden, während wir auch viele kränkliche einzelstehende Personen kennen. Wir suchen daher nach Variablen, welche die beiden vorhandenen beeinflusst haben könnten und dadurch indirekt deren hohen Zusammenhang begründen. Eine derartige mögliche (Stör-)variable ist die weibliche Alphabetisierungsrate. Sie verbessert den Zugang zu Informationen über verbesserte Gesundheitsvorsorge. Damit erhöht sie die Lebenserwartung. Gleichzeitig bietet sie durch verbesserte Berufschancen in qualifizierteren Bereichen auch häufig bessere Einkommensschancen. Bleibt eine gut verdienende Frau wegen zahlreicher Kinder zuhause, stellt dies gleichzeitig für die Familie einen größeren finanziellen Verlust dar, wie wenn eine schlecht verdienende Frau zuhause bleiben würde. Daher entscheiden sich gebildete Frauen häufig gegen höhere Kinderzahlen. Auch wird die Geburt der ersten Kinder oft hinter den abgeschlossenen Bildungsweg zurückgeschoben, was ebenfalls die Fertilität verringert.

Das waren sachliche Argumente. Die Korrelationen stützen diese Annahme:

Korrelation zwischen weiblicher Fertilität, Lebenserwartung und Alphabetisierungsrate

Herausrechnung der Störvariable mit SPSS:

Um nun den Einfluss der Störvariable aus der Beziehung weibliche Lebenserwartung/Geburtenrate herauszurechnen, gehen wir in SPSS folgendermaßen vor:

Klicken Sie in der Menüleiste auf ANAYLISEREN - KORRELATION - PARTIELLE KORRELATIONEN.

Partielle Korrelation mit SPSS - Herausrechnen der Störvariable

Im Feld Variablen fügen Sie die beiden Variablen ein, deren Zusammenhang Sie berechnen möchten. Unter Kontrollvariablen fügen Sie die Störvariable ein. Klicken Sie dann auf OK. Sie erhalten die Ausgabe der Korrelation gemeinsam mit der Beurteilung ihrer Signifikanz.

Korrelation Fertilität und Lebenserwartung ohne Störvariable Alphabetisierungsrate

Sie sehen, dass durch den Ausschluss dieser Störvariable die Korrelation zwischen der weiblichen Lebenserwartung und der Fertilität auf die Hälfte gesunken ist.



3.5.3.4.4 Signifikanz der Korrelation

Die Signifikanz ist eine Kennzahl, welche die Wahrscheinlichkeit eines systematischen Zusammenhangs zwischen den Variablen bezeichnet. Sie drückt aus, ob ein scheinbarer Zusammenhang rein zufälliger Natur sein könnte oder mit hoher Wahrscheinlichkeit[1] tatsächlich vorliegt. Man spricht bei der Signikanz von Irrtumswahrscheinlichkeiten oder Signifikanzniveaus. Gängige Formulierungen lauten etwa, dass zwischen den Variablen A und B eine Korrelation von r=0,5 auf dem Signifikanzniveau oder der Irrtumswahrscheinlichkeit von p ≤ 1 % besteht. Dies bedeutet, dass die zwischen den Variablen A und B gefundene Korrelation in dieser Höhe und bei dieser Stichprobengröße nur in weniger als 1 % aller Fälle rein zufällig auftritt.

Die Kennzahl p der Irrtumswahrscheinlichkeit, auf deren komplexe Berechnung hier nicht eingegangen wird, berücksichtigt somit sowohl die Höhe der Korrelation wie auch die Größe der Stichprobe. Ist die Stichprobe[2] sehr klein, muss die Korrelation extrem groß ausfallen, um signifikant sein zu können. Hingegen kann auch eine Korrelation von r=0,2 bei sehr großen Stichproben signifikant werden.

Grenzwerte der Signifikanz bei n=20

Für eine Stichprobe der Größe n = 20 finden wir für einseitige Irrtumswahrscheinlichkeit (Signifikanz) folgende Grenzwerte:

Irrtumswahrscheinlichkeit p ≤ 5 %: r/R/TAU muss größer sein als 0,377

Irrtumswahrscheinlichkeit p ≤ 1 %: r/R/TAU muss größer sein als 0,534

D.h. wenn man eine Korrelation von 0,6 bei einer Stichprobe von n=20 ermittelt, dann ist die Wahrscheinlichkeit geringer als 1 %, dass dieser Zusammenhang rein zufälliger Natur ist.

Bestimmtheitsmaß: Anteil der Korrelation an Veränderung

Wenn der Korrelationskoeffizient quadriert wird, erhält man das Bestimmtheitsmaß (R2), den Anteil der durch eine Variable erklärten Streuung an der Streuung der anderen. R/r=0,8 bedeutet nicht, dass 80 % der Stichprobe einander entsprechen. R2 gibt Aufschluss darüber, dass 0,8*0,8=0,64 = 64 % der Variabilität der Werte beider Variablen durch den Zusammenhang bestimmt sind.


Verweise:
[1] Siehe Kapitel 1.3.2
[2] Siehe Kapitel 2.1.1



3.5.3.4.4.1 Signifikanz mit SPSS

Signifkanz von Korrelationen wird von SPSS automatisch ermittelt

Statistikprogramme wie SPSS ermitteln selbstständig bei der Berechnung der Korrelation die dazugehörige Irrtumswahrscheinlichkeit. Bei SPSS wird mit Sternen ausgedrückt (1, 2 oder 3 Sterne), ob die Korrelation signifikant ist, d.h. ob der Zusammenhang weitgehend gesichert scheint oder nicht.

Drei wesentliche Schwellen der Irrtumswahrscheinlichkeit[1] haben breite Akzeptanz gefunden:

  • p <= 0,05 (die Wahrscheinlichkeit einer rein zufälligen Korrelation liegt bei unter 5 %, SPSS vergibt einen Stern = *);
  • p <= 0,01 (die Irrtumswahrscheinlichkeit ist kleiner als 1 %, SPSS vergibt 2 Sterne **) oder
  • p <= 0,001 (die Irrtumswahrscheinlichkeit ist kleiner als 1 ‰, SPSS vergibt 3 Sterne ***).
Korrelation zwischen Kalorienaufnahme und BNP


Diese Korrelation zeigt, basierend auf UNO- Statistiken aus dem Jahr 1995, den Zusammenhang zwischen der täglichen Kalorienaufnahme und dem Bruttonationalprodukt von Ländern. Defaultmäßig berechnet SPSS zur Korrelation auch die Signifikanz der Korrelation und markiert signifikante Korrelationen wie in diesem Beispiel mit Sternchen. Diese Korrelation ist signifikant auf dem 1%-Niveau (2 Sternchen). Damit signifikante Korrelationen automatisch mit Sternchen markiert werden, muss im Fenster der Korrelationsberechnung der Punkt signifikante Korrelationen markieren mit einem Häkchen markiert sein.


Verweise:
[1] Siehe Kapitel 1.3.2



3.5.3.5 Kovarianz

Die Kovarianz ist eine Kennzahl für den Zusammenhang von zwei Variablen. Sie entspricht der Summe der gemittelten Abweichungsprodukte der Variablen. Sie wird nach folgender Formel berechnet:

Formel zur Berechnung der Kovarianz

Die Kovarianz ist positiv, wenn X und Y tendenziell einen linearen Zusammenhang besitzen, d. h. hohe Werte von X entsprechen hohen Werten von Y und niedrige Werte von X niedrigen Werten von Y.

Die Kovarianz ist negativ, wenn X und Y einen gegensinnigen linearen Zusammenhang aufweisen, d. h. hohe Werte von X gehen einher mit niedrigen Werten von Y und umgekehrt.

Da die Kovarianz in ihrer Rohform von der Größe der zugrundeliegenden Daten abhängt, ist die Einschätzung ihres Wertes ohne die Kenntnis der zugrundeliegenden Daten nicht einschätzbar. Dazu muss sie erst standardisiert werden, was zur Korrelation[1] führt.


Verweise:
[1] Siehe Kapitel 3.5.3


3.5.4 Regression

Die Regression(sanalyse) ist ein Verfahren zur Analyse von Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen. Während die Korrelation[1] die Stärke eines Zusammenhangs zeigt, erlaubt es die Regression, von einer bekannten Größe einer Variable auf die vermutliche Größe der abhängigen Variablen zu schließen, falls ein systematischer Zusammenhang zwischen zwei Variablen A und B vorliegt.

Prinzipiell unterscheidet man zwischen linearer und nicht-linearer Regression.

Bei der linearen Regression kann eine Art Regressionsgerade ins Histogramm gelegt werden, welche die Möglichkeit der annähernden Voraussage von Ausprägungen bietet.

Der Verlauf der Regressionsgerade wird über die Formel

y = b*x + a

ermittelt, wobei b den Regressionskoeffizienten darstellt, welcher den Tangens des Steigungswinkels der Regressionsgeraden angibt. Der Regressionskoeffizient wird über die nachfolgende Formel ermittelt:

Formel zu Berechnung des Regressionskoeffizients


Verweise:
[1] Siehe Kapitel 3.5.3



3.5.4.1 Statistisch-mathematische Berechnung der linearen Regression

Die lineare Regression kann mit SPSS auf folgende Weise ermittelt werden:

A. Klicken Sie auf ANALYSIEREN - REGRESSION - LINEAR. Es erscheint folgendes Fenster:

Berechnung der linearen Regression mit SPSS

B. Tragen Sie in Abhängige Variable die von Ihnen gewünschte metrische Variable ein; in unabhängige Variable diejenige Variable, deren Einfluss auf die erste Variable Sie ergründen möchten.

C. Klicken Sie auf OK. Sie erhalten nun folgende Ausgaben:

Ausgabe Modellzusammenfassung mit SPSS, Beispiel Kindersterblichkeit und weibliche Alphabetisierungsrate

Erklärungen:

Was in der ersten Tabelle R genannt wird, ist die Quadratwurzel aus dem Bestimmtheitsmaß und deckt sich bei der einfachen Regressionsanalyse mit dem Korrelationskoeffizienten[1] von Pearson. Die Korrelation von 0,711 ist durchaus ansehnlich.

Unter Koeffizienten stehen die zwei wesentlichen Werte für die Berechnung der Regressionsgerade: Die Konstante (hier 127,203) ist der Ausgangswert, der darunter stehende Wert -1,129 der Multiplikationsfaktor.

Die hier vorliegende Gleichung, die wir errechnen wollten, ist also:

A = -1,129*B + 127,203 oder in konkreten Begriffen formuliert:

Kindersterblichkeit (pro Tausend) = (weibliche Alphabetisierungsrate)*(-1,129) + 127,203

Bei einer weiblichen Alphabetisierungsrate von 50 % könnte man somit eine Kindersterblichratsrate von -1,129*50 + 127,203 voraussagen, also 70,753.

Es sei hinzugefügt, dass es sich hier nur um eine Einführung in die Regressionsanalyse handelt und deshalb auf wichtige damit zusammen hängende Begriffe wie Standardfehler der Schätzung nicht eingegangen werden kann.


Verweise:
[1] Siehe Kapitel 3.5.3.1



3.5.4.2 Grafische Darstellung der Regression

Grafisch kann man eine Regressionsgerade mit SPSS auf folgende Weise erstellen: Klicken Sie in der Menüleiste auf GRAFIKEN - STREU- /PUNKTDIAGRAMM - EINFACHES STREUDIAGRAMM. Dort geben Sie nach Klick auf Definieren in der Y- Achse eine metrische Variable ein, in der X-Achse genauso. Dann klicken Sie auf OK. Sie erhalten zuerst ein Streudiagramm, vorerst noch ohne Regressionsgerade:

Streudiagramm zum Zusammenhang zwischen Alphabetisierung von Frauen und Kindersterblichkeitsrate

Nun machen Sie einen Doppelklick auf das Diagramm in der SPSS- Ausgabe. Sie landen im Diagramm-Editor. Unter Elemente können Sie Anpassungslinie bei Gesamtwert anklicken. Daraufhin wird defaultmäßig eine Regressionsgerade in das Streudiagramm eingefügt, gleichzeitig öffnet sich das folgende Fenster:

Schaltfläche Diagramm-Eigenschaften in SPSS

Kontrollieren Sie nochmals, ob hier Linear angeklickt ist. Nur linear realisiert eine Regressionsgerade. Nach Zuweisen erhalten Sie nun das Streudiagramm[1] mit der entsprechenden Regressionsgerade:

Streudiagramm mit Regressionsgerade


Verweise:
[1] Siehe Kapitel 3.6.1.6


Nächstes Kapitel: 3.6 Die grafische Darstellung statistischer Ergebnisse


↑ Nach oben