Difference between revisions of "Ausgewählte statistische Grundlagen und Analysemethoden/Ermittlung"

From Eksa
Jump to: navigation, search
(Created page with " '''Ausgewählte_statistische_Grundlagen_und_Analysemethoden#3. Ausgewählte statistische Grundlagen und Analysemethoden|Vorheriges Kapitel: 3. Ausgewählte statistische Gr...")
 
m (Protected "Ausgewählte statistische Grundlagen und Analysemethoden/Ermittlung" ([Edit=Allow only administrators] (indefinite) [Move=Allow only administrators] (indefinite)) [cascading])
 
(3 intermediate revisions by the same user not shown)
Line 1: Line 1:
 
+
'''[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1 Notwendiges Wissen für die Wahl geeigneter statistischer Analysemethoden|Vorheriges Kapitel: 3.1 Notwendiges Wissen für die Wahl geeigneter statistischer Analysemethoden]]'''
 
+
= 3.2 Die Ermittlung von Häufigkeiten =
'''[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden#3. Ausgewählte statistische Grundlagen und Analysemethoden|Vorheriges Kapitel: 3. Ausgewählte statistische Grundlagen und Analysemethoden]]'''
 
= 3.1 Notwendiges Wissen für die Wahl geeigneter statistischer Analysemethoden =
 
 
<sup>verfasst von Erwin Ebermann</sup>
 
<sup>verfasst von Erwin Ebermann</sup>
  
==== '''Analysemethoden''' sind '''abhängig von Datenart, -ausprägung, -anzahl und -verteilung:''' ====
+
Bei der '''Ermittlung von Häufigkeiten''' stellen wir fest, '''wie oft die verschiedenen Messwerte auftreten'''.
 
 
Die Statistik bietet eine Vielzahl von Verfahren, mit deren Hilfe man Aufschlüsse über Sachverhalte gewinnen kann. Die meisten Verfahren können jedoch nur verwendet werden, wenn bestimmte Bedingungen erfüllt sind. Die Auswahl der möglichen Verfahren hängt besonders ab von
 
  
* der Art der Daten und den damit zusammenhängenden '''Skalenniveaus[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2 Skalenniveaus|[1]]]'''
+
Die Ermittlung von '''Häufigkeiten''' ist das einfachste statistische Verfahren und kann für jede Art von '''Skala[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2 Skalenniveaus|[1]]]''' angewandt werden. Die Häufigkeiten der Messwerte geben uns Hinweise auf ihre '''Verteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[2]]]''' d.h. wie oft die einzelnen Ausprägungen vorkamen. Die Kenntnis dieser Verteilung gibt uns somit Auskunft darüber, was in einer untersuchten Stichprobe der Normalfall, und was die Ausnahme ist.
* der '''Verteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[2]]]''' '''der Ausprägungen''' einer Variable
 
* der '''Größe''' der '''Stichprobe[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.1 Die Stichprobe Sample|[3]]]'''
 
* dem (Nicht-)Auftreten von sogenannten ’'''Ausreißern'''’ oder '''Extremdaten'''
 
  
Falls Verfahren außerhalb ihrer Anwendungsbedingungen verwendet werden, ist die Wahrscheinlichkeit groß, dass sinnleere oder falsche Aussagen erhalten werden.
+
Dabei wird das Auftreten von Werten gezählt. Prinzipiell unterscheiden wir zwischen
  
==== '''Körpergrößen und Lieblingsobst''' ====
+
* '''Monovariablen Verteilungen:''' eine einzige Variable wird gezählt. So kommen wir z.B. zu Häufigkeiten von Schulnoten (22 SchülerInnen hatten eine 1, 37 eine 2 usw.)
 +
* '''Bi- bzw. multivariablen Verteilungen:''' Es wird gezählt, wie häufig Kombinationen von zwei oder mehr Variablen auftreten (z.B. Schulnoten und soziale Schicht; 17 SchülerInnen gehörten zur Oberschicht und hatten eine 1, 22 SchülerInnen zur Oberschicht und hatten eine 2 etc.). Mit '''Bi- oder multivariablen Verteilungen''' möchte man Zusammenhänge zwischen zwei Variablen feststellen.
  
Wenn wir in einer Schulklasse die durchschnittliche Körpergröße der SchülerInnen ermitteln wollen, wäre das '''arithmetische Mittel[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|[4]]]''' eine durchaus vernünftige Kennzahl. Wir zählen dazu alle Körpergrößen zusammen und dividieren die Summe durch die Anzahl der KlassenschülerInnen. Wenn wir hingegen ermitteln möchten, was diese Schulklasse als Lieblingsobst bevorzugt, wäre das '''arithmetische Mittel''' Schwachsinn. Wir kämen dann zu wenig sinnvollen Aussagen, dass die Klasse 0,17 Äpfel, 0,12 Orangen, 0,11 Bananen etc. als Lieblingsobst aufweist.
+
Die tabellarische Darstellung der Häufigkeiten in bi- bzw. multivariablen Verteilungen wird auch als '''Kreuztabelle[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Korrelation#3.5.2 Kreuztabellen-Analyse|[3]]]''' oder '''Kontingenztafel''' bezeichnet.
  
Dass im ersten Fall das '''arithmetische Mittel''' verwendet werden konnte, im zweiten Falle jedoch nicht, hängt mit den unterschiedlichen Skalenniveaus zusammen. So gehört die Körpergröße zur '''Proportionalskala[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.5 Proportionalskalierung|[5]]]''', während das Lieblingsobst in eine '''Nominalskala[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.2 Nominalskalierung|[6]]]''' eingeordnet wird.
+
Nach der Systematik der Darstellung unterscheidet man zwischen der '''Urliste''', der '''primären Tafel''' bzw. der '''Häufigkeitstabelle.'''
  
  
Line 27: Line 21:
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2 Skalenniveaus|[1] Siehe Kapitel 3.1.2]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2 Skalenniveaus|[1] Siehe Kapitel 3.1.2]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[2] Siehe Kapitel 3.1.3]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[2] Siehe Kapitel 3.1.3]]<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.1 Die Stichprobe Sample|[3] Siehe Kapitel 2.1.1]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Korrelation#3.5.2 Kreuztabellen-Analyse|[3] Siehe Kapitel 3.5.2]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|[4] Siehe Kapitel 3.3.2]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.5 Proportionalskalierung|[5] Siehe Kapitel 3.1.2.5]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.2 Nominalskalierung|[6] Siehe Kapitel 3.1.2.2]]<br />
 
  
 
==Inhalt==
 
==Inhalt==
 
<div class="eksa_toc">
 
<div class="eksa_toc">
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1 Notwendiges Wissen für die Wahl geeigneter statistischer Analysemethoden|3.1 Notwendiges Wissen für die Wahl geeigneter statistischer Analysemethoden]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2 Die Ermittlung von Häufigkeiten|3.2 Die Ermittlung von Häufigkeiten]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1 Arten von Messwerten (Daten)|3.1.1 Arten von Messwerten (Daten)]]<br />
+
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.1 Liste und Tafeln|3.2.1 Liste und Tafeln]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.1 Metrische und nichtmetrische Variablen|3.1.1.1 Metrische und nichtmetrische Variablen]]<br />
+
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.2 Häufigkeitstabelle|3.2.2 Häufigkeitstabelle]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.2 Stetige und diskrete Variablen|3.1.1.2 Stetige und diskrete Variablen]]<br />
+
::[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.2.1 Häufigkeitsberechnung mit SPSS|3.2.2.1 Häufigkeitsberechnung mit SPSS]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2 Skalenniveaus|3.1.2 Skalenniveaus]]<br />
+
::[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.2.2 Grafische Darstellung mit SPSS|3.2.2.2 Grafische Darstellung mit SPSS]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.1 Skalierungsniveaus bildlich erklärt|3.1.2.1 Skalierungsniveaus bildlich erklärt]]<br />
+
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.3 Klassenbildung (Gruppierung) von Daten|3.2.3 Klassenbildung (Gruppierung) von Daten]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.2 Nominalskalierung|3.1.2.2 Nominalskalierung]]<br />
+
::[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.3.1 Gruppierung mit SPSS|3.2.3.1 Gruppierung mit SPSS]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.3 Ordinalskalierung|3.1.2.3 Ordinalskalierung]]<br />
+
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.4 Häufigkeitsdarstellung bei Mehrfachantworten mit SPSS|3.2.4 Häufigkeitsdarstellung bei Mehrfachantworten mit SPSS]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.4 Intervallskalierung|3.1.2.4 Intervallskalierung]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.5 Proportionalskalierung|3.1.2.5 Proportionalskalierung]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.6 Skalierungstypen, Aussagen und Methoden|3.1.2.6 Skalierungstypen, Aussagen und Methoden]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|3.1.3 Verteilungen]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.1 Normalverteilung|3.1.3.1 Normalverteilung]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.2 Andere Verteilungsformen|3.1.3.2 Andere Verteilungsformen]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3 Test auf Normalverteilung|3.1.3.3 Test auf Normalverteilung]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.1 Optischer Nachweis einer Normalverteilung: das Histogramm|3.1.3.3.1 Optischer Nachweis einer Normalverteilung: das Histogramm]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.2 Nachweis der Normalverteilung: Kolmogorov-Smirnov-Test|3.1.3.3.2 Nachweis der Normalverteilung: Kolmogorov-Smirnov-Test]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.2.1 Kolmogorov-Smirnov-Test mit SPSS|3.1.3.3.2.1 Kolmogorov-Smirnov-Test mit SPSS]]<br />
 
 
</div>
 
</div>
  
== 3.1.1 Arten von Messwerten (Daten) ==
+
== 3.2.1 Liste und Tafeln ==
  
Statistisch unterscheidet man Daten
+
==== '''Urliste''' ====
  
* in welcher Weise die Umsetzung in numerische Werte zur sinnvollen Ordnung und weiteren möglichen Erkenntnissen führt: '''metrische und nichtmetrische Variable''';
+
Aufgenommene '''Messwerte''' sind anfangs ungeordnet. Denken Sie z.B. an 30 Personen, deren Alter Sie abgefragt haben, ohne die Einträge größenmäßig zu ordnen. Diese '''ungeordnete Liste''' wird als so genannte '''Urliste''' bezeichnet. Eine '''Urliste''' ist die ungeordnete Aufzählung der Werte in der gleichen Reihenfolge, in der sie während der Abfrage aufgenommen wurden.
* über die Abstufungen ihrer Ausprägungen: '''stetige und diskrete Variable'''
 
  
 +
'''Beispiel: Kinderzahl von Befragten'''
  
-----
+
[[File:quantitative-64_1.jpg|frame|center|Beispiel für eine Urliste - Kinderanzahl der Befragten]]
  
=== 3.1.1.1 Metrische und nichtmetrische Variablen  ===
+
==== '''Primäre Tafel''' ====
  
==== '''Metrische und nichtmetrische Variablen''' ====
+
Wesentlich übersichtlicher ist bereits die '''primäre Tafel, in welcher die Ausprägungen sortiert werden.''' Sie gibt deutlich mehr Aufschluss über die Charakteristiken der Daten. Hier ist auf einen Blick erkennbar, dass die Messwerte 1 und 2 am häufigsten vorkommen:
  
Prinzipiell können wir zwischen '''metrischen''' und '''nichtmetrischen''' '''Variablen''' unterscheiden. Als '''metrische''' Merkmale (auch '''quantitative''' genannt) bezeichnet man '''Merkmale''', deren '''Ausprägungen''' sich mittels Zahlen darstellen lassen, wobei auch '''Rangunterschiede und Abstand sinnvoll interpretiert''' werden können. Als '''nichtmetrische Variablen''' werden dementsprechend alle anderen bezeichnet.
+
[[File:quantitative-64_2.jpg|frame|center|Beispiel für eine Primäre Tafel - Kinderanzahl der Befragten]]
  
'''Beispiele:'''<br />
+
Dennoch ist auch eine '''Primäre Tafel''' im Vergleich mit einer Häufigkeitstabelle wenig übersichtlich.
Wir können somit z.B. Körpergrößen sinnvoll reihen (von klein nach groß mit beliebig feinen Abstufungen) und auch Größenunterschiede vernünftig interpretieren. Fragen wir hingegen nach dem Lieblingsobst, wird die Reihung der Ergebnisse willkürlich sein und meist alphabetisch erfolgen. Theoretisch könnte man jedem Obst einen Zahlenwert zuweisen, dieser wird jedoch nichts über den dahinterliegenden Wert aussagen, also zufällig mit diesem verbunden sein. Ränge, wie z.B. der Beliebteste, der Zweitbeliebteste, der Drittbeliebteste usw. lassen sich zwar sinnvoll reihen, ihre Abstände lassen sich aber nicht interpretieren. D.h. wir können nicht sagen, dass der Drittbeliebteste gegenüber dem Viertbeliebtesten den gleichen Abstand hat wie der Beliebteste gegenüber dem Zweitbeliebtesten. '''Daher sind sowohl Nominaldaten (wie das erwähnte Obst) wie auch Ordinaldaten nichtmetrisch.'''
 
  
  
-----
+
== 3.2.2 Häufigkeitstabelle ==
  
=== 3.1.1.2 Stetige und diskrete Variablen  ===
+
'''Häufigkeitstabellen''' zeigen in tabellarischer Form die '''Ausprägungen einer Variablen verbunden mit deren Häufigkeit.''' Sie sind weit übersichtlicher als '''Listen''' und '''Tafeln'''.
  
'''Stetige und diskrete Variablen'''
+
Dabei trägt man in der 1. Spalte die Messwerte ein (wie z.B. Kinderzahl oder hier Ländernamen), in der 2. Spalte die absolute Häufigkeit der Messwerte (durchzählen, wie oft z.B. Frankreich genannt wird) und in Spalte 3 berechnet man die ''relative Häufigkeit''. Die relative Häufigkeit errechnet man folgendermaßen: man nimmt die absolute Häufigkeit eines Messwertes (z.B. waren 16 FranzösInnen beim Kongress), dividiert diesen durch die Summe der Messwerte (hier insgesamt 50 anwesende WissenschaftlerInnen) und multipliziert das Ergebnis mit 10 (um auf Prozentwerte zu kommen). Für FranzösInnen daher 16/50*100=32 %. [[File:quantitative-65_1.jpg|frame|center|Häufigkeitstabelle - Herkunft der WissenschaftlerInnen eines Kongreß]]
  
Metrische Daten können ebenfalls wieder unterschieden werden, nämlich in
+
==== '''Akkumulierte Häufigkeit''' ====
  
* '''stetige oder kontinuierliche, wenn sie jeden beliebigen Wert eines bestimmten Intervalls annehmen können''' (z.B. Körpergröße 175,33 cm, Temperatur); und
+
Wenn keine '''Nominalskalierung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.2 Nominalskalierung|[1]]]''' vorliegt, ist auch die Darstellung der '''akkumulierten Häufigkeit''' sinnvoll. Sie gibt Auskunft über die '''Häufigkeit''' aller Messwerte, die bis zu einem bestimmten Niveau auftreten.
* '''diskrete, wenn sie nur endlich viele Werte annehmen können''' (z.B. Augenzahl beim Würfeln, Anzahl der Kinder)
 
  
 +
Man errechnet sie folgendermaßen: Man zählt alle relativen Häufigkeiten zusammen, die einschließlich dieser Zeile auftraten: Die akkumulierte Häufigkeit für die Note 3 (= alle EthnologInnen, die zumindest die Note 3 erhielten) wäre daher: 19,2 % + 21,8 % + 28,2 % = 69,2 %.
  
== 3.1.2 Skalenniveaus ==
+
[[File:quantitative-65_2.jpg|frame|center|Häufigkeitstabelle - Noten von EthnologInnen]]
  
'''Skalenniveaus''' (von ''scala'' ital. ’Treppe’) sind eindimensionale Folgen von Positionen, die unterschiedliche Ausprägungen eines Merkmals anzeigen.
+
Eine derartige '''Häufigkeitstabelle''' kann, wie vorhin beschrieben, auch mehrdimensional sein ('''multivariabel'''): [[File:quantitative-65_3.jpg|frame|center|mehrdimensionale Häufigkeitstabelle Integrationserfolge und Nationalsprache von AfrikanerInnen]]
  
Jede Variable kann einer bestimmten Form von '''Skalierung''' zugeordnet werden. Nach der Möglichkeit, die Ausprägungen sinnvoll zu reihen und bestimmte mathematische Operationen durchzuführen, unterscheidet man zwischen vier verschiedenen Skalierungsniveaus: '''Nominalskalierung, Ordinalskalierung, Intervallskalierung''' und '''Proportionalskalierung'''.
+
Eine Häufigkeitstabelle hat folgende Vorzüge:
  
Je nach Skalierungsniveau können sehr viele Analyseverfahren (wie bei der '''Proportionalskalierung''') oder sehr wenige Verfahren (wie bei der '''Nominalskalierung''') zur Auswertung eingesetzt werden. Daher ist die Wahl der Art der Daten und '''Skalenniveaus''' bereits bei der Forschungskonzeption zu berücksichtigen.
+
* Sie ist übersichtlicher als eine Urliste
 +
* Sie ist kürzer als eine primäre Tafel
 +
* Sie ist ökonomisch
 +
* Sie erlaubt eine leichte Beurteilung der Verteilung
 +
* Trotz dieser Vorteile tritt kein Informationsverlust auf.
  
  
-----
 
  
=== 3.1.2.1 Skalierungsniveaus bildlich erklärt  ===
+
'''Verweise:'''<br />
 
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.2 Nominalskalierung|[1] Siehe Kapitel 3.1.2.2]]<br />
Die technische Definition der '''Skalierungsniveaus''' hat den Nachteil, dass viele Menschen sich unter ihnen nichts vorstellen können. Machen wir es etwas anschaulicher und auch mit Treppen.
 
 
 
Stellen Sie sich vor, Tischler sehr unterschiedlicher Begabung und Erfahrung würden Stufen für eine Treppe bauen.
 
 
 
==== '''Nominalskala:''' ====
 
 
 
Wir hätten zuerst den Amateurtischler, welcher extrem ungleichförmige Stufen baut. Die eine Stufe ist links viel höher als rechts, die andere hinten höher als vorne. Keine einzige ist so gleichförmig, dass sie überall höher ist als alle anderen, keine einzige ist so gleichförmig, dass sie überall niedriger ist als alle anderen. Mit anderen Worten: wir können die Stufen beliebig hintereinander reihen. Wir finden keinen eindeutigen logischen und zwingenden Ansatz zur Reihung. Nehmen wir die Höhe links, würden wir die Stufe A vor der Stufe B vor der Stufe C reihen; nehmen wir die Höhe rechts, die Stufe B vor der Stufe C vor der Stufe A; nehmen wir die Höhe vorne etc.
 
 
 
'''Eine derartige Treppe, die sich beliebig zusammensetzen lässt und eigentlich gar keine Treppe ist''', weil man auf ihr nicht höher steigen kann, würde der '''Nominalskala''' entsprechen: Was besitzt man: Äpfel, Birnen, ein Auto, einen Hund etc.
 
 
 
==== '''Ordinalskala:''' ====
 
 
 
Der Tischler wird nun etwas geschickter. Er schafft es, die Stufen jeweils unterschiedlich hoch zu machen und zwar überall. Die Stufe B ist 1,2x so hoch wie die Stufe A, die Stufe C doppelt so hoch wie die Stufe B, die Stufe D 3x so hoch wie die Stufe C, die Stufe E 1,3x so hoch wie die Stufe D. '''Es ist nicht vorauszusagen, um wieviel die nächsthöhere Stufe höher sein wird, aber man weiß, sie ist höher'''. Es ist ein beschwerlicher Aufstieg, aber es ist ein Aufstieg. Das würde einer '''Ordinalskala''' entsprechen. Ein Beispiel dafür wäre eine Notenskala. Man weiß zwar nicht, um wieviel besser ein Schüler mit einem Sehr Gut als ein Schüler mit einem Gut war, aber dass es einen Unterschied gegeben hat, erscheint klar zu sein (außer der Lehrer war bekannt subjektiv, was vorkommen soll).
 
 
 
==== '''Intervallskala:''' ====
 
 
 
Der Tischler wird noch geschickter. er schafft es sogar alle Stufen jeweils um 30 cm höher zu machen als die jeweils vorausgegangene. Man kann nun blind die Stufen hinaufgehen, weil man die Abstände kennt. Das Problem: Die Stiege steht auf einem Schiff, welches im Mittelmeer herumfährt. Ich weiss nun zwar, dass ich 30 cm höher steige, wenn ich eine Stufe hinaufschreite und 90, wenn ich drei Stufen hinaufschreite, aber ich kann nicht angeben, in welcher Höhe über dem Meeresboden ich mich befinde. Sind es 150 m, sind es 300? Dadurch kann ich auch nicht angeben, ob ich mich auf der übernächsten Stufe doppelt so hoch befinde wie jetzt. '''Ich kann zwar mit fixen Abständen rechnen, aber ich habe keinen absoluten Nullpunkt''' (wo es nicht mehr tiefer geht, wie zum Meeresboden) zum Vergleich und daher kann ich nicht angeben, um wieviel höher ich sein werde, wenn ich x Stufen höhersteige. Dies nennt man eine '''Intervallskala''', die Stufen werden in gleichen Intervallen höher.
 
 
 
Ein Beispiel dafür wäre unsere Temperaturskala in Celsius, wo wir nicht vom absoluten Nullpunkt ausgehen (das wäre der Meeresboden oder - 273 Grad Celsius), sondern von einem willkürlichen (nämlich vom Schiffsboden aus oder 0 Grad). Daher ist die Aussage, 10 Grad ist 5 Grad wärmer als 5 Grad richtig, aber die Aussage falsch, dass es damit doppelt so warm ist, denn tatsächlich hätte ich ein Verhältnis von 283 Grad: 278 Grad (vom absoluten Nullpunkt aus gemessen).
 
 
 
==== '''Proportionalskala:''' ====
 
 
 
Wenn wir die gleiche Stiege wie bei der Intervallskala nun an Land bringen und sie auf festen Boden stellen, dann können wir von einer '''Proportionalskala''' sprechen. Endlich können wir, wenn wir uns auf der dritten Stufe befinden, nicht nur sagen, wir sind jetzt 60 cm höher als auf der ersten. Wir können auch endlich die '''Verhältni'''ss'''e richtig interpretieren'''. Wir können nun auch korrekt angeben, dass wir uns jetzt auf der dritten Stufe dreimal so hoch wie auf der ersten Stufe befinden (mit dem festen Boden als absolutem Nullpunkt, unter den kein Abstieg möglich ist). Dies ist nun eine Proportionalskala. Ein Beispiel dafür wären Körpergrößen. Jemand, der 1,80 m groß ist, ist doppelt so groß wie jemand, der 90 cm groß ist.
 
  
  
 
-----
 
-----
  
=== 3.1.2.2 Nominalskalierung ===
+
=== 3.2.2.1 Häufigkeitsberechnung mit SPSS ===
  
Bei der '''Nominalskalierung''' handelt es sich um eine Klassifizierung von Objekten, bei welcher '''keinerlei sinnvolle Rangreihung möglich''' ist, weshalb meist zur alphabetischen Reihung gegriffen wird. Größer und kleiner, mehr oder weniger wichtig, mehr oder weniger ausgeprägt kann nicht unterschieden werden. Jede Reihung ist gleich sinnvoll.
+
Die Berechnung von Häufigkeiten mit '''SPSS''' erfolgt folgendermaßen:
  
Beispiele für '''Nominalskalierungen''' wären Zeitungen, die man liest; das Obst, das man isst; das Geschlecht von ProbandInnen; die Farben von Kleidungsstücken etc.
+
A. Klicken Sie in der Menüleiste auf ANALYSIEREN - DESKRIPTIVE STATISTIKEN - HÄUFIGKEITEN.
  
 +
B. Fügen Sie im Feld ''Variablen'' die Variable ein, von der Sie eine Häufigkeitstabelle erstellen möchten.
  
-----
+
C. Klicken Sie auf OK.
  
=== 3.1.2.3 Ordinalskalierung  ===
+
Sie erhalten dann z.B. folgende Ausgabe:
  
Bei der '''Ordinal- oder Rangskalierung''' werden Gegenstände oder Sachverhalte miteinander verglichen und '''nur der Größe oder Intensität entsprechend gereiht'''. Eine Rangreihung ist möglich und sinnvoll, '''jedoch können die Abstände nicht interpretiert werden''', d.h. der Abstand vom Zweit- zum Drittgrößten kann anders sein als vom Dritt- zum Viertgrößten.
+
[[File:quantitative-66_1.gif|frame|center|Häufigkeitsberechnung mit SPSS - Beispiel Wohnbezirk]]
  
Beispiele wären die Beliebtheit von SchülerInnen (hier kann ich diese eindeutig danach reihen), die Sympathie für Zuwanderer etc.
+
Sie sehen, dass '''SPSS''' in der ersten Spalte die Ausprägungen der Variable anbietet, in der Spalte '''Häufigkeit''' die '''absolute Häufigkeit''', mit welcher diese Ausprägung auftritt. Unter '''Prozent''' finden Sie die prozentuellen Anteile der absoluten Häufigkeiten der Ausprägungen an der Stichprobengröße (N ist hier 154).
  
==== '''Schulnoten ordinal- oder intervallskaliert?''' ====
+
Links unten sehen Sie das Label ''Fehlend''. Hier wird die Zahl der bei dieser Frage nicht vorhandenen Antworten vermerkt (Im Fall dieser Stichprobe haben 23 Personen diese Frage nicht beantwortet). Da daher die eigentliche Größe der Stichprobe bei 131 liegt (154 weniger 23 Nichtbeantwortende), verändern sich auch die realen Prozentwerte, wie in der Spalte ''Gültige Prozente'' ersichtlich. Die Spalte '''Kumulierte Prozente''' gibt die in Prozenten ausgedrückte akkumulierte Häufigkeit an und basiert ebenfalls auf den bereinigten Werten (also minus die Null- Einträge).
  
Schulnoten werden von vielen behandelt, wie wenn sie zur '''Intervallskalierung''' gehören würden, in welcher Abstände interpretiert werden können. Daher errechnen viele zur Beurteilung der Qualität einer Klasse das arithmetische Mittel von Noten, was man jedoch nur bei zumindest intervallskalierten Variablen machen sollte. Überlegen wir: Falls Schulnoten intervallskaliert wären, müsste der Abstand von einer Schulnote zur nächstbesseren/- schlechteren einem präzisen und stabilen Leistungsunterschied zwischen SchülerInnen entsprechen. Oft ’steht’ man jedoch zwischen zwei Noten, die PrüferIn muss sich dennoch für eine entscheiden. Auch wenn alle SchülerInnen einer extrem begabten Klasse eine sehr gute Arbeit abgeben, wird die PrüferIn dennoch meistens versuchen, zwischen ihnen durch unterschiedliche Noten zu differenzieren, um die Motivation und den anspornenden Wettbewerb hochzuhalten. Daher gibt es trotz des offiziellen objektiven Anspruchs von Schulnoten einen zu hohen subjektiven Einfluss, um sie als '''intervallskalierte''' Variablen behandeln zu können.
+
Bereits in der Standard-Vorgabe rechnet SPSS daher alle für eine '''Häufigkeitstabelle''' notwendigen Analysen. Werfen Sie auch einen Blick auf die fakultativen Auswahlmöglichkeiten unter '''Statistik und Diagramme'''. SPSS kann mit wenigen Arbeitsgängen äußerst umfangreiche Berechnungen durchführen.
  
  
 
-----
 
-----
  
=== 3.1.2.4 Intervallskalierung ===
+
=== 3.2.2.2 Grafische Darstellung mit SPSS ===
 
 
Bei der '''Intervallskalierung''' nimmt man '''gleiche Abstände (Intervalle)''' zwischen benachbarten '''Ausprägungen''' an, aber einen nur relativen und keinen absoluten '''Nullpunkt'''. Es kann zwar der Abstand zwischen den Werten interpretiert werden, nicht aber das Verhältnis der Werte zueinander.
 
 
 
Ein Beispiel für eine Intervallskala ist z.B. die Temperatur in Celsius. Es wäre falsch, anzunehmen, dass 10 Grad doppelt so warm sind wie 5 Grad. Bezogen auf den '''absoluten Nullpunkt''' (- 273 Grad) wäre das Verhältnis zwischen 10 Grad und 5 Grad genau 268:263.
 
 
 
  
-----
+
Klicken Sie auf ANALYSIEREN - DESKRIPTIVE STATISTIK - HÄUFIGKEITEN und wählen Sie dort die Variable aus, deren Häufigkeitsverteilung Sie grafisch darstellen möchten.
  
=== 3.1.2.5 Proportionalskalierung  ===
+
Klicken Sie dann auf Diagramme. Sie haben nun die Auswahlmöglichkeit zwischen '''Balkendiagrammen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.3 Balkendiagramme|[1]]]''', '''Kreisdiagrammen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.1 Kreisdiagramme|[2]]]''' und '''Histogrammen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[3]]]'''. Je nach Datenlage sollten Sie unterschiedliche Diagrammtypen heranziehen. Siehe dazu den Punkt '''Diagramme[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.2 Welches Diagramm für welche Daten?|[4]]]'''.
 
 
Bei der '''Verhältnis- oder Proportionalskalierung''' gibt ''es'' einen '''absoluten Nullpunkt'''. '''Sowohl der Abstand zweier Werte wie auch ihr Verhältnis zueinander können interpretiert werden'''. Ein Baum mit einer Höhe von 3,6 Metern ist doppelt so hoch wie ein Baum mit einer Höhe von 1,8 Metern.
 
 
 
'''Beispiele''' für diese Form der Skalierung wären z.B. Körpergrößen, der Vitamingehalt von Früchten; der Wassergehalt von Körpern oder die Entfernung von Orten.
 
 
 
 
 
-----
 
 
 
=== 3.1.2.6 Skalierungstypen, Aussagen und Methoden  ===
 
 
 
Die unterschiedlichen Skalierungsformen lassen unterschiedliche Analysemethoden zu:
 
 
 
[[File:quantitative-55_1.jpg|frame|center|Unterschiedliche Skalierungsformen, mögliche Aussagen und Analysemethoden mit Beispielen]]
 
 
 
'''Metrische Merkmale[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.1 Metrische und nichtmetrische Variablen|[1]]]''' finden sich bei '''Intervall'''- und '''Proportionalskalierung''', '''nichtmetrische''' bei '''Nominal- und Ordinalskalierung'''.
 
  
  
  
 
'''Verweise:'''<br />
 
'''Verweise:'''<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.1 Metrische und nichtmetrische Variablen|[1] Siehe Kapitel 3.1.1.1]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.3 Balkendiagramme|[1] Siehe Kapitel 3.6.1.3]]<br />
 
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.1 Kreisdiagramme|[2] Siehe Kapitel 3.6.1.1]]<br />
== 3.1.3 Verteilungen ==
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[3] Siehe Kapitel 3.6.1.5]]<br />
 
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.2 Welches Diagramm für welche Daten?|[4] Siehe Kapitel 3.6.2]]<br />
'''(Häufigkeits-)Verteilungen''' geben Aufschluss über die Häufung aller Ausprägungen von Variablen. Man kann prinzipiell zwischen '''monovariablen''' und '''bivariablen Verteilungen''' unterscheiden.
 
 
 
'''Monovariable Verteilungen''' zeigen die '''Verteilung''' einer einzigen Variable, bei '''bivariablen Verteilungen''' werden die Häufigkeiten der einander entsprechenden Ausprägungen zweier Variablen aufgezählt, also z.B. 16 Personen sind sowohl weiblich wie auch Raucherinnen, 13 Personen männnlich und Nichtraucher.
 
 
 
Verteilungen können sowohl '''tabellarisch''' wie auch grafisch in Form von '''Diagrammen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6 Die grafische Darstellung statistischer Ergebnisse|[1]]]''' dargestellt werden.
 
 
 
Zur tabellarischen Darstellung gelangt man, indem man die Werte (nach Möglichkeit sinnvoll) reiht und daneben die jeweilige Häufigkeit der Werte einträgt.
 
 
 
[[File:quantitative-56_1.jpg|frame|center|Darstellung von Verteilungen]]
 
 
 
Zur grafischen Form gelangt man, wenn man in einem '''Diagramm''' auf der x- Achse die Ausprägung von Werten einträgt (z.B. die Körpergröße einer Person x) und auf der y- Achse deren Häufigkeit (= Zahl der Personen, welche genau diese Körpergröße aufweisen), dann können wir die Schnittpunkte mit Linien verbinden, wodurch sich eine Verteilungskurve ergibt. Die Standard- Darstellungsform dafür ist das '''Streudiagramm[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.6 Streudiagramme|[2]]]'''.
 
 
 
Verschiedene Verfahren erforden eine vorliegende Normalverteilung, die mit verschiedenen Prozeduren abschätzbar ist.
 
 
 
 
 
  
'''Verweise:'''<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6 Die grafische Darstellung statistischer Ergebnisse|[1] Siehe Kapitel 3.6]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.6 Streudiagramme|[2] Siehe Kapitel 3.6.1.6]]<br />
 
  
 +
== 3.2.3 Klassenbildung (Gruppierung) von Daten ==
  
-----
+
Unter der '''Gruppierung von Daten''' verstehen wir die '''Zusammenfassung von verschiedenen Ausprägungen zu Klassen'''. Eine Klasse ist die '''Menge sämtlicher Messwerte''', die '''innerhalb festgelegter Grenzen''' liegen. Dadurch kann die '''Häufigkeitsverteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1]]]''' einer Variablen mit einer Vielzahl unterschiedlicher Ausprägungen übersichtlicher dargestellt werden.
  
=== 3.1.3.1 Normalverteilung  ===
+
'''Beispiel: Gemessene Körpergrößen und Umwandlung in Klassen'''<br />
 +
Ein Beispiel wären Größenangaben in cm. Wollte man statistische Aussagen über die Körpergrößen von ÖsterreicherInnen machen, müsste man wahrscheinlich (bei einem Alter ab 14) etwa 90 verschiedene Werte angeben (von 1,20 bis 2,19). Eine derartige Tabelle wäre unübersichtlich und würde über mehrere Seiten führen:
  
Von einer Normalverteilung sprechen wir, wenn
+
[[File:quantitative-68_1.jpg|frame|center|Gemessene Körpergrößen]]
  
* die größte Häufigkeit in der Nähe des '''arithmetischen Mittel[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|[1]]]''' auftritt und somit das arithmetische Mittel annähernd mit dem '''Median[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.3 Median|[2]]]''' und mit dem '''Modalwert[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.1 Modalwert|[3]]]''' zusammenfällt;
+
Viel übersichtlicher wäre es aber, diese 100 verschiedenen Ausprägungen zu '''Klassen''' von benachbarten Messwerten zusammenzufassen. Treten extrem viele unterschiedliche Ausprägungen auf, sind 10-19 Klassen sinnvoll. Wählt man bei diesem Beispiel 10 Klassen, fallen jeweils 10 Messwerte in eine Klasse (100:10=10): [[File:quantitative-68_2.jpg|frame|center|In Klassen eingeteilte Körpergrößen]]
* die '''Häufigkeiten[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.2 Nachweis der Normalverteilung: Kolmogorov-Smirnov-Test|[4]]]''' der Werte umso mehr abnehmen, je weiter sie sich vom Mittelwert entfernen;
 
* wenn sowohl links wie rechts des Mittelwerts eine '''prinzipielle Symmetrie''' vorliegt;
 
* wenn die '''Verteilungskurve glockenförmig''' ist.
 
  
Eine Normalverteilung sieht wie in der folgenden Grafik aus:
+
Die '''Klassenbreite''' ist bei '''diskreten Variablen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.2 Stetige und diskrete Variablen|[2]]]''' die Anzahl der in der Klasse zusammengefassten Messwerte. Berechnet wird sie mit: ''Höchster Wert der Klasse'' minus ''höchstem Wert der vorausgegangenen Klasse'' (hier also mit z.B. 1,89 m- 1,79 m= 0,10 m).
  
[[File:quantitative-57_1.gif|frame|center|Grafische Darstellung einer Normalverteilungskurve]]
+
Die ''(exakten)'' '''Klassengrenzen (Intervallgrenzen)''' sind die kleinsten bzw. größten Messwerte einer Klasse (hier also z.B. 1,70 m und 1,79999 =1,8 m).
  
Die im Diagramm verlaufende Kurve gibt die Häufigkeit der jeweiligen Werte an. Man sieht, dass die größten Häufigkeiten beim Mittelwert auftreten (0), die geringsten Häufigkeiten an den Extremen, wobei die Kurve glockenförmig verläuft (so genannte Gauß’sche Glockenkurve).
+
Bei richtiger '''Klassenbreite''' sollten keine leeren Klassen (Häufigkeit = 0) auftreten. Um Ausreißer mitbehandeln zu können, könnte man die untersten und obersten Klassen offen machen: z.B. „kleiner als 1,30 m“ statt „1,20-1,29 m“ bzw. „größer als 2,09 m“ statt „2,10-2,19 cm“.
  
Dies wäre eine optimale Normalverteilung.
+
Die '''Klassenmitte''' ist der Durchschnitt des kleinsten und des größten Wertes einer Klasse. Die Klassenmitte von 1,50-1,5999 periodisch wäre daher 1,55 m. Die Klassenmitte wird für spätere Berechnungen von Bedeutung sein (z.B. für Durchschnittsberechnungen).
  
  
  
 
'''Verweise:'''<br />
 
'''Verweise:'''<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|[1] Siehe Kapitel 3.3.2]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1] Siehe Kapitel 3.1.3]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.3 Median|[2] Siehe Kapitel 3.3.3]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.2 Stetige und diskrete Variablen|[2] Siehe Kapitel 3.1.1.2]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.1 Modalwert|[3] Siehe Kapitel 3.3.1]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.2 Nachweis der Normalverteilung: Kolmogorov-Smirnov-Test|[4] Siehe Kapitel 3.1.3.3.2]]<br />
 
  
  
 
-----
 
-----
  
=== 3.1.3.2 Andere Verteilungsformen ===
+
=== 3.2.3.1 Gruppierung mit SPSS ===
  
Neben der Normalverteilung können viele andere Verteilungsformen auftreten.
+
In vielen Fällen, besonders bei '''stetigen Variablen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.2 Stetige und diskrete Variablen|[1]]]''', wird die Zahl der Ausprägungen einer Variablen so groß sein, dass '''Häufigkeitsverteilungen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[2]]]''' unübersichtlich werden. Im folgenden Beispiel wurde die Altersverteilung der Antwortenden abgefragt:
  
Oft sind die Verteilungen '''schief''', man unterscheidet dann zwischen '''linksschiefen''' oder '''rechtsschiefen Verteilungen.'''
+
[[File:quantitative-69_1.gif|frame|center|Häufigkeitsverteilung des Alters der Befragten]]
  
Bei der '''linksschiefen''' Verteilung ('''negative skew''') liegt der höchste Punkt der Verteilung rechts (d.h. hier befindet sich der Großteil der Einträge), während nach links ein langgezogener Abfall eintritt (d.h. es treten dort selten verwendete Extremwerte auf). In '''linksschiefen''' Verteilungen ist der '''Median[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.3 Median|[1]]]''' größer als das '''arithmetische Mittel[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|[2]]]'''.
+
Es wäre deutlich übersichtlicher, diese Werte in eine kleine Zahl von Klassen umzukodieren. Dazu benützen Sie die Funktion TRANSFORMIEREN - '''UMCODIEREN[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.3.2 Umcodierung mit SPSS|[3]]]''' in der Menüleiste. Nun können Sie sich entscheiden zwischen einer Umcodierung in die ''gleiche'' oder in ''eine andere Variable''. Es ist besser, sich für ''eine andere Variable'' zu entscheiden, da durch die '''Umcodierung''' (man kann auch mehrere Werte zu einem einzigen neuen umcodieren) Informationsverlust auftreten kann (ob willentlich oder durch einen Bedienungsfehler). Dieses Problem wird durch ''Umcodierung in eine neue Variable'' ausgeschlossen.
  
[[File:quantitative-58_1.jpg|frame|center|Grafische Darstellung einer linkschiefen Verteilung]]
+
Sie wählen nun die Variable aus, welche umcodiert werden soll und geben im Feld ''Ausgabevariable'' einen neuen Namen dafür ein, der aus Gründen der Kompatibilität mit älteren Programmen acht Zeichen nicht überschreiten darf. Im Feld darunter können Sie jedoch einen beliebig langen und expressiveren Namen wählen.
  
Bei der '''rechtsschiefen Verteilung''' ('''positive skew''') finden wir die überwiegende Mehrzahl der Einträge auf der linken Seite und damit auch den höchsten Punkt der Kurve, während nach rechts wenige Einträge auftauchen. Typisch für eine derartige '''Verteilung''' ist die Einkommensverteilung sozial ungerechter Länder, in welchen wenigen MultimilliardärInneen viele KleinverdienerInnen gegenüberstehen. In '''rechtsschiefen''' Verteilungen ist der '''Median''' kleiner als das '''arithmetische Mittel'''.
+
Klicken Sie nun auf ''Alte und neue Werte''. Da Sie mehrere (numerische) Werte zu einem einzigen neuen zusammenfassen möchten, können Sie jeweils einen Bereich angeben (z.B. ''Bereich'' 20 ''bis'' 29), wenn Sie alle zwischen 20- 29jährigen in eine einzige Altersklasse ’zwischen 20 und 30 einbringen möchten’). Klicken Sie nach jeder einzelnen Angabe zur Umcodierung auf ''Hinzufügen.'' Für die unterste Klasse (alle unter 20jährigen wählen Sie ''Bereich, KLEINSTER bis Wert:'' (hier würden Sie 19 eingeben). Für die über 70jährigen bilden Sie eine offene Klasse, dazu wählen Sie ''Bereich, Wert bis GRÖSSTER:'' und geben hier 70 ein.  
  
[[File:quantitative-58_2.jpg|frame|center|Grafische Darstellung einer rechstschiefen Verteilung]]
+
[[File:quantitative-69_2.jpg|frame|center|Umkodieren in andere Variablen mit SPSS]]
  
Verteilungen können auch mehrere Gipfel aufweisen:
+
Klicken Sie am Ende auf Weiter und dann auf OK. Ihre Daten werden nun in die neue Variable umcodiert.
  
[[File:quantitative-58_3.jpg|frame|center|Bimodale Verteilung]]
+
Die neue Häufigkeitstabelle sieht jetzt folgendermaßen aus:
  
Diese Verteilung weist insgesamt zwei Gipfel auf. Sie wird als bimodal (zweigipfelig) bezeichnet.
+
[[File:quantitative-69_3.gif|frame|center|Häufigkeitstabelle der umkodierten Altersverteilung]]
  
[[File:quantitative-58_4.jpg|frame|center|Rechteckige Verteilung]]
+
Nun müssen wir die neuen Werte, ausschließlich für die Ausgabe von '''SPSS''', '''rückcodieren''', um die Tabelle informativer zu machen, da wir nicht sofort erkennen können, dass ''0'' für ’unter 20’ steht. Damit SPSS intern mit den numerischen Daten rechnen kann, wir jedoch bei allen Ausgaben ('''Diagramme[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6 Die grafische Darstellung statistischer Ergebnisse|[4]]]''', Analysen etc.) informative Bezeichnungen erhalten, klicken wir in SPSS unten links auf die ''Variablenansicht.'' Im neuen Fenster finden wir bei der neuen Variable das Attribut ''Variablenlabel.'' Nach Doppelklick darauf erscheint folgendes Fenster:
  
Diese Verteilung ist rechteckig. Sie könnte bei einer kleinen '''Stichprobe[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.1 Die Stichprobe Sample|[3]]]''' auftreten, wenn fast alle Werte die gleiche '''Häufigkeit[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.2 Nachweis der Normalverteilung: Kolmogorov-Smirnov-Test|[4]]]''' aufweisen.
+
[[File:quantitative-69_4.jpg|frame|center|Wertelabels definieren mit SPSS]]
  
[[File:quantitative-58_5.jpg|frame|center|U-förmige, bimodale Verteilung]]
+
Wir geben nun die gewünschten Labels für die numerischen Daten ein, also z.B. ''20-29'' für die Zahl 1 usw. Nach Eingabe aller automatisch durchzuführenden Änderungen klicken wir auf OK.
  
Diese Verteilungsform ist '''u-förmig'''. Die Extremwerte kommen sehr häufig vor, während mittlere Ausprägungen fast nicht auftreten. Auch diese Verteilung ist '''bimodal''.'''''
+
Wenn wir nun die gleiche '''Häufigkeitsberechnung''' wie oben durchführen, erhalten wir nun folgende leichter verständliche Tabelle:
  
 
+
[[File:quantitative-69_5.gif|frame|center|Häufigkeitstabelle mit Klassenlabels]]
  
  
  
 
'''Verweise:'''<br />
 
'''Verweise:'''<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.3 Median|[1] Siehe Kapitel 3.3.3]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.2 Stetige und diskrete Variablen|[1] Siehe Kapitel 3.1.1.2]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|[2] Siehe Kapitel 3.3.2]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[2] Siehe Kapitel 3.1.3]]<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.1 Die Stichprobe Sample|[3] Siehe Kapitel 2.1.1]]<br />
+
[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.3.2 Umcodierung mit SPSS|[3] Siehe Kapitel 2.2.3.2]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.2 Nachweis der Normalverteilung: Kolmogorov-Smirnov-Test|[4] Siehe Kapitel 3.1.3.3.2]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6 Die grafische Darstellung statistischer Ergebnisse|[4] Siehe Kapitel 3.6]]<br />
 
 
 
 
-----
 
 
 
=== 3.1.3.3 Test auf Normalverteilung  ===
 
 
 
Verschiedene Verfahren sind nur sinnvoll anwendbar, falls annähernd eine '''Normalverteilung''' der Daten vorliegt. Dazu gehört z.B. die '''Maßkorrelation[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Korrelation#3.5.3.1 Maßkorrelation|[1]]]''', aber auch das '''arithmetische Mittel[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|[2]]]''' ist nur wenig aussagekräftig, wenn die '''Verteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[3]]]''' der Daten durch '''Ausreißer''' und '''extreme Schiefe''' geprägt sind.
 
  
Für den Nachweis einer '''Normalverteilung''' kann auf drei wesentliche Methoden zurückgegriffen werden:
+
== 3.2.4 Häufigkeitsdarstellung bei Mehrfachantworten mit SPSS ==
  
* '''optisch''': Für die optische Abschätzung der '''Normalverteilung''' kann auf die grafische Wiedergabe (siehe oben, mit Statistik- Programmen z.B. mit der grafischen Darstellung des '''Histogramms[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[4]]]''') zurückgegriffen werden
+
Falls Sie bei einer Frage explizit Mehrfachantworten zugelassen haben, können Sie deren '''Häufigkeiten''' mit '''SPSS''' komfortabel tabellarisch darstellen.
* '''statistisch-mathematisch''' auf den '''Kolmogorov-Smirnov-Test''' (falls die Werte nicht in Klassen eingeteilt sind, besonders auch bei kleinen Stichproben)
 
* oder auf den '''Chi-Quadrat-Test (Wikipedia)[http://de.wikipedia.org/wiki/Chi-Quadrat-Test &#91;5&#93;]''' (bei in Klassen eingeteilten Daten)
 
  
==== '''Erkennung mit SPSS''' ====
+
==== '''1. Definition eines Mehrfachantwortensets''' ====
  
Diese verschiedenen und als eigene Unterpunkte angeführten Untersuchungen können unter '''SPSS''' auch gleichzeitig getätigt werden. Klicken Sie dazu auf ANALYSIEREN -> DESKRIPTIVE STATISTIKEN -> EXPLORATIVE DATENANALYSE. Wählen Sie dort unter ’Anzeige’ die Alternative ’Beide’ und unter ’Diagramm’ die Alternative ’Normalverteilungsdiagramm mit Tests’. Dann wird in der Bildschirmausgabe der Resultate ein eigener Punkt aufgeführt: ’Tests auf Normalverteilung’, von denen uns besonders der erste der beiden Tests interessiert '''’Kolmogorov-Smirnov’''' (eigentlich eine verschärfte Variante dieses Tests). Liegt der Wert, welcher unter ’Signifikanz steht’, unter 0,05, so ist mit 95 % Sicherheit eine Normalverteilung zu verwerfen, liegt er unter 0,01, sogar mit 99 % Sicherheit.
+
Sie müssen dazu zuerst ein ''(Mehrfachantworten-)Set'' definieren:
  
 +
Klicken Sie in der Menüleiste auf ANALYSIEREN - MEHRFACHANTWORT - SET DEFINIEREN. Dann öffnet sich folgendes Fenster:
  
 +
[[File:quantitative-70_1.jpg|frame|center|Definieren eines Mehrfachantwortensets mit SPSS]]
  
'''Verweise:'''<br />
+
Führen Sie bitte folgende Schritte durch:
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Korrelation#3.5.3.1 Maßkorrelation|[1] Siehe Kapitel 3.5.3.1]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|[2] Siehe Kapitel 3.3.2]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[3] Siehe Kapitel 3.1.3]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[4] Siehe Kapitel 3.6.1.5]]<br />
 
[http://de.wikipedia.org/wiki/Chi-Quadrat-Test &#91;5&#93; http://de.wikipedia.org/wiki/Chi-Quadrat-Test]<br />
 
  
 +
A. Sie wählen verschiedene dichotome Variable aus, die Sie in ''Variablen im Set'' einfügen;
  
-----
+
B. Tragen Sie unter ''Gezählter Wert'' die Zahl 1 ein (d.h. dass jede Ja-Stimme einen Punkt zählt);
  
=== 3.1.3.3.1 Optischer Nachweis einer Normalverteilung: das Histogramm  ===
+
C. Sie lassen die Standardauswahl ''Dichotomien'' bei ''Variablen kodiert als'';
  
Das '''Histogramm[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[1]]]''' liefert uns einen ersten und recht brauchbaren Eindruck, ob die von uns analysierten Daten weitgehend normalverteilt sind. Mit SPSS ist die Herstellung eines derartigen Diagramms ein Kinderspiel:
+
D. Sie wählen einen Kurznamen (max. acht Zeichen für das Set) und tragen ihn unter ''Name'' ein;
  
A. Klicken Sie in der Menüleiste auf GRAFIKEN
+
E. Sie tragen unter ''Beschriftung'' einen längeren Namen ein, welcher die Tabelle anschaulich beschriften soll.
  
B. Wählen Sie Histogramm
+
F. Klicken Sie nun auf Hinzufügen und letztendlich auf ''Schließen.''
  
C. Wählen Sie die zu untersuchende Variable aus
+
Das Set ist nun definiert, Sie können zur Analyse gehen:
  
D. Lassen Sie sich am besten auch die Normalverteilungskurve zu Vergleichszwecken hinzeichnen (mit Häkchen markieren).
+
==== '''2. Analyse''' ====
  
E. Klicken Sie auf OK
+
A. Klicken Sie auf ANALYSIEREN - MEHRFACHANTWORT - HÄUFIGKEITEN. Das folgende Fenster öffnet sich:
  
Dann erhalten Sie z.B. das folgende '''Histogramm''' (alle folgenden Histogramme und Analysen wurden von der SPSS-Datei world95.sav abgeleitet):
+
[[File:quantitative-70_2.jpg|frame|center|Häufigkeitsanalyse von Mehrfachantwortensets mit SPSS]]
  
[[File:quantitative-60_1.jpg|frame|center|Optischer Nachweis einer Normalverteilung mittels Histogramm]]
+
B. Wählen Sie das '''Mehrfachantworten-Set''', welches Sie angelegt haben und ziehen Sie es in das Feld ''Tabelle(n) für:''
  
Hier ist z.B. eine stärkere Abweichung von der '''Normalverteilung''' gegeben. Man beachte den großen Zwischenraum zwischen der Normalverteilungskurve und den tatsächlichen Werten bei einem Kalorien-Input von etwa 3000. Dennoch wäre auf dem 5-%-Signifikanz-Niveau die Annahme einer Normalverteilung mit dem '''Kolmogorov-Smirnov-Test[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.2 Nachweis der Normalverteilung: Kolmogorov-Smirnov-Test|[2]]]''' noch nicht widerlegt (wohl aber auf dem 10-%-Niveau).
+
C. Klicken Sie auf OK. Die Analyse wird durchgeführt:
 
 
Das folgende Diagramm zeigt eine noch deutlich stärkere Abweichung von der '''Normalverteilung''':
 
 
 
[[File:quantitative-60_2.jpg|frame|center|Grafische Darstellung einer stärkeren Abweichung von der Normalverteilung]]
 
 
 
In diesem Fall ist auch der '''Kolmogorov-Smirnov-Tes'''t hochgradig signifikant (sowohl auf dem 5-% wie auch auf dem 1-%-Niveau), weshalb die Annahme einer Normalverteilung verworfen werden muss.
 
 
 
Deutlich '''normalverteilt''', sowohl grafisch erkennbar wie auch mit dem '''Kolmogorov-Smirnov-Test''' nicht verwerfbar, ist die folgende Verteilung. Es finden sich kaum Zwischenräume zwischen der '''Normalverteilungskurve''' und der tatsächlichen Verteilung:
 
 
 
[[File:quantitative-60_3.jpg|frame|center|Grafische Darstellung einer deutlichen Normalverteilung]]
 
 
 
Man sieht, dass das Histogramm meist eine sehr gute Abschätzmöglichkeit erlaubt, ob Variable '''normalverteilt''' sind.
 
 
 
 
 
 
 
'''Verweise:'''<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[1] Siehe Kapitel 3.6.1.5]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.2 Nachweis der Normalverteilung: Kolmogorov-Smirnov-Test|[2] Siehe Kapitel 3.1.3.3.2]]<br />
 
 
 
 
 
-----
 
 
 
=== 3.1.3.3.2 Nachweis der Normalverteilung: Kolmogorov-Smirnov-Test  ===
 
 
 
Der Kolmogorov-Smirnov-Test kann auch bei kleineren Stichproben eingesetzt werden, um zu überprüfen, ob eine gegebene Verteilung mit hoher Wahrscheinlichkeit von der Normalverteilung abweicht.
 
 
 
Die Berechnung basiert auf dem Vergleich mit einer hypothetischen Normalverteilungskurve (Bild von Internet-Enzyklopädie Wikipedia: '''http://de.wikipedia.org/wiki/Kolmogorow-Smirnow-Test[http://de.wikipedia.org/wiki/Kolmogorow-Smirnow-Test &#91;1&#93;]'''):
 
 
 
[[File:quantitative-61_1.jpg|frame|center|Kolmogorov-Smirnov-Test - Vergleich einer vorliegenden Verteilung mit einer hypothetischen Normalverteilungskurve. Quelle: Wikipedia - http://de.wikipedia.org/wiki/Kolmogorow-Smirnow-Test.]]
 
 
 
Die Logik der Berechnung geht davon aus, dass die tatsächliche Verteilung von einer hypothetischen Normalverteilung an einem beliebigen Punkt eine bestimmte flächenmäßige Abweichung nicht überschreiten darf, andernfalls müsste die Annahme einer Normalverteilung verworfen werden. Daher wird in einer Reihe von Rechenschritten die jeweilige konkrete Abweichung errechnet. Die größte auftretende Abweichung wird mit einer Tafel des Kolmogorov- Smirnov-Tests verglichen.
 
 
 
Ein Beispiel einer manuellen Berechnung kann hier eingesehen werden. Natürlich werden die Werte heute wesentlich komfortabler, z.B. mit '''SPSS''', ermittelt.
 
 
 
 
 
 
 
'''Verweise:'''<br />
 
[http://de.wikipedia.org/wiki/Kolmogorow-Smirnow-Test &#91;1&#93; http://de.wikipedia.org/wiki/Kolmogorow-Smirnow-Test]<br />
 
 
 
 
 
-----
 
 
 
=== 3.1.3.3.2.1 Kolmogorov-Smirnov-Test mit SPSS  ===
 
 
 
A. Sie wählen in SPSS den Menüpunkt ANALYSIEREN
 
 
 
B. Aus den heruntergeklappten Alternativen wählen Sie NICHTPARAMETRISCHE TESTS
 
 
 
C. Aus den nächsten Auswahlpunkten, die sich rechts öffnen, wählen Sie K-S BEI EINER STICHPROBE....
 
 
 
D. Nun wählen Sie die Testvariable aus, welche Sie auf Normalverteilung prüfen möchten. Achten Sie darauf, dass links unten unter Testverteilung der Punkt ''Normal'' angewählt ist.
 
 
 
E. Klicken Sie auf OK
 
 
 
F. Sie erhalten nun eine Bildschirmausgabe wie folgende:
 
 
 
[[File:quantitative-62_1.jpg|frame|center|Kolmogorov-Smirnov-Anpassungstest mit SPSS]]
 
 
 
G. Hier sind für uns die folgenden Werte von Belang: 1. ''N'' (in diesem Falle 8), Extremste Differenzen 0,320) und ''Asymptotische Signifikanz''.
 
 
 
H. Nun vergleichen wir diese beiden ersten Werte mit einer Tabelle für den Kolmogorov-Smirnov-Test. Die nachfolgende Tabelle gibt bei einer 5 % Irrtumswahrscheinlichkeit Grenzwerte für Stichproben an, bei denen ''n'' zwischen 1-35 liegt.
 
 
 
[[File:quantitative-62_2.jpg|frame|center|Tabelle für den Kolmogorov-Smirnov-Test]]
 
 
 
Wir suchen nun den Wert für N = 8 und sehen dort die Zahl ''0,454''. Falls die ''Extremste Differenz'' in unserem Rechenbeispiel diesen Wert überschreitet, liegt mit 95 % Wahrscheinlichkeit keine '''Normalverteilung''' vor. In unserem Fall haben wir jedoch eine ''Extremste Differenz'' von nur ''0,32''. Das Ergebnis wird am Besten so interpretiert, dass die theoretische Annahme einer '''Standardverteilung''' nicht verworfen werden muss. Ein wirklicher Beweis für eine Standard- Verteilung liegt allerdings dadurch nicht vor.
 
 
 
Auch unser Wert für die ''Asymptotische Signifikanz'' ist weit größer als der Grenzwert 0,05. Dieser würde besagen, dass nur in 5 % aller Fälle eine derartige Verteilung wirklich normalverteilt ist. Ein Wert von 0,02 wäre hingegen deutlich kleiner, daher würde die Annahme einer Normalverteilung verworfen werden (auf dem 5 % '''Signifikanzniveau[[Funktion_und_Sinn_von_Statistik/Wahrscheinlichkeit#1.3.2 Irrtumswahrscheinlichkeit und Signifikanzniveau|[1]]]'''). Da unser Wert jedoch deutlich darüber liegt, kann die Arbeitshypothese einer Normalverteilung auf diesem '''Signifikanzniveau''' nicht verworfen werden.
 
 
 
'''Achtung:''' Der '''Kolmogorov-Smirnov-Test''' benötigt, v.a. bei kleinen '''Stichproben''', extreme Abweichungen von einer Normalverteilung, um auf höheren Signifikanzniveaus die Annahme einer Normalverteilung zu verwerfen. Daher ist eine Nichtverwerfung der Annahme einer Normalverteilung durch diese Berechnungsform noch kein Beweis für das Vorliegen einer Normalverteilung. Sollte sich im '''Histogramm[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[2]]]''' eine extreme Abweichung von der fakultativ gezogenen Normalverteilungskurve zeigen, dann sollte man, auch wenn der Kolmogorov-Smirnov-Test diese nicht verwirft, dennoch eher zu nicht parametrischen Tests greifen (wie z.B. dem '''T-Test''' etc.)
 
 
 
Hier ein Link zu weiterführenden Tabellen, in welchen noch weitere Irrtumswahrscheinlichkeiten für die Berechnung der Abweichung von einer Standardverteilung herangezogen werden: '''https://www.erieri.com/dlc[https://www.erieri.com/dlc/onlinetextbook/table7 &#91;3&#93;]'''
 
 
 
 
 
 
 
'''Verweise:'''<br />
 
[[Funktion_und_Sinn_von_Statistik/Wahrscheinlichkeit#1.3.2 Irrtumswahrscheinlichkeit und Signifikanzniveau|[1] Siehe Kapitel 1.3.2]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[2] Siehe Kapitel 3.6.1.5]]<br />
 
[https://www.erieri.com/dlc/onlinetextbook/table7 &#91;3&#93; https://www.erieri.com/dlc/onlinetextbook/table7]<br />
 
  
 +
[[File:quantitative-70_3.jpg|frame|center|Häufigkeitstabelle eines Mehrfachantwortensets]]
  
 
<br />
 
<br />
'''[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2 Die Ermittlung von Häufigkeiten|Nächstes Kapitel: 3.2 Die Ermittlung von Häufigkeiten]]'''
+
'''[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3 "Mittelwerte": Lagemaße und Maßzahlen der zentralen Tendenz|Nächstes Kapitel: 3.3 "Mittelwerte": Lagemaße und Maßzahlen der zentralen Tendenz]]'''
 
----
 
----
[[#3.1 Notwendiges Wissen für die Wahl geeigneter statistischer Analysemethoden|&uarr; Nach oben]]
+
[[#3.2 Die Ermittlung von Häufigkeiten|&uarr; Nach oben]]

Latest revision as of 14:32, 24 September 2020

Vorheriges Kapitel: 3.1 Notwendiges Wissen für die Wahl geeigneter statistischer Analysemethoden

3.2 Die Ermittlung von Häufigkeiten

verfasst von Erwin Ebermann

Bei der Ermittlung von Häufigkeiten stellen wir fest, wie oft die verschiedenen Messwerte auftreten.

Die Ermittlung von Häufigkeiten ist das einfachste statistische Verfahren und kann für jede Art von Skala[1] angewandt werden. Die Häufigkeiten der Messwerte geben uns Hinweise auf ihre Verteilung[2] d.h. wie oft die einzelnen Ausprägungen vorkamen. Die Kenntnis dieser Verteilung gibt uns somit Auskunft darüber, was in einer untersuchten Stichprobe der Normalfall, und was die Ausnahme ist.

Dabei wird das Auftreten von Werten gezählt. Prinzipiell unterscheiden wir zwischen

  • Monovariablen Verteilungen: eine einzige Variable wird gezählt. So kommen wir z.B. zu Häufigkeiten von Schulnoten (22 SchülerInnen hatten eine 1, 37 eine 2 usw.)
  • Bi- bzw. multivariablen Verteilungen: Es wird gezählt, wie häufig Kombinationen von zwei oder mehr Variablen auftreten (z.B. Schulnoten und soziale Schicht; 17 SchülerInnen gehörten zur Oberschicht und hatten eine 1, 22 SchülerInnen zur Oberschicht und hatten eine 2 etc.). Mit Bi- oder multivariablen Verteilungen möchte man Zusammenhänge zwischen zwei Variablen feststellen.

Die tabellarische Darstellung der Häufigkeiten in bi- bzw. multivariablen Verteilungen wird auch als Kreuztabelle[3] oder Kontingenztafel bezeichnet.

Nach der Systematik der Darstellung unterscheidet man zwischen der Urliste, der primären Tafel bzw. der Häufigkeitstabelle.


Verweise:
[1] Siehe Kapitel 3.1.2
[2] Siehe Kapitel 3.1.3
[3] Siehe Kapitel 3.5.2

Inhalt

3.2.1 Liste und Tafeln

Urliste

Aufgenommene Messwerte sind anfangs ungeordnet. Denken Sie z.B. an 30 Personen, deren Alter Sie abgefragt haben, ohne die Einträge größenmäßig zu ordnen. Diese ungeordnete Liste wird als so genannte Urliste bezeichnet. Eine Urliste ist die ungeordnete Aufzählung der Werte in der gleichen Reihenfolge, in der sie während der Abfrage aufgenommen wurden.

Beispiel: Kinderzahl von Befragten

Beispiel für eine Urliste - Kinderanzahl der Befragten

Primäre Tafel

Wesentlich übersichtlicher ist bereits die primäre Tafel, in welcher die Ausprägungen sortiert werden. Sie gibt deutlich mehr Aufschluss über die Charakteristiken der Daten. Hier ist auf einen Blick erkennbar, dass die Messwerte 1 und 2 am häufigsten vorkommen:

Beispiel für eine Primäre Tafel - Kinderanzahl der Befragten

Dennoch ist auch eine Primäre Tafel im Vergleich mit einer Häufigkeitstabelle wenig übersichtlich.


3.2.2 Häufigkeitstabelle

Häufigkeitstabellen zeigen in tabellarischer Form die Ausprägungen einer Variablen verbunden mit deren Häufigkeit. Sie sind weit übersichtlicher als Listen und Tafeln.

Dabei trägt man in der 1. Spalte die Messwerte ein (wie z.B. Kinderzahl oder hier Ländernamen), in der 2. Spalte die absolute Häufigkeit der Messwerte (durchzählen, wie oft z.B. Frankreich genannt wird) und in Spalte 3 berechnet man die relative Häufigkeit. Die relative Häufigkeit errechnet man folgendermaßen: man nimmt die absolute Häufigkeit eines Messwertes (z.B. waren 16 FranzösInnen beim Kongress), dividiert diesen durch die Summe der Messwerte (hier insgesamt 50 anwesende WissenschaftlerInnen) und multipliziert das Ergebnis mit 10 (um auf Prozentwerte zu kommen). Für FranzösInnen daher 16/50*100=32 %.
Häufigkeitstabelle - Herkunft der WissenschaftlerInnen eines Kongreß

Akkumulierte Häufigkeit

Wenn keine Nominalskalierung[1] vorliegt, ist auch die Darstellung der akkumulierten Häufigkeit sinnvoll. Sie gibt Auskunft über die Häufigkeit aller Messwerte, die bis zu einem bestimmten Niveau auftreten.

Man errechnet sie folgendermaßen: Man zählt alle relativen Häufigkeiten zusammen, die einschließlich dieser Zeile auftraten: Die akkumulierte Häufigkeit für die Note 3 (= alle EthnologInnen, die zumindest die Note 3 erhielten) wäre daher: 19,2 % + 21,8 % + 28,2 % = 69,2 %.

Häufigkeitstabelle - Noten von EthnologInnen
Eine derartige Häufigkeitstabelle kann, wie vorhin beschrieben, auch mehrdimensional sein (multivariabel):
mehrdimensionale Häufigkeitstabelle Integrationserfolge und Nationalsprache von AfrikanerInnen

Eine Häufigkeitstabelle hat folgende Vorzüge:

  • Sie ist übersichtlicher als eine Urliste
  • Sie ist kürzer als eine primäre Tafel
  • Sie ist ökonomisch
  • Sie erlaubt eine leichte Beurteilung der Verteilung
  • Trotz dieser Vorteile tritt kein Informationsverlust auf.


Verweise:
[1] Siehe Kapitel 3.1.2.2



3.2.2.1 Häufigkeitsberechnung mit SPSS

Die Berechnung von Häufigkeiten mit SPSS erfolgt folgendermaßen:

A. Klicken Sie in der Menüleiste auf ANALYSIEREN - DESKRIPTIVE STATISTIKEN - HÄUFIGKEITEN.

B. Fügen Sie im Feld Variablen die Variable ein, von der Sie eine Häufigkeitstabelle erstellen möchten.

C. Klicken Sie auf OK.

Sie erhalten dann z.B. folgende Ausgabe:

Häufigkeitsberechnung mit SPSS - Beispiel Wohnbezirk

Sie sehen, dass SPSS in der ersten Spalte die Ausprägungen der Variable anbietet, in der Spalte Häufigkeit die absolute Häufigkeit, mit welcher diese Ausprägung auftritt. Unter Prozent finden Sie die prozentuellen Anteile der absoluten Häufigkeiten der Ausprägungen an der Stichprobengröße (N ist hier 154).

Links unten sehen Sie das Label Fehlend. Hier wird die Zahl der bei dieser Frage nicht vorhandenen Antworten vermerkt (Im Fall dieser Stichprobe haben 23 Personen diese Frage nicht beantwortet). Da daher die eigentliche Größe der Stichprobe bei 131 liegt (154 weniger 23 Nichtbeantwortende), verändern sich auch die realen Prozentwerte, wie in der Spalte Gültige Prozente ersichtlich. Die Spalte Kumulierte Prozente gibt die in Prozenten ausgedrückte akkumulierte Häufigkeit an und basiert ebenfalls auf den bereinigten Werten (also minus die Null- Einträge).

Bereits in der Standard-Vorgabe rechnet SPSS daher alle für eine Häufigkeitstabelle notwendigen Analysen. Werfen Sie auch einen Blick auf die fakultativen Auswahlmöglichkeiten unter Statistik und Diagramme. SPSS kann mit wenigen Arbeitsgängen äußerst umfangreiche Berechnungen durchführen.



3.2.2.2 Grafische Darstellung mit SPSS

Klicken Sie auf ANALYSIEREN - DESKRIPTIVE STATISTIK - HÄUFIGKEITEN und wählen Sie dort die Variable aus, deren Häufigkeitsverteilung Sie grafisch darstellen möchten.

Klicken Sie dann auf Diagramme. Sie haben nun die Auswahlmöglichkeit zwischen Balkendiagrammen[1], Kreisdiagrammen[2] und Histogrammen[3]. Je nach Datenlage sollten Sie unterschiedliche Diagrammtypen heranziehen. Siehe dazu den Punkt Diagramme[4].


Verweise:
[1] Siehe Kapitel 3.6.1.3
[2] Siehe Kapitel 3.6.1.1
[3] Siehe Kapitel 3.6.1.5
[4] Siehe Kapitel 3.6.2


3.2.3 Klassenbildung (Gruppierung) von Daten

Unter der Gruppierung von Daten verstehen wir die Zusammenfassung von verschiedenen Ausprägungen zu Klassen. Eine Klasse ist die Menge sämtlicher Messwerte, die innerhalb festgelegter Grenzen liegen. Dadurch kann die Häufigkeitsverteilung[1] einer Variablen mit einer Vielzahl unterschiedlicher Ausprägungen übersichtlicher dargestellt werden.

Beispiel: Gemessene Körpergrößen und Umwandlung in Klassen
Ein Beispiel wären Größenangaben in cm. Wollte man statistische Aussagen über die Körpergrößen von ÖsterreicherInnen machen, müsste man wahrscheinlich (bei einem Alter ab 14) etwa 90 verschiedene Werte angeben (von 1,20 bis 2,19). Eine derartige Tabelle wäre unübersichtlich und würde über mehrere Seiten führen:

Gemessene Körpergrößen
Viel übersichtlicher wäre es aber, diese 100 verschiedenen Ausprägungen zu Klassen von benachbarten Messwerten zusammenzufassen. Treten extrem viele unterschiedliche Ausprägungen auf, sind 10-19 Klassen sinnvoll. Wählt man bei diesem Beispiel 10 Klassen, fallen jeweils 10 Messwerte in eine Klasse (100:10=10):
In Klassen eingeteilte Körpergrößen

Die Klassenbreite ist bei diskreten Variablen[2] die Anzahl der in der Klasse zusammengefassten Messwerte. Berechnet wird sie mit: Höchster Wert der Klasse minus höchstem Wert der vorausgegangenen Klasse (hier also mit z.B. 1,89 m- 1,79 m= 0,10 m).

Die (exakten) Klassengrenzen (Intervallgrenzen) sind die kleinsten bzw. größten Messwerte einer Klasse (hier also z.B. 1,70 m und 1,79999 =1,8 m).

Bei richtiger Klassenbreite sollten keine leeren Klassen (Häufigkeit = 0) auftreten. Um Ausreißer mitbehandeln zu können, könnte man die untersten und obersten Klassen offen machen: z.B. „kleiner als 1,30 m“ statt „1,20-1,29 m“ bzw. „größer als 2,09 m“ statt „2,10-2,19 cm“.

Die Klassenmitte ist der Durchschnitt des kleinsten und des größten Wertes einer Klasse. Die Klassenmitte von 1,50-1,5999 periodisch wäre daher 1,55 m. Die Klassenmitte wird für spätere Berechnungen von Bedeutung sein (z.B. für Durchschnittsberechnungen).


Verweise:
[1] Siehe Kapitel 3.1.3
[2] Siehe Kapitel 3.1.1.2



3.2.3.1 Gruppierung mit SPSS

In vielen Fällen, besonders bei stetigen Variablen[1], wird die Zahl der Ausprägungen einer Variablen so groß sein, dass Häufigkeitsverteilungen[2] unübersichtlich werden. Im folgenden Beispiel wurde die Altersverteilung der Antwortenden abgefragt:

Häufigkeitsverteilung des Alters der Befragten

Es wäre deutlich übersichtlicher, diese Werte in eine kleine Zahl von Klassen umzukodieren. Dazu benützen Sie die Funktion TRANSFORMIEREN - UMCODIEREN[3] in der Menüleiste. Nun können Sie sich entscheiden zwischen einer Umcodierung in die gleiche oder in eine andere Variable. Es ist besser, sich für eine andere Variable zu entscheiden, da durch die Umcodierung (man kann auch mehrere Werte zu einem einzigen neuen umcodieren) Informationsverlust auftreten kann (ob willentlich oder durch einen Bedienungsfehler). Dieses Problem wird durch Umcodierung in eine neue Variable ausgeschlossen.

Sie wählen nun die Variable aus, welche umcodiert werden soll und geben im Feld Ausgabevariable einen neuen Namen dafür ein, der aus Gründen der Kompatibilität mit älteren Programmen acht Zeichen nicht überschreiten darf. Im Feld darunter können Sie jedoch einen beliebig langen und expressiveren Namen wählen.

Klicken Sie nun auf Alte und neue Werte. Da Sie mehrere (numerische) Werte zu einem einzigen neuen zusammenfassen möchten, können Sie jeweils einen Bereich angeben (z.B. Bereich 20 bis 29), wenn Sie alle zwischen 20- 29jährigen in eine einzige Altersklasse ’zwischen 20 und 30 einbringen möchten’). Klicken Sie nach jeder einzelnen Angabe zur Umcodierung auf Hinzufügen. Für die unterste Klasse (alle unter 20jährigen wählen Sie Bereich, KLEINSTER bis Wert: (hier würden Sie 19 eingeben). Für die über 70jährigen bilden Sie eine offene Klasse, dazu wählen Sie Bereich, Wert bis GRÖSSTER: und geben hier 70 ein.

Umkodieren in andere Variablen mit SPSS

Klicken Sie am Ende auf Weiter und dann auf OK. Ihre Daten werden nun in die neue Variable umcodiert.

Die neue Häufigkeitstabelle sieht jetzt folgendermaßen aus:

Häufigkeitstabelle der umkodierten Altersverteilung

Nun müssen wir die neuen Werte, ausschließlich für die Ausgabe von SPSS, rückcodieren, um die Tabelle informativer zu machen, da wir nicht sofort erkennen können, dass 0 für ’unter 20’ steht. Damit SPSS intern mit den numerischen Daten rechnen kann, wir jedoch bei allen Ausgaben (Diagramme[4], Analysen etc.) informative Bezeichnungen erhalten, klicken wir in SPSS unten links auf die Variablenansicht. Im neuen Fenster finden wir bei der neuen Variable das Attribut Variablenlabel. Nach Doppelklick darauf erscheint folgendes Fenster:

Wertelabels definieren mit SPSS

Wir geben nun die gewünschten Labels für die numerischen Daten ein, also z.B. 20-29 für die Zahl 1 usw. Nach Eingabe aller automatisch durchzuführenden Änderungen klicken wir auf OK.

Wenn wir nun die gleiche Häufigkeitsberechnung wie oben durchführen, erhalten wir nun folgende leichter verständliche Tabelle:

Häufigkeitstabelle mit Klassenlabels


Verweise:
[1] Siehe Kapitel 3.1.1.2
[2] Siehe Kapitel 3.1.3
[3] Siehe Kapitel 2.2.3.2
[4] Siehe Kapitel 3.6

3.2.4 Häufigkeitsdarstellung bei Mehrfachantworten mit SPSS

Falls Sie bei einer Frage explizit Mehrfachantworten zugelassen haben, können Sie deren Häufigkeiten mit SPSS komfortabel tabellarisch darstellen.

1. Definition eines Mehrfachantwortensets

Sie müssen dazu zuerst ein (Mehrfachantworten-)Set definieren:

Klicken Sie in der Menüleiste auf ANALYSIEREN - MEHRFACHANTWORT - SET DEFINIEREN. Dann öffnet sich folgendes Fenster:

Definieren eines Mehrfachantwortensets mit SPSS

Führen Sie bitte folgende Schritte durch:

A. Sie wählen verschiedene dichotome Variable aus, die Sie in Variablen im Set einfügen;

B. Tragen Sie unter Gezählter Wert die Zahl 1 ein (d.h. dass jede Ja-Stimme einen Punkt zählt);

C. Sie lassen die Standardauswahl Dichotomien bei Variablen kodiert als;

D. Sie wählen einen Kurznamen (max. acht Zeichen für das Set) und tragen ihn unter Name ein;

E. Sie tragen unter Beschriftung einen längeren Namen ein, welcher die Tabelle anschaulich beschriften soll.

F. Klicken Sie nun auf Hinzufügen und letztendlich auf Schließen.

Das Set ist nun definiert, Sie können zur Analyse gehen:

2. Analyse

A. Klicken Sie auf ANALYSIEREN - MEHRFACHANTWORT - HÄUFIGKEITEN. Das folgende Fenster öffnet sich:

Häufigkeitsanalyse von Mehrfachantwortensets mit SPSS

B. Wählen Sie das Mehrfachantworten-Set, welches Sie angelegt haben und ziehen Sie es in das Feld Tabelle(n) für:

C. Klicken Sie auf OK. Die Analyse wird durchgeführt:

Häufigkeitstabelle eines Mehrfachantwortensets


Nächstes Kapitel: 3.3 "Mittelwerte": Lagemaße und Maßzahlen der zentralen Tendenz


↑ Nach oben