Difference between revisions of "Ausgewählte statistische Grundlagen und Analysemethoden/Mittelwerte"

From Eksa
Jump to: navigation, search
(Created page with " '''Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1 Notwendiges Wissen für die Wahl geeigneter statistischer Analysemethoden|Vorheriges Kapitel: 3.1 No...")
 
m (Protected "Ausgewählte statistische Grundlagen und Analysemethoden/Mittelwerte" ([Edit=Allow only administrators] (indefinite) [Move=Allow only administrators] (indefinite)) [cascading])
 
(3 intermediate revisions by the same user not shown)
Line 1: Line 1:
 
+
'''[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2 Die Ermittlung von Häufigkeiten|Vorheriges Kapitel: 3.2 Die Ermittlung von Häufigkeiten]]'''
'''[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1 Notwendiges Wissen für die Wahl geeigneter statistischer Analysemethoden|Vorheriges Kapitel: 3.1 Notwendiges Wissen für die Wahl geeigneter statistischer Analysemethoden]]'''
+
= 3.3 "Mittelwerte": Lagemaße und Maßzahlen der zentralen Tendenz =
= 3.2 Die Ermittlung von Häufigkeiten =
 
 
<sup>verfasst von Erwin Ebermann</sup>
 
<sup>verfasst von Erwin Ebermann</sup>
  
Bei der '''Ermittlung von Häufigkeiten''' stellen wir fest, '''wie oft die verschiedenen Messwerte auftreten'''.
+
'''Lagemaße''' beschreiben das '''Zentrum einer Verteilung''' durch eine Kennzahl.
  
Die Ermittlung von '''Häufigkeiten''' ist das einfachste statistische Verfahren und kann für jede Art von '''Skala[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2 Skalenniveaus|[1]]]''' angewandt werden. Die Häufigkeiten der Messwerte geben uns Hinweise auf ihre '''Verteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[2]]]''' d.h. wie oft die einzelnen Ausprägungen vorkamen. Die Kenntnis dieser Verteilung gibt uns somit Auskunft darüber, was in einer untersuchten Stichprobe der Normalfall, und was die Ausnahme ist.
+
Wenn wir von einem Land wissen, dass seine EinwohnerInnen durchschnittlich 2000 € monatlich verdienen, dann liefern uns Lagemaße eine erste ungenaue Idee, wo sich die EinwohnerInnen des Landes einkommensmäßig im Weltmaßstab einordnen lassen, sie ’liegen’ in der Gruppe der reicheren Länder.
  
Dabei wird das Auftreten von Werten gezählt. Prinzipiell unterscheiden wir zwischen
+
Lagemaße werden oft auch als '''Maßzahlen der zentralen Tendenz''' bezeichnet. Die am häufigsten benutzten Lagemaße sind das '''arithmetische Mittel''', das '''geometrische Mittel''', der '''Median''' und der '''Modalwert'''.
  
* '''Monovariablen Verteilungen:''' eine einzige Variable wird gezählt. So kommen wir z.B. zu Häufigkeiten von Schulnoten (22 SchülerInnen hatten eine 1, 37 eine 2 usw.)
+
* Das '''arithmetische Mittel''' bezeichnet den Durchschnittswert aller Einträge,
* '''Bi- bzw. multivariablen Verteilungen:''' Es wird gezählt, wie häufig Kombinationen von zwei oder mehr Variablen auftreten (z.B. Schulnoten und soziale Schicht; 17 SchülerInnen gehörten zur Oberschicht und hatten eine 1, 22 SchülerInnen zur Oberschicht und hatten eine 2 etc.). Mit '''Bi- oder multivariablen Verteilungen''' möchte man Zusammenhänge zwischen zwei Variablen feststellen.
+
* das '''geometrische Mittel''' bezieht sich auf den Durchschnittswert voneinander abhängiger Werte (die sich also gegenseitig beeinflussen),
 +
* der '''Median''' kennzeichnet die Normalität (welcher Wert befindet sich größenmäßig wirklich in der Mitte der Einträge und entspricht somit am ehesten dem ’Normalfall’),
 +
* der '''Modalwert''' bezeichnet ausschließlich den am häufigsten vorkommenden Wert, der keinerlei Hinweis über die Eigenheiten der anderen Werte gibt.
  
Die tabellarische Darstellung der Häufigkeiten in bi- bzw. multivariablen Verteilungen wird auch als '''Kreuztabelle[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Korrelation#3.5.2 Kreuztabellen-Analyse|[3]]]''' oder '''Kontingenztafel''' bezeichnet.
+
Je nach '''Verteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1]]]''', '''Skalenniveau[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2 Skalenniveaus|[2]]]''' und '''Art der Daten[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1 Arten von Messwerten Daten|[3]]]''' sind unterschiedliche '''Lagemaße''' sinnvoll. Bei gegebener '''Normalverteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.1 Normalverteilung|[4]9]''' stimmen sowohl '''Median''' wie auch der '''Modalwert''' mit dem '''Arithmetischen Mittel''' überein. In schiefen Verteilungen hingegen nehmen sie sehr unterschiedliche Positionen ein. In rechtsschiefen Verteilungen (der Abfall erfolgt nach rechts) ist der Modalwert am kleinsten, danach kommt der Median, am größten ist der Mittelwert. In '''linksschiefen Verteilungen''' ist es umgekehrt.
 
 
Nach der Systematik der Darstellung unterscheidet man zwischen der '''Urliste''', der '''primären Tafel''' bzw. der '''Häufigkeitstabelle.'''
 
  
 +
[[File:quantitative-71_1.jpg|frame|center|Unterschiedliche Lage von Median, Mittelwert und Modalwert in rechtsschiefer Verteilung]]
  
  
 
'''Verweise:'''<br />
 
'''Verweise:'''<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2 Skalenniveaus|[1] Siehe Kapitel 3.1.2]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1] Siehe Kapitel 3.1.3]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[2] Siehe Kapitel 3.1.3]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2 Skalenniveaus|[2] Siehe Kapitel 3.1.2]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Korrelation#3.5.2 Kreuztabellen-Analyse|[3] Siehe Kapitel 3.5.2]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1 Arten von Messwerten Daten|[3] Siehe Kapitel 3.1.1]]<br />
 +
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.1 Normalverteilung|[4] Siehe Kapitel 3.1.3.1]]<br />
  
==Inhalt==
+
==Inhaltsverzeichnis==
 
<div class="eksa_toc">
 
<div class="eksa_toc">
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2 Die Ermittlung von Häufigkeiten|3.2 Die Ermittlung von Häufigkeiten]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3 "Mittelwerte": Lagemaße und Maßzahlen der zentralen Tendenz|3.3 "Mittelwerte": Lagemaße und Maßzahlen der zentralen Tendenz]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.1 Liste und Tafeln|3.2.1 Liste und Tafeln]]<br />
+
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.1 Modalwert|3.3.1 Modalwert]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.2 Häufigkeitstabelle|3.2.2 Häufigkeitstabelle]]<br />
+
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|3.3.2 Arithmetisches Mittel]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.2.1 Häufigkeitsberechnung mit SPSS|3.2.2.1 Häufigkeitsberechnung mit SPSS]]<br />
+
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.3 Median|3.3.3 Median]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.2.2 Grafische Darstellung mit SPSS|3.2.2.2 Grafische Darstellung mit SPSS]]<br />
+
::[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.3.1 Median bei gruppierten Daten|3.3.3.1 Median bei gruppierten Daten]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.3 Klassenbildung (Gruppierung) von Daten|3.2.3 Klassenbildung (Gruppierung) von Daten]]<br />
+
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.4 Geometrisches Mittel|3.3.4 Geometrisches Mittel]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.3.1 Gruppierung mit SPSS|3.2.3.1 Gruppierung mit SPSS]]<br />
+
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.5 Harmonisches Mittel|3.3.5 Harmonisches Mittel]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.4 Häufigkeitsdarstellung bei Mehrfachantworten mit SPSS|3.2.4 Häufigkeitsdarstellung bei Mehrfachantworten mit SPSS]]<br />
+
::[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.5.1 Harmonisches Mittel mit SPSS|3.3.5.1 Harmonisches Mittel mit SPSS]]<br />
 +
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.6 Wann welche Lagemaße?|3.3.6 Wann welche Lagemaße?]]<br />
 +
:[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.7 Berechnung von Lagemaßen mit SPSS|3.3.7 Berechnung von Lagemaßen mit SPSS]]<br />
 
</div>
 
</div>
  
== 3.2.1 Liste und Tafeln ==
+
== 3.3.1 Modalwert ==
 +
 
 +
Unter einem '''Modalwert''' versteht man '''die am häufigsten vorkommende Ausprägung''' einer Variable.
 +
 
 +
'''Beispiel:'''<br />
 +
In der folgenden geordneten Zahlenreihe 2, 3, 3, 3, 4, 4, 5, 6, 7 wäre ''3'' der Modalwert (weil diese Zahl dreimal auftritt, häufiger als jede andere Zahl).
 +
 
 +
==== '''Mittelung bei benachbarten gleichgroßen Werten''' ====
 +
 
 +
Falls mehrere benachbarte Werte die größte Häufigkeit aufweisen, so wird ihr '''arithmetisches Mittel''' berechnet. Haben z.B. die Werte 5 und 6 gleichermaßen die größte Häufigkeit, so ist der Modalwert der Durchschnitt dieser beiden Werte.
  
==== '''Urliste''' ====
+
'''Beispiel:'''<br />
 +
In der Zahlenreihe 2, 3, 3, 3, 4, 4, 4, 5, 6, 7 liegt der Modalwert bei 3,5. Sowohl ''3'' wie auch ''4'' kommen mit jeweilig dreimaligem Auftreten häufiger als die anderen Werte vor. Das arithmetische Mittel von ''3'' und ''4'' liegt bei 3,5.
  
Aufgenommene '''Messwerte''' sind anfangs ungeordnet. Denken Sie z.B. an 30 Personen, deren Alter Sie abgefragt haben, ohne die Einträge größenmäßig zu ordnen. Diese '''ungeordnete Liste''' wird als so genannte '''Urliste''' bezeichnet. Eine '''Urliste''' ist die ungeordnete Aufzählung der Werte in der gleichen Reihenfolge, in der sie während der Abfrage aufgenommen wurden.
+
==== '''Modalklasse: Klasse mit größter Zahl an Einträgen''' ====
  
'''Beispiel: Kinderzahl von Befragten'''
+
Bei '''klassierten Daten[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.3 Klassenbildung Gruppierung von Daten|[1]]]''' ist die '''Modalklasse''' diejenige Klasse mit der größten Zahl an Einträgen
  
[[File:quantitative-64_1.jpg|frame|center|Beispiel für eine Urliste - Kinderanzahl der Befragten]]
+
==== '''Nur selten praktische Relevanz des Modalwerts''' ====
  
==== '''Primäre Tafel''' ====
+
Der '''Modalwert''' ist aussagekräftig, wenn ein einzelner Wert sehr häufig vorkommt (z.B. 27 '''Frauen''' und drei Männer) und unsinnig, wenn der häufigste Wert nur relativ selten vorkommt. Der '''Modalwert''' kann im Gegensatz zum '''arithmetischen Mittelwert''' oder zum '''Median''' auch sinnvoll in '''Nominalskalen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.2 Nominalskalierung|[2]]]''' verwendet werden.
  
Wesentlich übersichtlicher ist bereits die '''primäre Tafel, in welcher die Ausprägungen sortiert werden.''' Sie gibt deutlich mehr Aufschluss über die Charakteristiken der Daten. Hier ist auf einen Blick erkennbar, dass die Messwerte 1 und 2 am häufigsten vorkommen:
 
  
[[File:quantitative-64_2.jpg|frame|center|Beispiel für eine Primäre Tafel - Kinderanzahl der Befragten]]
 
  
Dennoch ist auch eine '''Primäre Tafel''' im Vergleich mit einer Häufigkeitstabelle wenig übersichtlich.
+
'''Verweise:'''<br />
 +
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.3 Klassenbildung Gruppierung von Daten|[1] Siehe Kapitel 3.2.3]]<br />
 +
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.2 Nominalskalierung|[2] Siehe Kapitel 3.1.2.2]]<br />
 +
 
  
 +
== 3.3.2 Arithmetisches Mittel ==
  
== 3.2.2 Häufigkeitstabelle ==
+
Das '''arithmetische Mittel''' ist die Summe aller Messwerte geteilt durch deren Anzahl:
  
'''Häufigkeitstabellen''' zeigen in tabellarischer Form die '''Ausprägungen einer Variablen verbunden mit deren Häufigkeit.''' Sie sind weit übersichtlicher als '''Listen''' und '''Tafeln'''.
+
[[File:quantitative-73_1.jpg|frame|center|Formel für das arithmetische Mittel]]
  
Dabei trägt man in der 1. Spalte die Messwerte ein (wie z.B. Kinderzahl oder hier Ländernamen), in der 2. Spalte die absolute Häufigkeit der Messwerte (durchzählen, wie oft z.B. Frankreich genannt wird) und in Spalte 3 berechnet man die ''relative Häufigkeit''. Die relative Häufigkeit errechnet man folgendermaßen: man nimmt die absolute Häufigkeit eines Messwertes (z.B. waren 16 FranzösInnen beim Kongress), dividiert diesen durch die Summe der Messwerte (hier insgesamt 50 anwesende WissenschaftlerInnen) und multipliziert das Ergebnis mit 10 (um auf Prozentwerte zu kommen). Für FranzösInnen daher 16/50*100=32 %. [[File:quantitative-65_1.jpg|frame|center|Häufigkeitstabelle - Herkunft der WissenschaftlerInnen eines Kongreß]]
+
Z.B. die durchschnittliche Zahl von Schafen der Bauern im Dorf Nkorongoji in Mali: Die Messwerte sind: 5, 12, 3, 4, 7, 6. Die Summe ist 37, die Zahl der Messwerte ist 6, also ist das arithmetische Mittel 37/6= 6,17.  
  
==== '''Akkumulierte Häufigkeit''' ====
+
==== '''Arithmetisches Mittel bei Einteilung der Messwerte in Klassen:''' ====
  
Wenn keine '''Nominalskalierung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.2 Nominalskalierung|[1]]]''' vorliegt, ist auch die Darstellung der '''akkumulierten Häufigkeit''' sinnvoll. Sie gibt Auskunft über die '''Häufigkeit''' aller Messwerte, die bis zu einem bestimmten Niveau auftreten.
+
Wenn die Daten zahlreicher sind bzw. bereits in '''Klassen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.3 Klassenbildung Gruppierung von Daten|[1]]]''' eingeteilt wurden, kann man das '''arithmetische Mittel''' einfacher berechnen: man multipliziert in jeder Klasse die '''Klassenmitte''' (Durchschnitt aus dem theoretisch kleinstem und größten Wert einer Klasse) mit der Zahl der Einträge in der jeweiligen Klasse:
  
Man errechnet sie folgendermaßen: Man zählt alle relativen Häufigkeiten zusammen, die einschließlich dieser Zeile auftraten: Die akkumulierte Häufigkeit für die Note 3 (= alle EthnologInnen, die zumindest die Note 3 erhielten) wäre daher: 19,2 % + 21,8 % + 28,2 % = 69,2 %.
+
[[File:quantitative-73_2.jpg|frame|center|Arithmetisches Mittel bei Einteilung der Messwerte in Klassen]]
  
[[File:quantitative-65_2.jpg|frame|center|Häufigkeitstabelle - Noten von EthnologInnen]]
+
[[File:quantitative-73_3.jpg|frame|center|Beispiel für die Klassenmitte von Messwertklassen]]
  
Eine derartige '''Häufigkeitstabelle''' kann, wie vorhin beschrieben, auch mehrdimensional sein ('''multivariabel'''): [[File:quantitative-65_3.jpg|frame|center|mehrdimensionale Häufigkeitstabelle Integrationserfolge und Nationalsprache von AfrikanerInnen]]
+
  
Eine Häufigkeitstabelle hat folgende Vorzüge:
+
Der Durchschnitt, in diesem Fall das durchschnittliche Gehalt, wäre somit 14500/17= 852,94.
  
* Sie ist übersichtlicher als eine Urliste
+
Das '''arithmetische Mittel''' stößt bei bestimmten Datenlagen jedoch auch auf einige Probleme.
* Sie ist kürzer als eine primäre Tafel
 
* Sie ist ökonomisch
 
* Sie erlaubt eine leichte Beurteilung der Verteilung
 
* Trotz dieser Vorteile tritt kein Informationsverlust auf.
 
  
  
  
 
'''Verweise:'''<br />
 
'''Verweise:'''<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.2 Nominalskalierung|[1] Siehe Kapitel 3.1.2.2]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Ermittlung#3.2.3 Klassenbildung Gruppierung von Daten|[1] Siehe Kapitel 3.2.3]]<br />
 +
 
  
 +
== 3.3.3 Median ==
  
-----
+
Der '''Median''' ist jener Wert, welcher in einer größenmäßig geordneten Reihe '''genau in der Mitte''' liegt. D.h. oberhalb wie unterhalb von ihm befindet sich eine gleichgroße Anzahl von Einträgen.
  
=== 3.2.2.1 Häufigkeitsberechnung mit SPSS  ===
+
Warum benötigen wir ihn, da es doch auch das '''arithmetische Mittel[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|[1]]]''' gibt? Das '''arithmetische Mittel''' ist der Mittelwert, der sich ergibt, wenn wir eine Summe durch die Anzahl der gezählten Elemente dividieren.
  
Die Berechnung von Häufigkeiten mit '''SPSS''' erfolgt folgendermaßen:
+
==== '''Beispiel: Verzerrung durch Mittel, nicht aber durch Median''' ====
  
A. Klicken Sie in der Menüleiste auf ANALYSIEREN - DESKRIPTIVE STATISTIKEN - HÄUFIGKEITEN.
+
Die folgende Grafik zeigt das individuelle Einkommen der EinwohnerInnen des fiktiven Ortes Largebread im Jahr 2002:
  
B. Fügen Sie im Feld ''Variablen'' die Variable ein, von der Sie eine Häufigkeitstabelle erstellen möchten.
+
[[File:quantitative-74_1.jpg|frame|center|Durchschnittseinkommen in Largebread]]
  
C. Klicken Sie auf OK.
+
Das durchschnittliche Einkommen von etwa 26000 $ scheint die Einkommenssituation der EinwohnerInnen von Largebread gut zu beschreiben. Die '''Normalverteilungskurve[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.1 Optischer Nachweis einer Normalverteilung: das Histogramm|[2]]]''' zeigt uns an, dass das Einkommen relativ gut normalverteilt ist.
  
Sie erhalten dann z.B. folgende Ausgabe:
+
Was würde aber jetzt passieren, wenn der reichste Mann der Welt, Bill Gates, sich plötzlich entschließen würde, nach Largebread zu ziehen? Bill Gates verfügt über ein Jahreseinkommen von 5 Milliarden $. Das Diagramm verändert sich extrem:
  
[[File:quantitative-66_1.gif|frame|center|Häufigkeitsberechnung mit SPSS - Beispiel Wohnbezirk]]
+
[[File:quantitative-74_2.jpg|frame|center|Durchschnittseinkommen von Largebread mit Bill Gates]]
  
Sie sehen, dass '''SPSS''' in der ersten Spalte die Ausprägungen der Variable anbietet, in der Spalte '''Häufigkeit''' die '''absolute Häufigkeit''', mit welcher diese Ausprägung auftritt. Unter '''Prozent''' finden Sie die prozentuellen Anteile der absoluten Häufigkeiten der Ausprägungen an der Stichprobengröße (N ist hier 154).
+
Haben ohne Bill Gates die 1100 EinwohnerInnen von Largebread durchschnittlich 26064 $ im Jahr verdient, so sind sie nun scheinbar über Nacht reich geworden und verdienen mit Bill Gate nun durchschnittlich fast 5 Millionen Dollar im Jahr. Man sieht deutlich, dass einzelne "Ausreißer" wie Bill Gates einen derartigen Durchschnittswert unsinnig machen können. Zur Beschreibung der Realität von Largebread ist daher ein Indikator für das durchschnittliche Einkommen deutlich besser geeignet, welcher Ausreißer nicht berücksichtigt, nämlich der Median: Das Durchschnittseinkommen in Largebread, berechnet nach dem Median, liegt ohne Bill Gates bei 26.000 und auch mit ihm nur bei 26.000 $.
  
Links unten sehen Sie das Label ''Fehlend''. Hier wird die Zahl der bei dieser Frage nicht vorhandenen Antworten vermerkt (Im Fall dieser Stichprobe haben 23 Personen diese Frage nicht beantwortet). Da daher die eigentliche Größe der Stichprobe bei 131 liegt (154 weniger 23 Nichtbeantwortende), verändern sich auch die realen Prozentwerte, wie in der Spalte ''Gültige Prozente'' ersichtlich. Die Spalte '''Kumulierte Prozente''' gibt die in Prozenten ausgedrückte akkumulierte Häufigkeit an und basiert ebenfalls auf den bereinigten Werten (also minus die Null- Einträge).
+
'''Probleme des Arithetischen Mittel:'''
  
Bereits in der Standard-Vorgabe rechnet SPSS daher alle für eine '''Häufigkeitstabelle''' notwendigen Analysen. Werfen Sie auch einen Blick auf die fakultativen Auswahlmöglichkeiten unter '''Statistik und Diagramme'''. SPSS kann mit wenigen Arbeitsgängen äußerst umfangreiche Berechnungen durchführen.
+
Das arithmetische Mittel stößt somit an seine Grenzen:
  
 +
* wo '''extreme Grenzwerte''' auftreten (wie in Largebread),
 +
* '''bei sehr kleiner Beobachtungszahl''' (einzelne Werte können besonders leicht den Durchschnittswert verzerren),
 +
* '''bei Verteilungen mit offenen Klassen''' (Schwierigkeit der Bestimmung der Klassenmitte der offenen Klassen),
 +
* bei '''Ordinalskalen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.3 Ordinalskalierung|[3]]]''' (hier sollte er nicht verwendet werden).
  
-----
+
In all diesen Fällen ist es genauer, zum Median zu greifen. '''Der Median ist der Wert, der in einer geordneten Liste (oder primären Tafel) genau in der Mitte liegt, d.h. dass sich genauso viele Werte oberhalb wie unterhalb des Wertes befinden. Dieser Wert liegt an (n+1)/2ter Position.''' Hat man 3 Werte, dann ist der Medien der 2. Wert ([3+1]/2).
  
=== 3.2.2.2 Grafische Darstellung mit SPSS  ===
+
'''Berechnung des Median bei Urliste:'''
  
Klicken Sie auf ANALYSIEREN - DESKRIPTIVE STATISTIK - HÄUFIGKEITEN und wählen Sie dort die Variable aus, deren Häufigkeitsverteilung Sie grafisch darstellen möchten.
+
* Werte nach Größe rangreihen,
 +
* mittleren Wert nehmen,
 +
* liegt der Median zwischen 2 Werten (wenn Median nicht ganze Zahl ist), dann wird der Durchschnitt der ihn umgebenden 2 Werte genommen.
  
Klicken Sie dann auf Diagramme. Sie haben nun die Auswahlmöglichkeit zwischen '''Balkendiagrammen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.3 Balkendiagramme|[1]]]''', '''Kreisdiagrammen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.1 Kreisdiagramme|[2]]]''' und '''Histogrammen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[3]]]'''. Je nach Datenlage sollten Sie unterschiedliche Diagrammtypen heranziehen. Siehe dazu den Punkt '''Diagramme[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.2 Welches Diagramm für welche Daten?|[4]]]'''.
+
z.B. Schulnoten 3,2,2,5,1,1,2,5 -> Rangreihung: 1,1,2,2,2,3,5,5 -> Der 4,5. Wert (Durchschnitt aus 2+2) ist der Median, also 2.
  
  
  
 
'''Verweise:'''<br />
 
'''Verweise:'''<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.3 Balkendiagramme|[1] Siehe Kapitel 3.6.1.3]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.2 Arithmetisches Mittel|[1] Siehe Kapitel 3.3.2]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.1 Kreisdiagramme|[2] Siehe Kapitel 3.6.1.1]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.3.1 Optischer Nachweis einer Normalverteilung: das Histogramm|[2] Siehe Kapitel 3.1.3.3.1]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[3] Siehe Kapitel 3.6.1.5]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.3 Ordinalskalierung|[3] Siehe Kapitel 3.1.2.3]]<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.2 Welches Diagramm für welche Daten?|[4] Siehe Kapitel 3.6.2]]<br />
 
  
  
== 3.2.3 Klassenbildung (Gruppierung) von Daten ==
+
-----
  
Unter der '''Gruppierung von Daten''' verstehen wir die '''Zusammenfassung von verschiedenen Ausprägungen zu Klassen'''. Eine Klasse ist die '''Menge sämtlicher Messwerte''', die '''innerhalb festgelegter Grenzen''' liegen. Dadurch kann die '''Häufigkeitsverteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1]]]''' einer Variablen mit einer Vielzahl unterschiedlicher Ausprägungen übersichtlicher dargestellt werden.
+
=== 3.3.3.1 Median bei gruppierten Daten  ===
  
'''Beispiel: Gemessene Körpergrößen und Umwandlung in Klassen'''<br />
+
Bei '''gruppierten Daten''' ist die Berechnung des '''Medians''' ein wenig komplizierter. Hier ist die rechnerische Abfolge:
Ein Beispiel wären Größenangaben in cm. Wollte man statistische Aussagen über die Körpergrößen von ÖsterreicherInnen machen, müsste man wahrscheinlich (bei einem Alter ab 14) etwa 90 verschiedene Werte angeben (von 1,20 bis 2,19). Eine derartige Tabelle wäre unübersichtlich und würde über mehrere Seiten führen:
 
  
[[File:quantitative-68_1.jpg|frame|center|Gemessene Körpergrößen]]
+
* Bildung der '''Häufigkeitstabelle''' (inklusive kumulierter Häufigkeiten)
 +
* Ermittlung der Klasse ''m'', in welcher der '''Median''' steckt: wo liegt der Wert (n+1)/2. Diese wird nun als '''Medianklasse''' bezeichnet (n= Gesamtanzahl der Einträge)
 +
* Ermittlung der unteren (=x<sup>mu</sup>) und oberen '''Klassengrenze''' (x) von ''m''
 +
* Ermittlung der '''Klassenbreite''' ''h'' (ergibt sich aus obere Klassengrenze - untere Kl.Grenze) .
 +
* Subtraktion der akkumulierten Häufigkeit aller Klassen bis zur Klasse ''m'' (d.h. die Klassen 1 bis m-1) von n/2 -> Position des Medians in der Medianklasse
 +
* Division der Position durch die Zahl der Werte der Klasse = relative Größenordnung des Medians (Anteile vom Ganzen der Klasse)
 +
* Multiplikation des relativen Klassenanteils mit der Klassenbreite = absolute Größenordnung des Medians '''innerhalb''' der Klasse
 +
* Addition der unteren Klassengrenze (in welcher der Median liegt) zur absoluten Größe des Medians (in der Klasse) = Endergebnis = Median ''Z''
  
Viel übersichtlicher wäre es aber, diese 100 verschiedenen Ausprägungen zu '''Klassen''' von benachbarten Messwerten zusammenzufassen. Treten extrem viele unterschiedliche Ausprägungen auf, sind 10-19 Klassen sinnvoll. Wählt man bei diesem Beispiel 10 Klassen, fallen jeweils 10 Messwerte in eine Klasse (100:10=10): [[File:quantitative-68_2.jpg|frame|center|In Klassen eingeteilte Körpergrößen]]
+
  
Die '''Klassenbreite''' ist bei '''diskreten Variablen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.2 Stetige und diskrete Variablen|[2]]]''' die Anzahl der in der Klasse zusammengefassten Messwerte. Berechnet wird sie mit: ''Höchster Wert der Klasse'' minus ''höchstem Wert der vorausgegangenen Klasse'' (hier also mit z.B. 1,89 m- 1,79 m= 0,10 m).
+
[[File:quantitative-75_1.jpg|frame|center|Formel für den Median bei gruppierten Daten]]
  
Die ''(exakten)'' '''Klassengrenzen (Intervallgrenzen)''' sind die kleinsten bzw. größten Messwerte einer Klasse (hier also z.B. 1,70 m und 1,79999 =1,8 m).
+
  
Bei richtiger '''Klassenbreite''' sollten keine leeren Klassen (Häufigkeit = 0) auftreten. Um Ausreißer mitbehandeln zu können, könnte man die untersten und obersten Klassen offen machen: z.B. „kleiner als 1,30 m“ statt „1,20-1,29 m“ bzw. „größer als 2,09 m“ statt „2,10-2,19 cm“.
+
'''Beispiel:''' Zeitverbrauch bei Lösung einer Aufgabe
  
Die '''Klassenmitte''' ist der Durchschnitt des kleinsten und des größten Wertes einer Klasse. Die Klassenmitte von 1,50-1,5999 periodisch wäre daher 1,55 m. Die Klassenmitte wird für spätere Berechnungen von Bedeutung sein (z.B. für Durchschnittsberechnungen).
+
[[File:quantitative-75_2.jpg|frame|center|Beispiel - Tabelle für den Zeitverbrauch bei der Lösung einer Aufgabe]]
  
 +
n=37, Median ist also der 18. Wert, dieser liegt in der Klasse 5 (4,5-5,5 Minuten Dauer), daher:
  
 +
[[File:quantitative-75_3.jpg|frame|center|Berechnung des Medians für das Beispiel "Zeitverbrauch"]]
  
'''Verweise:'''<br />
+
Der Median liegt somit bei 5.
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1] Siehe Kapitel 3.1.3]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.2 Stetige und diskrete Variablen|[2] Siehe Kapitel 3.1.1.2]]<br />
 
  
 +
== 3.3.4 Geometrisches Mittel ==
  
-----
+
Das '''geometrische Mittel''' ist der '''Mittelwert bei mathematischen Produkten''', wie z.B. bei Wachstums- oder Zinsfaktoren. Das geometrische Mittel kann nur bei '''Proportionalskalen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.5 Proportionalskalierung|[1]]]''' verwendet werden. Dieses wird als n- te Wurzel aus der relativen Veränderung (Endwert dividiert durch Anfangswert) berechnet, wobei n der Zahl der Zeiteinheiten entspricht.
  
=== 3.2.3.1 Gruppierung mit SPSS  ===
+
'''Beispiel: durchschnittliche Inflationsrate'''<br />
 +
Nehmen wir an, die jährliche Inflationsrate hätte durch 10 Jahre hindurch jeweils 2 % pro Jahr betragen. Hier wäre es falsch anzunehmen, dass die Inflation nach den 10 Jahren um 20 % höher als davor liegt, da sich die Werte gegenseitig beeinflussen. Im ersten Jahr sind es 2 % Inflation von 100 %; im 2. Jahr 2 % von 102 % (also 2,04 % Preissteigerung verglichen mit dem Ausgangsjahr), im 3. Jahr 2 von 104,04 (= 2,0808 % vergleichen mit dem Ausgangsjahr).
  
In vielen Fällen, besonders bei '''stetigen Variablen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.2 Stetige und diskrete Variablen|[1]]]''', wird die Zahl der Ausprägungen einer Variablen so groß sein, dass '''Häufigkeitsverteilungen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[2]]]''' unübersichtlich werden. Im folgenden Beispiel wurde die Altersverteilung der Antwortenden abgefragt:
+
Ähnlich müssen wir zurückrechnen, wenn wir von einem bestimmten Preisniveau nach 10 Jahren auf die durchschnittliche Inflationsrate dieser 10 Jahre schließen wollen.
  
[[File:quantitative-69_1.gif|frame|center|Häufigkeitsverteilung des Alters der Befragten]]
+
==== '''Errechnung der durchschnittlichen Inflationsrate''' ====
  
Es wäre deutlich übersichtlicher, diese Werte in eine kleine Zahl von Klassen umzukodieren. Dazu benützen Sie die Funktion TRANSFORMIEREN - '''UMCODIEREN[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.3.2 Umcodierung mit SPSS|[3]]]''' in der Menüleiste. Nun können Sie sich entscheiden zwischen einer Umcodierung in die ''gleiche'' oder in ''eine andere Variable''. Es ist besser, sich für ''eine andere Variable'' zu entscheiden, da durch die '''Umcodierung''' (man kann auch mehrere Werte zu einem einzigen neuen umcodieren) Informationsverlust auftreten kann (ob willentlich oder durch einen Bedienungsfehler). Dieses Problem wird durch ''Umcodierung in eine neue Variable'' ausgeschlossen.
+
Der Lebenshaltungskostenindex liegt 2006 bei 136,5, vor 10 Jahren lag dieser bei 100. Somit erfolgte eine Preissteigerung von 36,5 % im Laufe der letzten 10 Jahre. Es wäre hier falsch, als durchschnittliche Preissteigerung/Jahr den Wert 3,65 % anzunehmen (36,5 % durch die Zahl der Jahre, also 10, dividiert), da sich die Werte gegenseitig beeinflussten (multiplizierten).
  
Sie wählen nun die Variable aus, welche umcodiert werden soll und geben im Feld ''Ausgabevariable'' einen neuen Namen dafür ein, der aus Gründen der Kompatibilität mit älteren Programmen acht Zeichen nicht überschreiten darf. Im Feld darunter können Sie jedoch einen beliebig langen und expressiveren Namen wählen.
+
Den richtigen Wert erhält man, wenn man die 10. Wurzel (da 10 Jahre) aus dem Gesamtveränderungsfaktor zieht. Diesen erhält man, indem man den Endwert durch den Ausgangswert dividiert: 136,5 dividiert durch 100 ist 1,365. Die 10.Wurzel daraus ist 1,0304. 100 multipliziert mit 1,024*1,0304*1,0304 etc. (insgesamt 10x damit multipliziert) ergibt nach 10 Jahren 136,5.
  
Klicken Sie nun auf ''Alte und neue Werte''. Da Sie mehrere (numerische) Werte zu einem einzigen neuen zusammenfassen möchten, können Sie jeweils einen Bereich angeben (z.B. ''Bereich'' 20 ''bis'' 29), wenn Sie alle zwischen 20- 29jährigen in eine einzige Altersklasse ’zwischen 20 und 30 einbringen möchten’). Klicken Sie nach jeder einzelnen Angabe zur Umcodierung auf ''Hinzufügen.'' Für die unterste Klasse (alle unter 20jährigen wählen Sie ''Bereich, KLEINSTER bis Wert:'' (hier würden Sie 19 eingeben). Für die über 70jährigen bilden Sie eine offene Klasse, dazu wählen Sie ''Bereich, Wert bis GRÖSSTER:'' und geben hier 70 ein.  
+
Die Differenz zu 1 multipliziert mit 100 (es handelt sich ja um Prozente, bisher sind es nur Teile vom Ganzen) ist 0,0304*100 = 3,04 % jährliche Preissteigerung (und nicht 3,65, wenn wir das rein arithmetische Mittel genommen hätten).
  
[[File:quantitative-69_2.jpg|frame|center|Umkodieren in andere Variablen mit SPSS]]
 
  
Klicken Sie am Ende auf Weiter und dann auf OK. Ihre Daten werden nun in die neue Variable umcodiert.
 
  
Die neue Häufigkeitstabelle sieht jetzt folgendermaßen aus:
+
'''Verweise:'''<br />
 +
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.5 Proportionalskalierung|[1] Siehe Kapitel 3.1.2.5]]<br />
  
[[File:quantitative-69_3.gif|frame|center|Häufigkeitstabelle der umkodierten Altersverteilung]]
 
  
Nun müssen wir die neuen Werte, ausschließlich für die Ausgabe von '''SPSS''', '''rückcodieren''', um die Tabelle informativer zu machen, da wir nicht sofort erkennen können, dass ''0'' für ’unter 20’ steht. Damit SPSS intern mit den numerischen Daten rechnen kann, wir jedoch bei allen Ausgaben ('''Diagramme[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6 Die grafische Darstellung statistischer Ergebnisse|[4]]]''', Analysen etc.) informative Bezeichnungen erhalten, klicken wir in SPSS unten links auf die ''Variablenansicht.'' Im neuen Fenster finden wir bei der neuen Variable das Attribut ''Variablenlabel.'' Nach Doppelklick darauf erscheint folgendes Fenster:
+
== 3.3.5 Harmonisches Mittel ==
  
[[File:quantitative-69_4.jpg|frame|center|Wertelabels definieren mit SPSS]]
+
Das '''harmonische Mittel''' ist ein geeignetes Lagemaß für Größen, die durch einen '''(relativen) Bezug auf eine Einheit''' definiert sind: z.B. Geschwindigkeiten (Strecke pro Zeiteinheit) oder Ernteerträge (Gewicht oder Volumen pro Flächeneinheit).
  
Wir geben nun die gewünschten Labels für die numerischen Daten ein, also z.B. ''20-29'' für die Zahl 1 usw. Nach Eingabe aller automatisch durchzuführenden Änderungen klicken wir auf OK.
+
Die zur Berechnung benötigte Formel ist:
  
Wenn wir nun die gleiche '''Häufigkeitsberechnung''' wie oben durchführen, erhalten wir nun folgende leichter verständliche Tabelle:
+
[[File:quantitative-77_1.jpg|frame|center|Formel für die Berechnung des harmonischen Mittels]]
  
[[File:quantitative-69_5.gif|frame|center|Häufigkeitstabelle mit Klassenlabels]]
+
'''Beispiel: Durchschnittsreisegeschwindigkeit'''<br />
 +
Elke fährt von Wien nach Melk (etwa 100 km) mit einer Durchschnittsgeschwindigkeit von 80 km/h. Anschließend fährt sie mit durchschnittlich 120 km/h von Melk nach Linz und legt dabei ebenfalls 100 km zurück. Wie schnell fuhr sie im Schnitt?
  
 +
Die meisten Befragten würden nach kurzer Überlegung 100 km/h als Durchschnittsgeschwindigkeit angeben. Doch ist dies falsch, da Elke unterschiedlich lange mit diesen beiden Geschwindigkeiten unterwegs war. Elke braucht für die ersten 100 km, die sie mit 80 km/h zurücklegt, insgesamt 100/80 Stunden, also 1,25 Stunden oder 1 Stunde und 15 Minuten. Für die zweiten Hundert Kilometer, die sie mit 120 km/h zurücklegt, benötigt sie 100/120 Stunden, also 5/6 Stunden oder 50 Minuten. Insgesamt legte sie somit 200 km in einer Zeit von 2,083 Stunden zurück (2 Stunden und 5 Minuten). 200 km dividiert durch die Zeit, die sie dafür benötigte, ergibt nun eine Durchschnittsgeschwindigkeit von 96,02 km/h.
  
  
'''Verweise:'''<br />
+
-----
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.1.2 Stetige und diskrete Variablen|[1] Siehe Kapitel 3.1.1.2]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[2] Siehe Kapitel 3.1.3]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.3.2 Umcodierung mit SPSS|[3] Siehe Kapitel 2.2.3.2]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6 Die grafische Darstellung statistischer Ergebnisse|[4] Siehe Kapitel 3.6]]<br />
 
  
== 3.2.4 Häufigkeitsdarstellung bei Mehrfachantworten mit SPSS ==
+
=== 3.3.5.1 Harmonisches Mittel mit SPSS ===
  
Falls Sie bei einer Frage explizit Mehrfachantworten zugelassen haben, können Sie deren '''Häufigkeiten''' mit '''SPSS''' komfortabel tabellarisch darstellen.
+
Legen Sie zwei Variable an.Variable 1 für die Distanz, Variable 2 für die Geschwindigkeit. Nach Eingabe der Werte klicken Sie auf ANALYSIEREN - MITTELWERTE VERGLEICHEN - MITTELWERTE und geben dort unter ''Abhängige Variable'' die Geschwindigkeit ein, unter ''Unabhängige Variable'' die Distanz.
  
==== '''1. Definition eines Mehrfachantwortensets''' ====
+
[[File:quantitative-78_1.jpg|frame|center|Berechnung des harmonischen Mittels mit SPSS]]
  
Sie müssen dazu zuerst ein ''(Mehrfachantworten-)Set'' definieren:
+
Klicken Sie dann auf ''Optionen'' und wählen Sie im nächsten Fenster das '''Harmonische Mittel''' aus. Fertig.
  
Klicken Sie in der Menüleiste auf ANALYSIEREN - MEHRFACHANTWORT - SET DEFINIEREN. Dann öffnet sich folgendes Fenster:
+
== 3.3.6 Wann welche Lagemaße? ==
  
[[File:quantitative-70_1.jpg|frame|center|Definieren eines Mehrfachantwortensets mit SPSS]]
+
[[File:quantitative-79_1.jpg|frame|center|Geeignetes Lagemaß bei verschiedenen Skalen]]
  
Führen Sie bitte folgende Schritte durch:
+
Die Zahl in Klammern gibt die Priorität an. X(1) wird daher als wichtiger als X(2) eingestuft. Fett markiertes X bezeichnet Kennzahlen, welche bei der gegebenen Datenart absolut sinnvoll sind, nicht fettes X liefert mögliche, aber nicht besonders sinnvolle oder teilweise sogar in die Irre führende Werte.
  
A. Sie wählen verschiedene dichotome Variable aus, die Sie in ''Variablen im Set'' einfügen;
+
Während Lagemaße bei '''eingipfeligen symmetrischen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.1 Normalverteilung|[1]]]''' '''Daten''' weitgehend übereinstimmen und typisch für die Daten sind, sind sie bei '''anderen Verteilungsformen[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.2 Andere Verteilungsformen|[2]]]''' ('''U-förmige''', sehr '''schiefe''', '''mehrgipfelige''', '''gleichverteilte''') nicht aussagekräftig für die Verteilung.
  
B. Tragen Sie unter ''Gezählter Wert'' die Zahl 1 ein (d.h. dass jede Ja-Stimme einen Punkt zählt);
 
  
C. Sie lassen die Standardauswahl ''Dichotomien'' bei ''Variablen kodiert als'';
 
  
D. Sie wählen einen Kurznamen (max. acht Zeichen für das Set) und tragen ihn unter ''Name'' ein;
+
'''Verweise:'''<br />
 +
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.1 Normalverteilung|[1] Siehe Kapitel 3.1.3.1]]<br />
 +
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.2 Andere Verteilungsformen|[2] Siehe Kapitel 3.1.3.2]]<br />
  
E. Sie tragen unter ''Beschriftung'' einen längeren Namen ein, welcher die Tabelle anschaulich beschriften soll.
 
  
F. Klicken Sie nun auf Hinzufügen und letztendlich auf ''Schließen.''
+
== 3.3.7 Berechnung von Lagemaßen mit SPSS ==
  
Das Set ist nun definiert, Sie können zur Analyse gehen:
+
Während das '''geometrische Mittel[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.4 Geometrisches Mittel|[1]]]''' mit jedem mathematischen Taschenrechner leicht berechnet werden kann (einfach n-te Wurzel aus der Endzahl), sind die '''Lagemaße''' mit SPSS sehr einfach zu berechnen.
  
==== '''2. Analyse''' ====
+
Klicken Sie in der Menüleiste auf ANALYSIEREN - HÄUFIGKEITEN und wählen Sie dann ''Statistik'' aus:
  
A. Klicken Sie auf ANALYSIEREN - MEHRFACHANTWORT - HÄUFIGKEITEN. Das folgende Fenster öffnet sich:
+
[[File:quantitative-80_1.jpg|frame|center|Berechnung von Lagemaßen mit SPSS]]
  
[[File:quantitative-70_2.jpg|frame|center|Häufigkeitsanalyse von Mehrfachantwortensets mit SPSS]]
+
Nun können Sie alle '''Lagemaße''' auswählen, den '''Mittelwert''', den '''Median''' und den '''Modalwert'''. Das folgende Resultat stammt aus der Berechnung der Lagemaße des Bruttonationalprodukts der Länder dieser Welt im Jahr 1995 (world95.sav).
  
B. Wählen Sie das '''Mehrfachantworten-Set''', welches Sie angelegt haben und ziehen Sie es in das Feld ''Tabelle(n) für:''
+
[[File:quantitative-80_2.gif|frame|center|Lagemaße des BNE aller Länder der Welt]]
  
C. Klicken Sie auf OK. Die Analyse wird durchgeführt:
+
Wir sehen, dass die '''Lagemaße''' extrem auseinanderliegen. Warum, macht das '''Histogramm[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[2]]]''' mit '''Normalverteilungskurve[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.1 Normalverteilung|[3]]]''' (anklicken unter ''Diagramme'') sofort sichtbar: Eine kleine Zahl von reichen Ländern hebt das '''arithmetische Mittel''' auf ein Niveau, welches außerhalb der Reichweite der meisten Länder dieser Welt liegt:
  
[[File:quantitative-70_3.jpg|frame|center|Häufigkeitstabelle eines Mehrfachantwortensets]]
+
[[File:quantitative-80_3.jpg|frame|center|Histogramm des BNE aller Länder der Welt]]
  
 +
Wäre es eine '''Normalverteilung''', würden im Bereich (Artithm. Mittel +/s s) 68 % aller Werte liegen. Zieht man jedoch die Standardabweichung s (= 6479) vom Mittelwert ab, gelangt man am linken Rand bereits in den negativen Einkommensbereich. Auch dies zeigt die Sinnlosigkeit der Verwendung des '''arithmetischen Mittels''' bei diesen Daten. Der '''Median''' hingegen bildet hier die Realität mit knapp 3000 $ wesentlich besser ab.
 +
 +
 +
'''Verweise:'''<br />
 +
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3.4 Geometrisches Mittel|[1] Siehe Kapitel 3.3.4]]<br />
 +
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Darstellung#3.6.1.5 Histogramme|[2] Siehe Kapitel 3.6.1.5]]<br />
 +
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.1 Normalverteilung|[3] Siehe Kapitel 3.1.3.1]]<br />
  
 
<br />
 
<br />
'''[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Mittelwerte#3.3 "Mittelwerte": Lagemaße und Maßzahlen der zentralen Tendenz|Nächstes Kapitel: 3.3 "Mittelwerte": Lagemaße und Maßzahlen der zentralen Tendenz]]'''
+
'''[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Streuung#3.4 Streuungsmaße oder ’Wie allgemeingültig ist der Mittelwert’|Nächstes Kapitel: 3.4 Streuungsmaße oder ’Wie allgemeingültig ist der Mittelwert’]]'''
 
----
 
----
[[#3.2 Die Ermittlung von Häufigkeiten|&uarr; Nach oben]]
+
[[#3.3 "Mittelwerte": Lagemaße und Maßzahlen der zentralen Tendenz|&uarr; Nach oben]]

Latest revision as of 14:32, 24 September 2020

Vorheriges Kapitel: 3.2 Die Ermittlung von Häufigkeiten

3.3 "Mittelwerte": Lagemaße und Maßzahlen der zentralen Tendenz

verfasst von Erwin Ebermann

Lagemaße beschreiben das Zentrum einer Verteilung durch eine Kennzahl.

Wenn wir von einem Land wissen, dass seine EinwohnerInnen durchschnittlich 2000 € monatlich verdienen, dann liefern uns Lagemaße eine erste ungenaue Idee, wo sich die EinwohnerInnen des Landes einkommensmäßig im Weltmaßstab einordnen lassen, sie ’liegen’ in der Gruppe der reicheren Länder.

Lagemaße werden oft auch als Maßzahlen der zentralen Tendenz bezeichnet. Die am häufigsten benutzten Lagemaße sind das arithmetische Mittel, das geometrische Mittel, der Median und der Modalwert.

  • Das arithmetische Mittel bezeichnet den Durchschnittswert aller Einträge,
  • das geometrische Mittel bezieht sich auf den Durchschnittswert voneinander abhängiger Werte (die sich also gegenseitig beeinflussen),
  • der Median kennzeichnet die Normalität (welcher Wert befindet sich größenmäßig wirklich in der Mitte der Einträge und entspricht somit am ehesten dem ’Normalfall’),
  • der Modalwert bezeichnet ausschließlich den am häufigsten vorkommenden Wert, der keinerlei Hinweis über die Eigenheiten der anderen Werte gibt.

Je nach Verteilung[1], Skalenniveau[2] und Art der Daten[3] sind unterschiedliche Lagemaße sinnvoll. Bei gegebener Normalverteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3.1 Normalverteilung|[4]9] stimmen sowohl Median wie auch der Modalwert mit dem Arithmetischen Mittel überein. In schiefen Verteilungen hingegen nehmen sie sehr unterschiedliche Positionen ein. In rechtsschiefen Verteilungen (der Abfall erfolgt nach rechts) ist der Modalwert am kleinsten, danach kommt der Median, am größten ist der Mittelwert. In linksschiefen Verteilungen ist es umgekehrt.

Unterschiedliche Lage von Median, Mittelwert und Modalwert in rechtsschiefer Verteilung


Verweise:
[1] Siehe Kapitel 3.1.3
[2] Siehe Kapitel 3.1.2
[3] Siehe Kapitel 3.1.1
[4] Siehe Kapitel 3.1.3.1

Inhaltsverzeichnis

3.3.1 Modalwert

Unter einem Modalwert versteht man die am häufigsten vorkommende Ausprägung einer Variable.

Beispiel:
In der folgenden geordneten Zahlenreihe 2, 3, 3, 3, 4, 4, 5, 6, 7 wäre 3 der Modalwert (weil diese Zahl dreimal auftritt, häufiger als jede andere Zahl).

Mittelung bei benachbarten gleichgroßen Werten

Falls mehrere benachbarte Werte die größte Häufigkeit aufweisen, so wird ihr arithmetisches Mittel berechnet. Haben z.B. die Werte 5 und 6 gleichermaßen die größte Häufigkeit, so ist der Modalwert der Durchschnitt dieser beiden Werte.

Beispiel:
In der Zahlenreihe 2, 3, 3, 3, 4, 4, 4, 5, 6, 7 liegt der Modalwert bei 3,5. Sowohl 3 wie auch 4 kommen mit jeweilig dreimaligem Auftreten häufiger als die anderen Werte vor. Das arithmetische Mittel von 3 und 4 liegt bei 3,5.

Modalklasse: Klasse mit größter Zahl an Einträgen

Bei klassierten Daten[1] ist die Modalklasse diejenige Klasse mit der größten Zahl an Einträgen

Nur selten praktische Relevanz des Modalwerts

Der Modalwert ist aussagekräftig, wenn ein einzelner Wert sehr häufig vorkommt (z.B. 27 Frauen und drei Männer) und unsinnig, wenn der häufigste Wert nur relativ selten vorkommt. Der Modalwert kann im Gegensatz zum arithmetischen Mittelwert oder zum Median auch sinnvoll in Nominalskalen[2] verwendet werden.


Verweise:
[1] Siehe Kapitel 3.2.3
[2] Siehe Kapitel 3.1.2.2


3.3.2 Arithmetisches Mittel

Das arithmetische Mittel ist die Summe aller Messwerte geteilt durch deren Anzahl:

Formel für das arithmetische Mittel

Z.B. die durchschnittliche Zahl von Schafen der Bauern im Dorf Nkorongoji in Mali: Die Messwerte sind: 5, 12, 3, 4, 7, 6. Die Summe ist 37, die Zahl der Messwerte ist 6, also ist das arithmetische Mittel 37/6= 6,17.

Arithmetisches Mittel bei Einteilung der Messwerte in Klassen:

Wenn die Daten zahlreicher sind bzw. bereits in Klassen[1] eingeteilt wurden, kann man das arithmetische Mittel einfacher berechnen: man multipliziert in jeder Klasse die Klassenmitte (Durchschnitt aus dem theoretisch kleinstem und größten Wert einer Klasse) mit der Zahl der Einträge in der jeweiligen Klasse:

Arithmetisches Mittel bei Einteilung der Messwerte in Klassen
Beispiel für die Klassenmitte von Messwertklassen


Der Durchschnitt, in diesem Fall das durchschnittliche Gehalt, wäre somit 14500/17= 852,94.

Das arithmetische Mittel stößt bei bestimmten Datenlagen jedoch auch auf einige Probleme.


Verweise:
[1] Siehe Kapitel 3.2.3


3.3.3 Median

Der Median ist jener Wert, welcher in einer größenmäßig geordneten Reihe genau in der Mitte liegt. D.h. oberhalb wie unterhalb von ihm befindet sich eine gleichgroße Anzahl von Einträgen.

Warum benötigen wir ihn, da es doch auch das arithmetische Mittel[1] gibt? Das arithmetische Mittel ist der Mittelwert, der sich ergibt, wenn wir eine Summe durch die Anzahl der gezählten Elemente dividieren.

Beispiel: Verzerrung durch Mittel, nicht aber durch Median

Die folgende Grafik zeigt das individuelle Einkommen der EinwohnerInnen des fiktiven Ortes Largebread im Jahr 2002:

Durchschnittseinkommen in Largebread

Das durchschnittliche Einkommen von etwa 26000 $ scheint die Einkommenssituation der EinwohnerInnen von Largebread gut zu beschreiben. Die Normalverteilungskurve[2] zeigt uns an, dass das Einkommen relativ gut normalverteilt ist.

Was würde aber jetzt passieren, wenn der reichste Mann der Welt, Bill Gates, sich plötzlich entschließen würde, nach Largebread zu ziehen? Bill Gates verfügt über ein Jahreseinkommen von 5 Milliarden $. Das Diagramm verändert sich extrem:

Durchschnittseinkommen von Largebread mit Bill Gates

Haben ohne Bill Gates die 1100 EinwohnerInnen von Largebread durchschnittlich 26064 $ im Jahr verdient, so sind sie nun scheinbar über Nacht reich geworden und verdienen mit Bill Gate nun durchschnittlich fast 5 Millionen Dollar im Jahr. Man sieht deutlich, dass einzelne "Ausreißer" wie Bill Gates einen derartigen Durchschnittswert unsinnig machen können. Zur Beschreibung der Realität von Largebread ist daher ein Indikator für das durchschnittliche Einkommen deutlich besser geeignet, welcher Ausreißer nicht berücksichtigt, nämlich der Median: Das Durchschnittseinkommen in Largebread, berechnet nach dem Median, liegt ohne Bill Gates bei 26.000 und auch mit ihm nur bei 26.000 $.

Probleme des Arithetischen Mittel:

Das arithmetische Mittel stößt somit an seine Grenzen:

  • wo extreme Grenzwerte auftreten (wie in Largebread),
  • bei sehr kleiner Beobachtungszahl (einzelne Werte können besonders leicht den Durchschnittswert verzerren),
  • bei Verteilungen mit offenen Klassen (Schwierigkeit der Bestimmung der Klassenmitte der offenen Klassen),
  • bei Ordinalskalen[3] (hier sollte er nicht verwendet werden).

In all diesen Fällen ist es genauer, zum Median zu greifen. Der Median ist der Wert, der in einer geordneten Liste (oder primären Tafel) genau in der Mitte liegt, d.h. dass sich genauso viele Werte oberhalb wie unterhalb des Wertes befinden. Dieser Wert liegt an (n+1)/2ter Position. Hat man 3 Werte, dann ist der Medien der 2. Wert ([3+1]/2).

Berechnung des Median bei Urliste:

  • Werte nach Größe rangreihen,
  • mittleren Wert nehmen,
  • liegt der Median zwischen 2 Werten (wenn Median nicht ganze Zahl ist), dann wird der Durchschnitt der ihn umgebenden 2 Werte genommen.

z.B. Schulnoten 3,2,2,5,1,1,2,5 -> Rangreihung: 1,1,2,2,2,3,5,5 -> Der 4,5. Wert (Durchschnitt aus 2+2) ist der Median, also 2.


Verweise:
[1] Siehe Kapitel 3.3.2
[2] Siehe Kapitel 3.1.3.3.1
[3] Siehe Kapitel 3.1.2.3



3.3.3.1 Median bei gruppierten Daten

Bei gruppierten Daten ist die Berechnung des Medians ein wenig komplizierter. Hier ist die rechnerische Abfolge:

  • Bildung der Häufigkeitstabelle (inklusive kumulierter Häufigkeiten)
  • Ermittlung der Klasse m, in welcher der Median steckt: wo liegt der Wert (n+1)/2. Diese wird nun als Medianklasse bezeichnet (n= Gesamtanzahl der Einträge)
  • Ermittlung der unteren (=xmu) und oberen Klassengrenze (x) von m
  • Ermittlung der Klassenbreite h (ergibt sich aus obere Klassengrenze - untere Kl.Grenze) .
  • Subtraktion der akkumulierten Häufigkeit aller Klassen bis zur Klasse m (d.h. die Klassen 1 bis m-1) von n/2 -> Position des Medians in der Medianklasse
  • Division der Position durch die Zahl der Werte der Klasse = relative Größenordnung des Medians (Anteile vom Ganzen der Klasse)
  • Multiplikation des relativen Klassenanteils mit der Klassenbreite = absolute Größenordnung des Medians innerhalb der Klasse
  • Addition der unteren Klassengrenze (in welcher der Median liegt) zur absoluten Größe des Medians (in der Klasse) = Endergebnis = Median Z


Formel für den Median bei gruppierten Daten


Beispiel: Zeitverbrauch bei Lösung einer Aufgabe

Beispiel - Tabelle für den Zeitverbrauch bei der Lösung einer Aufgabe

n=37, Median ist also der 18. Wert, dieser liegt in der Klasse 5 (4,5-5,5 Minuten Dauer), daher:

Berechnung des Medians für das Beispiel "Zeitverbrauch"

Der Median liegt somit bei 5.

3.3.4 Geometrisches Mittel

Das geometrische Mittel ist der Mittelwert bei mathematischen Produkten, wie z.B. bei Wachstums- oder Zinsfaktoren. Das geometrische Mittel kann nur bei Proportionalskalen[1] verwendet werden. Dieses wird als n- te Wurzel aus der relativen Veränderung (Endwert dividiert durch Anfangswert) berechnet, wobei n der Zahl der Zeiteinheiten entspricht.

Beispiel: durchschnittliche Inflationsrate
Nehmen wir an, die jährliche Inflationsrate hätte durch 10 Jahre hindurch jeweils 2 % pro Jahr betragen. Hier wäre es falsch anzunehmen, dass die Inflation nach den 10 Jahren um 20 % höher als davor liegt, da sich die Werte gegenseitig beeinflussen. Im ersten Jahr sind es 2 % Inflation von 100 %; im 2. Jahr 2 % von 102 % (also 2,04 % Preissteigerung verglichen mit dem Ausgangsjahr), im 3. Jahr 2 von 104,04 (= 2,0808 % vergleichen mit dem Ausgangsjahr).

Ähnlich müssen wir zurückrechnen, wenn wir von einem bestimmten Preisniveau nach 10 Jahren auf die durchschnittliche Inflationsrate dieser 10 Jahre schließen wollen.

Errechnung der durchschnittlichen Inflationsrate

Der Lebenshaltungskostenindex liegt 2006 bei 136,5, vor 10 Jahren lag dieser bei 100. Somit erfolgte eine Preissteigerung von 36,5 % im Laufe der letzten 10 Jahre. Es wäre hier falsch, als durchschnittliche Preissteigerung/Jahr den Wert 3,65 % anzunehmen (36,5 % durch die Zahl der Jahre, also 10, dividiert), da sich die Werte gegenseitig beeinflussten (multiplizierten).

Den richtigen Wert erhält man, wenn man die 10. Wurzel (da 10 Jahre) aus dem Gesamtveränderungsfaktor zieht. Diesen erhält man, indem man den Endwert durch den Ausgangswert dividiert: 136,5 dividiert durch 100 ist 1,365. Die 10.Wurzel daraus ist 1,0304. 100 multipliziert mit 1,024*1,0304*1,0304 etc. (insgesamt 10x damit multipliziert) ergibt nach 10 Jahren 136,5.

Die Differenz zu 1 multipliziert mit 100 (es handelt sich ja um Prozente, bisher sind es nur Teile vom Ganzen) ist 0,0304*100 = 3,04 % jährliche Preissteigerung (und nicht 3,65, wenn wir das rein arithmetische Mittel genommen hätten).


Verweise:
[1] Siehe Kapitel 3.1.2.5


3.3.5 Harmonisches Mittel

Das harmonische Mittel ist ein geeignetes Lagemaß für Größen, die durch einen (relativen) Bezug auf eine Einheit definiert sind: z.B. Geschwindigkeiten (Strecke pro Zeiteinheit) oder Ernteerträge (Gewicht oder Volumen pro Flächeneinheit).

Die zur Berechnung benötigte Formel ist:

Formel für die Berechnung des harmonischen Mittels

Beispiel: Durchschnittsreisegeschwindigkeit
Elke fährt von Wien nach Melk (etwa 100 km) mit einer Durchschnittsgeschwindigkeit von 80 km/h. Anschließend fährt sie mit durchschnittlich 120 km/h von Melk nach Linz und legt dabei ebenfalls 100 km zurück. Wie schnell fuhr sie im Schnitt?

Die meisten Befragten würden nach kurzer Überlegung 100 km/h als Durchschnittsgeschwindigkeit angeben. Doch ist dies falsch, da Elke unterschiedlich lange mit diesen beiden Geschwindigkeiten unterwegs war. Elke braucht für die ersten 100 km, die sie mit 80 km/h zurücklegt, insgesamt 100/80 Stunden, also 1,25 Stunden oder 1 Stunde und 15 Minuten. Für die zweiten Hundert Kilometer, die sie mit 120 km/h zurücklegt, benötigt sie 100/120 Stunden, also 5/6 Stunden oder 50 Minuten. Insgesamt legte sie somit 200 km in einer Zeit von 2,083 Stunden zurück (2 Stunden und 5 Minuten). 200 km dividiert durch die Zeit, die sie dafür benötigte, ergibt nun eine Durchschnittsgeschwindigkeit von 96,02 km/h.



3.3.5.1 Harmonisches Mittel mit SPSS

Legen Sie zwei Variable an.Variable 1 für die Distanz, Variable 2 für die Geschwindigkeit. Nach Eingabe der Werte klicken Sie auf ANALYSIEREN - MITTELWERTE VERGLEICHEN - MITTELWERTE und geben dort unter Abhängige Variable die Geschwindigkeit ein, unter Unabhängige Variable die Distanz.

Berechnung des harmonischen Mittels mit SPSS

Klicken Sie dann auf Optionen und wählen Sie im nächsten Fenster das Harmonische Mittel aus. Fertig.

3.3.6 Wann welche Lagemaße?

Geeignetes Lagemaß bei verschiedenen Skalen

Die Zahl in Klammern gibt die Priorität an. X(1) wird daher als wichtiger als X(2) eingestuft. Fett markiertes X bezeichnet Kennzahlen, welche bei der gegebenen Datenart absolut sinnvoll sind, nicht fettes X liefert mögliche, aber nicht besonders sinnvolle oder teilweise sogar in die Irre führende Werte.

Während Lagemaße bei eingipfeligen symmetrischen[1] Daten weitgehend übereinstimmen und typisch für die Daten sind, sind sie bei anderen Verteilungsformen[2] (U-förmige, sehr schiefe, mehrgipfelige, gleichverteilte) nicht aussagekräftig für die Verteilung.


Verweise:
[1] Siehe Kapitel 3.1.3.1
[2] Siehe Kapitel 3.1.3.2


3.3.7 Berechnung von Lagemaßen mit SPSS

Während das geometrische Mittel[1] mit jedem mathematischen Taschenrechner leicht berechnet werden kann (einfach n-te Wurzel aus der Endzahl), sind die Lagemaße mit SPSS sehr einfach zu berechnen.

Klicken Sie in der Menüleiste auf ANALYSIEREN - HÄUFIGKEITEN und wählen Sie dann Statistik aus:

Berechnung von Lagemaßen mit SPSS

Nun können Sie alle Lagemaße auswählen, den Mittelwert, den Median und den Modalwert. Das folgende Resultat stammt aus der Berechnung der Lagemaße des Bruttonationalprodukts der Länder dieser Welt im Jahr 1995 (world95.sav).

Lagemaße des BNE aller Länder der Welt

Wir sehen, dass die Lagemaße extrem auseinanderliegen. Warum, macht das Histogramm[2] mit Normalverteilungskurve[3] (anklicken unter Diagramme) sofort sichtbar: Eine kleine Zahl von reichen Ländern hebt das arithmetische Mittel auf ein Niveau, welches außerhalb der Reichweite der meisten Länder dieser Welt liegt:

Histogramm des BNE aller Länder der Welt

Wäre es eine Normalverteilung, würden im Bereich (Artithm. Mittel +/s s) 68 % aller Werte liegen. Zieht man jedoch die Standardabweichung s (= 6479) vom Mittelwert ab, gelangt man am linken Rand bereits in den negativen Einkommensbereich. Auch dies zeigt die Sinnlosigkeit der Verwendung des arithmetischen Mittels bei diesen Daten. Der Median hingegen bildet hier die Realität mit knapp 3000 $ wesentlich besser ab.


Verweise:
[1] Siehe Kapitel 3.3.4
[2] Siehe Kapitel 3.6.1.5
[3] Siehe Kapitel 3.1.3.1


Nächstes Kapitel: 3.4 Streuungsmaße oder ’Wie allgemeingültig ist der Mittelwert’


↑ Nach oben