5. Lexikon statistischer Grundbegriffe

^{verfasst von Erwin Ebermann}

Hier finden Sie die wichtigsten statistischen Grundbegriffe alphabetisch geordnet.

Inhalt

5.1 A-C

Abhängige Variable

Darunter versteht man Variable, deren Ausprägung durch eine oder mehrere andere Variablen systematisch beeinflusst werden. So wäre z.B. in der Landwirtschaft der Ernteertrag abhängig z.B. von der Bodenqualität wie auch vom Einsatz von Düngemitteln.

Alpha-Fehler

Siehe Fehler der 1. Art

Alternativhypothese

Unter einer Alternativhypothese versteht man bei statistischen Tests die Gegenhypothese H1 zur Nullhypothese H0. Vor Durchführung von Tests legt man Annahmen über die Grundgesamtheit fest, welche mit Tests überprüft werden.

Analytische Statistik (auch Schließende Statistik oder Inferenzstatistik)

Mithilfe von Verfahren der analytischen Statistik versucht man, von Stichproben auf die Grundpopulation bei Berücksichtigung unterschiedlicher Wahrscheinlichkeiten zu schließen. Dazu kommen eine Vielzahl weiterer weiterführender Verfahren wie Clusteranalyse, Faktorenanlyse multivariate Verfahren,... Siehe auch: Induktive Statistik (Wikipedia)[1].

Arbeitshypothese

Darunter versteht man eine genau festzulegende Annahme, von der man zu Beginn eines Forschungsprojektes ausgeht. Siehe auch Nullhypothese.

Arithmetisches Mittel (oder Durchschnitt/-swert)

Das am häufigsten verwendete Lagemaß, welches den Durchschnittswert (Summe aller Werte dividiert durch ihre Anzahl) einer Variablen zeigt. Es sollte nur bei metrischen Variablen eingesetzt werden.

Ausprägungen

Unter Ausprägungen versteht man die Gesamtheit der möglichen Werte eines Merkmals.So kann z.B. die Variable Geschlecht die Ausprägungen männlich und weiblich annehmen.

Ausreißer

Darunter versteht man einen extrem großen oder extrem kleinen Wert, welcher weit von den restlichen Einträgen entfernt ist. Dies könnte z.B. der Fall beim Einkommen eines Millionärs sein, welcher in einem sehr armen Dorf lebt.

Balkendiagramm (auch Säulen- oder Blockdiagramm)

Dabei handelt es sich um Diagramme, bei welchen die Größe der Werte mit der Länge von Balken bzw. Säulen ausgedrückt werden. Werden die Werte (oft Häufigkeiten) senkrecht aufgetragen, spricht man in engerer Terminologie von Säulendiagrammen, werden sie waagrecht aufgetragen, von Balkendiagrammen.

Bestimmtheitsmaß (auch Determinationskoeffizient)

Das Bestimmtheitsmaß ist ein Maß für den Zusammenhang zwischen zwei Variablen und entspricht dem Quadrat des Korrelationskoeffizienten r. Es gibt an, in welchem Ausmaß die Varianz der einen Variablen durch die Varianz der anderen Variablen bestimmt wird. Siehe auch: Bestimmtheitsmaß (Wikipedia)[2].

Beta-Fehler

Siehe Fehler der 1. und 2. Art.

bimodal

Darunter versteht man das Auftreten von zwei Gipfeln in einer Häufigkeitsverteilung, d.h. von zwei Modalwerten.

Biseriale Korrelation

Die biseriale Korrelation rbis zeigt den Zusammenhang von zwei metrischen und normalverteiltenVariablen, von denen eine künstlich dichotomisiert wurde (in zwei Gruppen unterteilt).

bivariat

Bivariat bezeichnet, dass von den Betrachtungen gleichzeitig zwei Variablen betroffen sind. Siehe z.B. die bivariate Häufigkeitsverteilung[3].

Blockbildung

Unter Blockbildung, auch Clusterbildung genannt, versteht man die Zusammenfassung von Elementen der Untersuchung, welche wesentliche für die Untersuchung relevante Eigenschaften gemeinsam haben, zu Blöcken oder Clustern. SPSS ermöglicht es, derartige Cluster mithilfe der Clusteranalyse zu ermitteln. Der Vorteil der Clusterbildung liegt darin, dass durch die Schaffung größerer Einheiten sinkt auch die Fehlerwahrscheinlichkeit von Aussagen. Siehe zur Clusteranalyse: Clusteranalyse (Wikipedia)[4].

Blockdiagramm

Siehe Balkendiagramm[5].

Boxplot

Unter Boxplots versteht man eine graphische Darstellung der Lage und der Verteilung stetiger Merkmale beruhend auf den empirischen Quartilen. Der Abstand zwischen dem 1. und dem 3. Quartil wird als ein Rechteck dargestellt, in welchem durch einen waagrechten Strich auch der Median verzeichnet ist. Siehe wegen weiterer Eigenheiten dazu auch: Vergleichende grafische Darstellung[6] von Streuung und Lage mit Box-Plots.

Chi-Quadrat-Test

Der Chi-Quadrat-Test ist ein statistisches Verfahren, um die Unabhängigkeit von zwei Merkmalen zu überprüfen. Er wird besonders gerne bei der Kreuztabellen-Analyse[7] eingesetzt. Siehe dazu auch: Chi-Quadrat-Test (Wikipedia)[8].

Clusterbildung

siehe Blockbildung

Codeplan

Darunter versteht man die schriftliche Zusammenfassung der Umsetzung der erhobenen Daten in numerische Werte, welche von den Statistik- Programmen zur Analyse benötigt werden. Siehe auch: vom Fragebogen zum Codeplan[9].

Codieren

C. bezeichnet die Zuordnung von festgelegten Schlüsseln (Zahlen oder Buchstaben) zu Merkmalsausprägungen für die Datenerfassung (z.B. bei Noten ’Sehr gut’ als 1, ’Gut’ als 2 etc.; oder bei Altersgruppen 1 für Kleinkinder, 2 für Jugendliche, 3 für Erwachsene, 4 für PensionistInnen).

Verweise:
[1] http://de.wikipedia.org/wiki/Induktive_Statistik
[2] http://de.wikipedia.org/wiki/Bestimmtheitsma%C3%9F
[3] Siehe Kapitel 3.5.1
[4] http://de.wikipedia.org/wiki/Clusteranalyse
[5] Siehe Kapitel 3.6.1.3
[6] Siehe Kapitel 3.4.5
[7] Siehe Kapitel 3.5.2.1.1
[8] http://de.wikipedia.org/wiki/Chi-Quadrat-Test
[9] Siehe Kapitel 2.2.3

5.2 D-F

Datenmatrix

Eine D. ist eine Anordnung der Daten, bei der die Untersuchungseinheiten in den Zeilen und die zu ihnen untersuchten Variablen in den Spalten eingetragen werden. Von oben nach unten könnten also z.B. die Versuchspersonen eingetragen werden, von links nach rechts ihre Körpergröße, ihre Leistungen, ihre Matrikelnummer etc. Eine Datenmatrix wird von jedem für statistische Zwecke verwendeten Programm zur Verwaltung der Daten verwendet.

Deskriptive Statistik

In der deskriptiven Statistik erstellt man Maßzahlen zur Charakterisierung von Daten, wie Lagemaße (z.B. Durchschnitt), Streuungsmaße (z.B. Quartile) oder Maße für den Zusammenhang von Variablen (z.B. Korrelation). Dazu gehört auch die grafische Aufbereitung der Daten und Ergebnisse in Form von Diagrammen. Im Gegensatz zur Analytischen Statistik beschäftigt sie sich nicht damit, von der Stichprobe unter Berücksichtigung verschiedener Wahrscheinlichkeiten auf die Grundgesamtheit zu schließen.

Dichotome Variable

Eine d.V. ist eine Variable, bei welcher nur zwei Ausprägungen möglich sind, wie z.B. lebendig/nicht lebendig; männlich/weiblich; bestanden/nicht bestanden. Jede stetige Variable kann zu dichotomen umgewandelt werden, wie z.B. differenziertes Einkommen zu ’unter 1000 €’ und ’über 1000 €).

Diskrete Variable

Eine d.V. ist eine Variable, bei welcher nur abzählbar viele Ausprägungen möglich sind, also eine unendliche feine Differenzierung nicht möglich ist (das wäre eine stetige Variable). Beispiele für eine d.V. sind die Punktzahlen eines Würfels, die Kinderzahlen von Familien, die Noten bei Prüfungen etc.

Dispersionsmaße

Siehe Streuungsmaße

Einseitige Hypothese (auch gerichtete Hypothese)

E. H. sind Hypothesen, welche eine bestimmte Richtung eines Zusammenhangs annehmen. Man nimmt also nicht nur an, dass z.B. die Körpergröße mit der Schuhgröße korreliert, sondern genauer, dass mit steigender Körpergröße eine größere Schuhgröße einhergeht. (siehe auch zweiseitige Hypothese).

Fehler 1. und 2. Art (auch Alpha- und Beta-Fehler)

In der Statistik arbeitet man mit Wahrscheinlichkeiten. Wir drücken dabei z.B. aus, dass unsere Nullhypothese bei einem Signifikanzniveau von 0,01 richtig ist, anders formuliert, bei einer Irrtumswahrscheinlichkeit von 1 %. Das bedeutet, dass in 1 % aller Fälle die Nullhypothese falsch sein wird, obwohl unsere Daten auf das gemessene Phänomen hindeuten. Das bezeichnet man als den Fehler der 1. Art = Die Nullhypothese stimmt nicht, obwohl unsere Daten die Nullhypothese bestätigen.

Der Fehler der 2. Art ist das Gegenteil. Die Nullhypothese wird zu Unrecht verworfen, weil die Daten (z.B. durch schlechte Auswahl der Mitglieder der Stichprobe) dazu anleiten.

Flächendiagramm

Das F. ist eine Diagrammform, bei welchem die Fläche zwischen Kurve und X- Achse durch Schraffierung oder Muster markiert wird.

5.3 G-I

Gaußsche Glockenkurve (auch Gaußverteilung)

siehe Normalverteilung

Geometrisches Mittel

siehe Mittel

Geschlossene Frage

Eine g. Fr. ist eine Frage mit vorgegebenen Antwortkategorien, z.B. ’Verdienen Sie ... A. unter 1000 €, B. über 1000 €’.

Geschichtete Stichprobe

Bei einer g. St. wird die Grundgesamtheit in Gruppen oder Schichten eingeteilt (z.B. FleischesserInnen und VegetarierInnen oder Männer und Frauen; Kinder, Jugendliche, Erwachsene, ältere Menschen). Man wird in der Regel versuchen (s. Repräsentativität), das in der Grundpopulation vorhandene Verhältnis der Gruppen in der Stichprobe nachzubilden. Man spricht dann von einer proportionalen Schichtung.

Grundgesamtheit (auch Grundpopulation)

Unter G. versteht man die Gesamtheit der Elemente, für welche die Aussagen der Untersuchung gelten sollen. Sie muss genau festgelegt werden. Erhebt man die Einstellungen von WienerInnen gegenüber ZuwandererInnen, so muss festgelegt werden, wer mit WienerInnen gemeint ist (ab welchem Alter; bei welchem rechtlichen Status, bei welcher Aufenthaltsdauer in der Stadt etc.). Da eine Vollerhebung nur selten möglich ist, wählt man in der Regel eine Stichprobe aus.

Gütekriterium

Unter G. versteht man Kriterien zur Abschätzung der Qualität und Seriösität wissenschaftlicher Forschung (Datenerhebung, Analyse etc.). Die wesentlichen G. sind Validität, Reliabilität und Objektivität.

Harmonisches Mittel

siehe Mittel.

Häufigkeit

Die Häufigkeit informiert, wie oft ein bestimmter Messwert auftritt. Man unterscheidet zwischen absoluter Häufigkeit (die gezählte Häufigkeit eines Messwerts, z.B. 18 Männer), die kumulierte Häufigkeit (die aufsummierte Häufigkeit bis zu einem bestimmten Niveau, z.B. 23 SchülerInnen hatten ein Gut oder Sehr Gut auf die Schularbeit), die prozentuelle Häufigkeit (in Prozent gemessen) bzw. die relative Häufigkeit (in Teilen von 1 gemessen).

Häufigkeitsverteilung

Unter einer H. versteht man eine tabellarische oder grafische Anordnung von Werten, bei der die jeweiligen Ausprägungen mit der dazugehörigen Häufigkeit vermerkt werden.

Histogramm

Ein H. ermöglicht die graphische Darstellung der Häufigkeitsverteilung quantitativer Merkmale. Die Daten werden in Klassen eingeteilt und auf einer Grundlinie aufgetragen. Über jeder Klasse wird ein Rechteck gezeichnet. Die Höhe des Rechtecks wird durch seine Häufigkeit bestimmt. Siehe auch: Histogramme[1].

Hypothese

Eine H. ist eine Annahme über die Beziehung zwischen zwei oder mehr Variablen, die mithilfe eines Untersuchungsverfahrens verifiziert oder falsifiziert werden kann. Siehe auch Nullhypothese.

Inferenzstatistik

Siehe Analytische Statistik

Interquartilsabstand

Als I. bezeichnet man die Differenz zwischen dem ersten und dem dritten Quartil. Grafisch wird er z.B. mit dem Boxplot dargestellt.

Intervallskalierung

Bei der I. können die Abstände zwischen den Ausprägungen metrischer Werte richtig interpretiert werden, jedoch gibt es keinen natürlichen Nullpunkt, sodass das Verhältnis der Werte nicht interpretiert werden kann. Der Abstand zwischen 12 und 13 Grad ist genauso groß wie der zwischen 34 und 35 Grad. Man kann jedoch nicht sagen, dass 10 Grad doppelt so heiß wie 5 Grad ist (es gibt einen absoluten Nullpunkt bei - 273 Grad, unsere gewohnte Null-Gradgrenze ist willkürlich und lässt sich nach unten unterschreiten).

Irrtumswahrscheinlichkeit

Unter I. versteht man die Wahrscheinlichkeit für das Auftreten des Fehlers 1. Art. Die I. ist somit die präzisierte Wahrscheinlichkeit, dass - obwohl die Daten einen bestimmten Schluss zulassen - dieser Schluss falsch ist. Als gängige Niveaus der Irrtumswahrscheinlichkeit nimmt man 5 %, 1 % und 1 ‰.

Verweise:
[1] Siehe Kapitel 3.6.1.5

5.4 J-M

Klasse

Unter einer K. versteht man eine Gruppe von Ausprägungen stetiger und diskreter Variablen, welche durch die Zusammenfassung benachbarter Werte entstehen. Eine Klasse wird von festgelegten Klassengrenzen begrenzt. Den Vorgang der Klassenbildung nennt man Klassierung oder Klassifikation. Eine Klassierung wird in der Regel verwendet, um die Darstellung enorm differenzierter Ausprägungen übersichtlicher zu gestalten (z.B. Zusammenfassung aller Einkommen in 0-500 €; eine zweite Klasse Einkommen bis 1000 €; eine dritte Klasse zwischen 1001-1500 € usw.). Siehe auch: Klassenbildung von Daten[1].

Klassifizerung (auch Klassierung).

Siehe Klasse.

Konfidenzinterall (auch Vertrauensintervall)

Aus Stichproben erhaltene Maßzahlen sind immer nur Annäherungen an die zugrundeliegenden, aber meist unbekannten Werte in der Grundpopulation. Man ermittelt daher Konfidenzintervalle, innerhalb welchen Bereichs sich der ’richtige’ Wert befindet. Diese Konfidenzintervalle hängen vom gewählten Signifikanzniveau ab. Wir erleben die Angabe derartiger Konfidenzintervalle an jedem Wahlsonntag, wenn bei den ersten Analysen des wahrscheinlichen Wahlergebnisses der/die Statistikexperte/in sagt, dass die Partei A mit zwischen 34,8 und 36,2 % der Stimmen rechnen kann. Mit wachsender Stichprobengröße (Auszählungsgrad) wird das Konfidenzintervall kleiner, weil immer mehr mit der Grundpopulation übereinstimmend, bis es bei Vollauszählung verschwindet. Siehe auch: Konfidenzintervall (Wikipedia)[2].

Kontingenztafel

Eine K. ist die tabellarische Darstellung der Häufigkeitsverteilung von zumindest zwei Merkmalen. Siehe Kreuztabelle.

Kontingenzkoeffizient

Ein K. ist eine Kennzahl für die Stärke des Zusammenhangs zwischen nominalskalierten Daten. Siehe auch: Kontingenzkoeffizient (Wikipedia)[3].

Korrelation

Unter K. versteht man den Zusammenhang zwischen zwei quantitativen Merkmalen. Die Stärke des Zusammenhangs wird durch den Korrelationskoeffizient ausgedrückt. Siehe auch: die Korrelation[4].

Korrelationskoeffizient

Der K. ist eine Kennzahl für den linearen Zusammenhang zwischen zwei quantitativen Merkmalen. Er liegt zwischen den Extremen -1 und +1. Wenn er positiv ist, bedeutet dies, dass ein hoher Wert der Variablen A mit einem hohen Wert der Variablen B einhergeht, genauso verhält es sich mit den niedrigen Werten. Ist der K. negativ, bedeutet dies, dass hohe Werte von Variable A mit niedrigen der Variable B einhergehen und umgekehrt.

Kovarianz

Die Kovarianz beschreibt den Zusammenhang zwischen zwei metrischen Merkmalen. Da sie nicht standardisiert ist, wird in der Regel statt ihr auf die von ihr abgeleitete Korrelation zurückgegriffen. Siehe auch: Kovarianz (Wikipedia)[5].

Kreisdiagramm (oder Tortendiagramm)

Das K. ist eine Diagrammform, welche sich besonders gut zur Darstellung von Anteilen vom Ganzen eignet. Häufigkeiten werden durch Kreissektoren wiedergegeben. Die Größe eines Tortenstücks entspricht dem relativen Anteil am Ganzen oder an 100 %.

Kreuztabelle (auch Kontingenztabelle, -tafel)

In einer K. stellt man die gemeinsame Häufigkeitsverteilung von zumindest zwei Variablen (nominal- oder ordinalskaliert) dar. Man versucht dabei, auffällige Unterschiede zwischen beobachteter Häufigkeit und der zu erwarteder Häufigkeit festzustellen und mittels des Chi-Quadrat-Tests wahrscheinliche Zusammenhänge zu überprüfen. Siehe auch: Kreuztabellen-Analyse[6].

Kumulative Häufigkeit (auch kumulierte H.)

siehe Häufigkeit

Lagemaße (auch Zentralwerte oder Maße der zentralen Tendenz)

Mit L. kann man den Schwerpunkt der Ausprägungen quantitativer Variabler zeigen.Die gebräuchlichsten Lagemaße sind das arithmetische Mittelt, der Median und der Modalwert. Siehe auch: Mittelwerte[7].

Liniendiagramm (auch Kurvendiagramm)

Man verwendet L., um den zeitlichen Verlauf von Entwicklungen zu zeigen. Siehe auch: Liniendiagramme[8].

Maßzahlen

M. zeigen charakteristische Eigenheiten quantitativer Variabler. Man unterscheidet Lagemaße und Streuungsmaße.

Median (auch Zentralwert)

Der Median kann bei mindestens ordinalskalierten Daten eingesetzt werden und bezeichnet jenes Element, welches in einer geordneten Reihe genau in der Mitte liegt. D.h. dass es oberhalb von ihm genauso viele (größere) Einträge wie unterhalb von ihm gibt.

Der Median eignet sich besonders gut, wenn Ausreißer das arithmetische Mittel verzerren.

Merkmal (auch Variable)

Unter einem M. versteht man Eigenheiten des Untersuchungsobjekts, deren Ausprägungen variieren können (im Gegensatz zu Konstanten).

Messniveau (auch Skalenniveau)

Unter Messen versteht man im weitesten Sinne die Zuordnung von Zahlen zu Beobachtung. Anhand des Messniveaus legt man fest, welche Interpretationen unterschiedlicher Ausprägungen sinnvoll sind, welche Verfahren angewendet werden dürfen. Es gibt vier Messniveaus: Nominal-, Ordinal-, Intervall- und Ratioskala. Die beiden ersten beziehen sich auf nicht metrische Variablen, die beiden letzten auf metrische Variablen.

Metrik

Unter M. versteht man ein definiertes System von Kennzahlen/Maßeinheiten (z.B. Liter, Kilometer, Minuten).

metrisch

Als metrisch werden Variable bezeichnet, wenn der Abstand zwischen zwei Ausprägungen der Variablen interpretiert werden kann, wenn also der Abstand zwischen 12 und 15 genauso großist wie der Abstand zwischen 23 und 26. Metrische Variable sind daher entweder intervall- oder proportionalskaliert. Nichtmetrische Variablen sind nominal- oder ordinalskaliert.

Mittel

Sammelbegriff für verschiedene Lagemaße, wie z.B. das arithmetische Mittel, das harmonische Mittel[9], das geometrische Mittel[10].

Mittelwert (auch Arithmetisches Mittel)

Der M. eines metrischen Merkmals ist ein Lagemaß und entspricht der Summe aller Werte geteilt durch deren Anzahl.

Modalwert (auch Modus)

Der M. ist ein Lagemaß. Er bezeichnet den am häufigsten vorkommenden Wert.

Modus (siehe Modalwert)

Multivariate Verfahren (oder m. Analyse)

Unter M. V. versteht man Verfahren, bei welchen mindestens drei Variablen und deren Wechselbeziehungen analysiert werden. Siehe auch: Multivariate Analyse (Wikipedia)[11].

Verweise:
[1] Siehe Kapitel 3.2.3
[2] http://de.wikipedia.org/wiki/Konfidenzintervall
[3] http://de.wikipedia.org/wiki/Kontingenzkoeffizient
[4] Siehe Kapitel 3.5.3
[5] http://de.wikipedia.org/wiki/Kovarianz_%28Stochastik%29
[6] Siehe Kapitel 3.5.2
[7] Siehe Kapitel 3.3
[8] Siehe Kapitel 3.6.1.2
[9] Siehe Kapitel 3.3.5
[10] Siehe Kapitel 3.3.4
[11] http://de.wikipedia.org/wiki/Multivariate_Analyse

5.5 N-P

Nichtparametrische Verfahren (auch parameterfreie Verfahren)

Als N.T. werden alle statistischen Verfahren bezeichnet, welche nicht an bestimmte Verteilungsformen (wie der Normalverteilung) gebunden sind. Solche Tests sind z.B. der Chi-Quadrat-Test, der Wilcoxon-Test (Wikipedia)[1] und der Mann-Whitney (Wikipedia)[2]-Test.

nominal

Merkmale werden als nominal bezeichnet, wenn ihre Ausprägungen nicht sinnvoll oder ’natürlich’ gereiht werden können (wie z.B. Farben, Hobbies, Namen). Sie sind nominalskaliert[3]. Siehe Messniveau.

Normalverteilung (auch Gaußverteilung)

Die N. in Form der Gaußschen Glockenkurve ist eine Verteilungsform mit folgenden Merkmalen: sie ist unimodal (hat nur einen Gipfel); der Gipfel befindet sich in der Mitte (d.h. die in der Mitte des Messspektrums auftretenden Ausprägungen kommen auch am häufigsten vor); sie sind symmetrisch (links wie rechts vom Mittelwert fallen die Häufigkeiten gleichmäßig ab); die Lagemaße wie Modalwert, Mittelwert und Median stimmen (fast) annähernd überein. Innerhalb des Bereichs Mittelwert ± der Standardabweichung s liegen ca. 68 % aller Messwerte. Siehe auch: Normalverteilung (Wikipedia)[4].

Nullhypothese

Unter einer N. versteht man die Annahme bei statistischen Tests, dass ein postulierter Zusammenhang oder Unterschied nicht besteht. Mit geeigneten Verfahren wird untersucht, ob die Unterschiede oder Zusammenhänge bei einem gewählten Signifikanzniveau noch als zufällig erklärt werden können. Wird das Signifikanzniveau erreicht, wird die Nullhypothese verworfen und die Alternativhypothese angenommen.

Offene Frage

Bei o. Fr. werden im Gegensatz zu geschlossenen Frage keine Antwortkategorien vorgegeben. Daher ist die Auswertung o. Fr. deutlich aufwendiger, weil sie erst interpretiert und eingeordnet werden müssen.

Objektivität

Unter O. versteht man eine Grundanforderung an Methoden der Datenerhebung. Die Untersuchenden müssen versuchen sicherzustellen, dass andere ForscherInnen bei gleichen Erhebungsmethoden zum gleichen Ergebnis kommen. Dadurch soll eine Unabhängigkeit der Ergebnisse von den Erhebenden angestrebt werden. Im weiteren Sinne bezieht sich O. auch auf die Auswertung der Daten und deren Interpretation. Siehe auch andere Gütekriterien von Datenerhebungen, wie die Variablität und Validität.

Operationalisierung

Unter O. versteht man eine möglichst exakte Festlegung der Vorgangsweise bei der Datenerhebung, wie z.B. Frageformulierungen, Anwortvorgaben, Anweisungen an InterviewerInnen usw. Die O. gibt genau an, wie ein bestimmtes Phänomen gemessen werden soll (wie z.B. die angenommene Ablehnung bestimmter Zuwanderergruppen). Die O. inkludiert alle Vorgänge von der Formulierung einer Hypothese, ihrer Umsetzung in konkrete Fragen und die Aufnahme der Daten.

ordinal

Eine Variable gilt als ordinal, wenn ihre Ausprägungen natürlich geordnet werden können, nicht aber die Unterschiede zwischen den Ausprägungen. So weiß man, dass eine Schulnote 1 besser als die Schulnote 2 ist, aber es ist nicht gesichert, dass der Schüler mit der Note 1 den Schüler mit der Note 2 im gleichen Maße übertrifft wie ein Schüler mit der Note 4 einen Schüler mit der Note 5.

Ordinalskalierung

Messniveau ordinaler Daten (siehe ordinal).

Population

Gesamtmenge aller Beobachtungseinheiten

p-Wert (auch Überschreitungswahrscheinlichkeit)

Der p. Wert (Kurzform von probability) gibt bei statistischen Tests die Wahrscheinlichkeit an, mit welcher eine gefundene Kennzahl rein zufällig auftreten könnte. Man legt vor der Durchführung eines Tests ein Signifikanzniveau fest, z.B. p= 0,05. Ergibt sich ein p-Wert von kleiner als 0,05, dann ist die Nullhypothese mit einer Irrtumswahrscheinlichkeit von kleiner als 5 % zu verwerfen.

Parameter

P. sind Kennzahlenn, welche eine Grundpopulation charakterisieren. Dazu zählen insbesonders die Lagemaße und die Streuungsmaße. Da sie in der Regel für die Grundpopulation nicht bekannt sind, müssen sie auf der Basis von Stichproben hochgerechnet werden.

Parametrische Verfahren

Unter p. V. versteht man statistische Tests, welche das Vorliegen einer bestimmten Verteilungsform mit den dafür typischen Parametern erfordern. Besonders häufig wird die Normalverteilung als Grundbedingung gesehen.

Partielle Korrelation (auch Partialkorrelation)

Eine P.K. ist das Ausmaß des Zusammenhangs (Korrelation) zwischen zwei Variablen, wobei gleichzeitig versucht wird, den Einfluss einer dritten Variablen auf diesen Zusammenhang herauszurechnen. Siehe auch: Scheinkorrelation und Störvariable[5].

Pearson’scher Korrelationskoeffizient

Siehe Produkt-Moment-Korrelation

Perzentil

Siehe Quantil

Proportionalskala (auch Verhältnisskala)

Eine P. gehört zu den vier wesentlichen Messniveaus (Messskalen) und liegt dann vor, wenn bei numerischen Daten ein absoluter Nullpunkt vorliegt. Bei einer P. können nicht nur die Abstände zwischen Ausprägungen interpretiert werden, sondern auch ihr Verhältnis. So ist z.B. ein Baum von 3 Metern Höhe doppelt so hoch wie ein Baum von 1,5 Meter Höhe.

Population

Siehe Grundpopulation

Pretest

Unter einem P. versteht man eine der Befragung der Stichprobe per Fragebogen vorausgehende Abtestung desselben durch Probeinterviews, um Schwächen im Vorfeld zu eliminieren. Man untersucht dabei z.B., ob die Fragen verständlich sind, wie sie interpretiert werden, ob alle Fragen zufriedenstellende Antworten bringen, ob die Befragten bereit sind, alle Fragen zu beantworten, ob die Befragten den Zeitaufwand für die Ausfüllung des Fragebogens akzeptieren etc.

Produkt-Moment-Korrelation (auch Pearson’scher Korrelationskoeffizient)

Die P.M.-Korrelation ist eine Form der Korrelation und zeigt den Zusammenhang zwischen zwei standardisierten Variablen, die beide metrisch und normalverteilt sein müssen. Siehe auch: Maßkorrelation[6].

Punktwolke

siehe Streudiagramm

Verweise:
[1] http://de.wikipedia.org/wiki/Wilcoxon-Rangsummentest
[2] http://de.wikipedia.org/wiki/Mann-Whitney-Test
[3] Siehe Kapitel 3.1.2.2
[4] http://de.wikipedia.org/wiki/Normalverteilung
[5] Siehe Kapitel 3.5.3.4.3
[6] Siehe Kapitel 3.5.3.1

5.6 Q-R

Quantitativ

Eigenschaft, dass die Ausprägung von Elementen in Zahlen wiedergegeben werden kann, wobei eine größere Zahl auch eine größere Ausprägung impliziert.

Quantil

Unter Q. versteht man Orientierungspunkte einer statistischen Verteilung; sie dienen als Streuungsmaße zur Beschreibung der Verteilung. Dabei wird die Verteilung stets in gleich große Teile aufgeteilt. Bei vier gleichen Teilen spricht man von Quartilen, bei fünf von Quintilen, bei zehn von Dezilen und bei 100 von Perzentilen. Besonders gerne verwendet werden die Quartile. Das erste Quartil gibt den Wert an, unterhalb desselben sich 25 % der Einträge befinden. Das zweite Quartil oder Median gibt den Wert an, unterhalb desselben sich 50 % der Einträge befinden usw.

Quantifizierung

Unter Qu. versteht man die numerische Beschreibung von Merkmalsausprägungen einer Variablen auf Basis von Messungen oder Zählungen.

quantitativ

Ein Merkmal wird quantitativ genannt, wenn es sich (z.B. durch Messen), zahlenmäßig erfassen lässt. Quantitative Merkmale werden in diskrete und stetige Merkmale unterteilt.

Quartil

Siehe Quantil

Quartilabstand

Siehe Interquartilabstand

Range (auch Variationsweite, Spannweite)

Unter R. versteht man den Abstand zwischen dem kleinsten und dem größten aufgetretenen Wert bei mindestens ordinalskalierten Daten. Die Range bei gemessenen Körpergrößen wäre demnach z.B. 2,18 m(größter Wert) - 1,54 m(kleinster Wert), also 64 cm.

Rangkorrelation

Form der Korrelation, bei welcher nicht die Merkmalsausprägungen, sondern deren Rangzahlen verwendet werden. Dabei werden im wesentlichen zwei Verfahren verwendet, Spearman´s Rho und Kendall’s Tau. Siehe auch: die Korrelation[1].

Rangzahlen

Man erhält sie, wenn quantitative Daten größenmäßig geordnet werden und die geordneten Werte, mit 1 beginnend, fortlaufend nummeriert. Im Falle gleicher Ursprungsgröße müssen die Rangplätze gemittelt werden. Ein Beispiel: Die Punktezahl 12 tritt sowohl auf den Rangplätzen 13 wie 14 auf. Beide Rangplätze erhalten daher die gemittelte Rangzahl 13,5 (beide Zahlen addiert und durch die Anzahl der Werte, also 2, dividiert).

Regression

Unter R. versteht man Verfahren, welche es erlauben, Werte einer anderen Variablen vorherzusagen, wenn der Wert einer bestimmten Variablen bekannt ist. Siehe auch: die Regression[2].

Relative Häufigkeit

Während die absolute Häufigkeit einer Ausprägung anzeigt, wie oft dieser Wert insgesamt im Datensatz erscheint, gibt die r. H. an, wie hoch sein Anteil verglichen mit der Gesamtzahl der gültigen Einträge ist. Siehe auch: Häufigkeitstabelle[3].

Reliabiltität (auch Zuverlässigkeit)

R. ist eines der drei Gütekriterien bei Messungen. Dieses fordert, dass die Messinstrumente bei einer Wiederholung der Messung bei gleichbleibenden Bedingungen das gleiche Ergebnis erbringen sollten.

Neben der Validität (Gültigkeit) das zweite zentrale Qualitätskriterium bei Messungen. Meint, dass Messinstrumente bei wiederholter Messung unter gleichen Bedingungen auch das gleiche Ergebnis produzieren müssen. Siehe auch: Reliabilität (Wikipedia)[4].

Repräsentativität

Unter R. versteht man, dass bei der Auswahl der Elemente der Stichprobe die Zusammensetzung der Grundpopulation nachgebildet wird. Wenn z.B. 2/3 der Zuwanderer aus Afrika in Österreich männlich sind, sollten dementsprechend auch 2/3 der Befragten in der Stichprobe männlich sein, will man den Bedingungen der Repräsentativität genügen.

Robust

Bezeichnung für Verfahren, welche bezüglich vorhandener Ausreißer kaum empfindlich sind, wie z.B. der Median.

Rohdaten

statistisch nicht veränderte Untersuchungsergebnisse, welche die ursprüngliche Merkmalsausprägung anzeigen (z.B. die Zahl der Punkte bei einem Eignungstest statt deren Umsetzung in Noten).

Verweise:
[1] Siehe Kapitel 3.5.3
[2] Siehe Kapitel 3.5.4
[3] Siehe Kapitel 3.2.2
[4] http://de.wikipedia.org/wiki/Reliabilit%C3%A4t

5.7 S-T

Säulendiagramm

Siehe Balkendiagramm.

Schichtung

Unter Sch. versteht man eine Methode bei der Auswahl der Stichprobe. Die Grundpopulation wird in Schichten (Wikipedia)[1] zerlegt (in dieser gibt es z.B. 40 % Männer und 60 % Frauen; in dieser gibt es 26 % unter 25, 38 % zwischen 26- 50 und 36 % darüber). In der Stichprobe versucht man das Verhältnis dieser Schichten der Grundpopulation nachzubilden.

Schließende Statistik

s. Analytische Statistik

Selektion

Bei der Selektion schränkt man die Grundgesamtheit, für die eine bestimmte Hypothese geprüft werden soll, auf eine Teilgesamtheit von Beobachtungseinheiten ein.

Signifikanz

Unter S. versteht man ein statistisch überprüftes Urteil über die Haltbarkeit einer Hypothese. Da man nur selten eine Vollerhebung machen kann, ist ein Ergebnis einer Stichprobe stets vom Risiko begleitet, dass es vom Ergebnis der Grundpopulation abweichen könnte. Man überprüft daher die Wahrscheinlichkeit, dass ein gefundenes Ergebnis rein zufällig entstanden sein könnte. Als Maßstäbe nimmt man sogenannte Signifikanzniveaus, meist von 5 % oder p=0,05 oder 1 % oder p=0,01. Unterschreitet die erhaltene Wahrscheinlichkeit den letzten Wert, so könnte eine statische Aussage lauten: "Der Zusammenhang zwischen den Variablen A und B ist statistisch signifkant auf dem 1%-Niveau." Ein wichtiger Test zur Abschätzung der Signifikanz der Zusammenhänge in Kreuztabellen ist z.B. der Chi- Quadrat- Test. Siehe auch: Statistische Signifikanz (Wikipedia)[2].

Signifianzniveau

Das Signifikanzniveau ist synonym für die obere Grenze der Irrtumswahrscheinlichkeit eines statistischen Tests.

Siehe auch Signifikanz

Skala

S. (ital. Treppe) bezeichnet eine Folge von Positionen, die unterschiedliche Ausprägungsgrade eines Merkmals anzeigen (z.B. die Temperatur eines Körpers in Celsius, Lieblingszeitschriften durch die Angabe des jeweiligen Titels etc.). Siehe Messniveau.

Skalenniveau

siehe Messniveau

Spannweite

Siehe Range.

Spearman’s Rho (oder Spearmans Korrelationskoeffizient)

Falls zwei Merkmale ordinal verteilt sind, kann man den Rangkorrelationskoeffizienten R (oder Spearmans Rho) mithilfe einer Produkt- Moment-Korrelation der Rangplätze berechnen. Siehe auch: Rangkorrelation[3] .

Stabdiagramm

Siehe Balkendiagramm.

Standardabweichung

Die St. s ist ein Kennwert, um die Variabilität (Streuung) eines Merkmals zu kennzeichnen. Sie wird als Wurzel aus der Varianz erreichnet. In einer Normalverteilung liegen im Bereich des Arithmetischen Mittels ± s ungefähr 68 % aller Ergebnisse. Siehe auch: Standardabweichung (Wikipedia)[4].

Standardisiertes Interview

Das st. I. ist eine Interviewform, bei welcher alle Details der Befragung (was soll man wie fragen, wie soll man reagieren, welche Zusatzinformationen darf man liefern etc.) genau festgelegt wurden, um den Einfluss der InterviewerInnen möglichst gering zu halten.

stetig

Ein quantitatives Merkmal wird st. genannt, wenn es alle Werte innerhalb eines Intervalls annehmen kann. So kann z.B. eine Körpergröße beliebig fein gemessen werden, in cm, in mm und bei Kleinstlebewesen sogar noch deutlich darunter. Diskrete Variable hingegen können nur bestimmte und abzählbare Werte einnehmen (Beispiel Würfel).

Stichprobe

Unter einer St. versteht man die Auswahl an Beobachtungseinheiten aus einer definierten (Grund)Population. Eine Stichprobe sollte diese Grundpopulation unverzerrt wiederspiegeln, z.B. durch das Modell der Repräsentativität.

Störvariable (oder Störgrößen)

Unter Störvariablen versteht man Variable, welche zusätzlich zu einer unabhängigen Variablen einen nicht einkalkulierten Einfluss auf eine abhängige Variable ausüben. Untersucht man z.B. den Zusammenhang zwischen Glatzenbildung und Einkommen, so wird man häufig auf eine höhere Korrelation kommen. Diese hängt mit einer nicht untersuchten Störvariable zusammen, nämlich dem Alter, mit dem sowohl Glatzenbildung wie auch Einkommen normalerweise hoch korrelieren.

Die Existenz von Störvariablen ist besonders bei der Untersuchung von Korrelationen kritisch zu untersuchen.

Streudiagramm (auch Scatterplot)

Ein St. zeigt graphisch den Zusammenhang zwischen zwei stetigen Merkmalen, wobei eine Punktwolke aus den Schnittpunkten der jeweiligen Ausprägungen der Variablen X und Y gebildet wird. Streudiagramme bieten eine gute Abschätzmöglichkeit für mögliche Korrelationen.

Streuungsmaße (auch Dispersionsmaße)

Streuungsmaße geben an, in welchen Bereichen die Daten liegen bzw. um die Lagemaße streuen. Sie sind Kennwerte zur Charakterisierung einer Verteilung. Sie sind Indikatioren für die Variabilität von Merkmalen, wie z.B. von deren Abstand zum Arithmetischen Mittel. Wichtige Streuungsmaße sind die Standardabweichung, die Varianz oder der Quartilabstand.

Tau (auch Kendall’s Tau)

Form der Korrelation. Maß für den Zusammenhang zwischen ordinalskalierten Daten, besonders bei kleinen Zahlen. Siehe auch: Rangkorrelation Tau[5].

Tortendiagramm

Siehe Kreisdiagramm

Verweise:
[1] http://de.wikipedia.org/wiki/Soziale_Schichtung
[2] http://de.wikipedia.org/wiki/Statistische_Signifikanz
[3] Siehe Kapitel 3.5.3.2
[4] http://de.wikipedia.org/wiki/Standardabweichung
[5] Siehe Kapitel 3.5.3.3

5.8 U-Z

unabhängig

Eine Variable ist unabhängig, wenn sie in einer Untersuchung variiert werden kann, um ihre Auswirkungen auf eine abhängige Variable zu erfassen (z.B. Menge von Düngemitteln: unabhängige Variable, Ernte-Ergebnis: abhängige Variable).

univariat

Als u. werden Methoden und Kennzahlen bezeichnet, die sich auf eine einzige Variable beziehen.

Urliste

Die U. ist die ungeordnete Zusammenstellung des Datenmaterials. Siehe auch: Listen und Tafeln[1].

Validität (auch Gültigkeit)

Die V. gehört zu den sogenannten Gütekriterien für die Qualität einer Datenerhebung. Sie bezeichnet die Eigenschaft, wirklich das zu messen, was bei der Untersuchung gemessen werden soll. Wenn z.B. die Fragen eines Fragebogens nur ungenügend geeignet sind, die Hypothesen zu überprüfen, dann ist die Validität in Frage gestellt. Siehe auch: Validität (Wikipedia)[2].

Variable

Eine Variable ist ein in verschiedenen Ausprägungen vorhandenes Merkmal eines Untersuchungsgegenstandes: z.B. Geschlecht: männlich/weiblich; Größe gemessen in cm.

Variationsweite (siehe Range).

Varianz

Die V. ist ein Maß für die Variabilität bzw. die Streuung der Ausprägungen von Variablen und Ausgangswert für die Standardabweichung. Siehe auch: Varianz (Wikipedia)[3].

Verhältnisskala

Siehe Proportionalskala

Verteilung

Siehe Häufigkeitsverteilung

Vertrauensintervall (auch Konfidenzintervall)

Siehe Konfidenzintervall

Vierfeldertafel (Form der Kreuztabelle)

Eine V. ist die Anordnung zweier dichotomer Variablen in einer Tabelle mit zwei Spalten und zwei Zeilen, sodass jede Ausprägung jeder Variablen mit jeder Ausprägung der anderen gekreuzt wird.

Vollerhebung

Eine V. liegt vor, wenn alle Elemente einer Grundpopulation befragt werden und nicht nur eine Auswahl (eine Stichprobe) derselben. Eine V. ist dementsprechend nur bei einer kleineren Grundpopulation möglich.

Wahrscheinlichkeit

Unter W. versteht man die Einstufung von Phänomenen nach dem Grade ihrer Gewissheit. Die W. p wird mit Werten zwischen 0 (Unmöglichkeit) und 1 (Sicherheit des Auftretens) wiedergegeben. Siehe auch: Wahrscheinlichkeit (Wikipedia)[4].

Zentralwert

Siehe Median

Zusammenhang

Mit einem Z. bezeichnet man, dass zwischen den Ausprägungen zweier Variablen eine systematische Entsprechung besteht. Siehe Korrelation.

Zweiseitige Hypothese

Bei einer z. H. nimmt man an, dass zwischen zwei Variablen oder zwischen zwei Teilgruppen ein Zusammenhang besteht. Man nimmt jedoch nicht von vornherein an, dass dieser Zusammenhang nur in einer bestimmten Richtung besteht. Beispiel: Die Annahme ist, dass sich das Wetter auf die Arbeitslust auswirkt, wobei man nicht von vornherein einschränkt, ob ein schöneres Wetter zu einer größeren Arbeitslust oder zu einer geringeren führen wird. Bei der einseitigen H. würde nur eine Richtung untersucht werden: Sorgt schöneres Wetter für eine größere Arbeitslust?

Verweise:
[1] Siehe Kapitel 3.2.1
[2] http://de.wikipedia.org/wiki/Validit%C3%A4t
[3] http://de.wikipedia.org/wiki/Varianz
[4] http://de.wikipedia.org/wiki/Wahrscheinlichkeit

Weitere Kapitel dieser Lernunterlage

1. Funktion und Sinn von Statistik
2. Von der Fragestellung zur statistischen Analyse
3. Ausgewählte statistische Grundlagen und Analysemethoden
4. Software für quantitative Forschungsprojekte
6. Literatur, Ressourcen und Links

↑ Nach oben

Lexikon statistischer Grundbegriffe

Contents

5. Lexikon statistischer Grundbegriffe

Inhalt

5.1 A-C

Abhängige Variable

Alpha-Fehler

Alternativhypothese

Analytische Statistik (auch Schließende Statistik oder Inferenzstatistik)

Arbeitshypothese

Arithmetisches Mittel (oder Durchschnitt/-swert)

Ausprägungen

Ausreißer

Balkendiagramm (auch Säulen- oder Blockdiagramm)

Bestimmtheitsmaß (auch Determinationskoeffizient)

Beta-Fehler

bimodal

Biseriale Korrelation

bivariat

Blockbildung

Blockdiagramm

Boxplot

Chi-Quadrat-Test

Clusterbildung

Codeplan

Codieren

5.2 D-F

Datenmatrix

Deskriptive Statistik

Dichotome Variable

Diskrete Variable

Dispersionsmaße

Einseitige Hypothese (auch gerichtete Hypothese)

Fehler 1. und 2. Art (auch Alpha- und Beta-Fehler)

Flächendiagramm

5.3 G-I

Gaußsche Glockenkurve (auch Gaußverteilung)

Geometrisches Mittel

Geschlossene Frage

Geschichtete Stichprobe

Grundgesamtheit (auch Grundpopulation)

Gütekriterium

Harmonisches Mittel

Häufigkeit

Häufigkeitsverteilung

Histogramm

Hypothese

Inferenzstatistik

Interquartilsabstand

Intervallskalierung

Irrtumswahrscheinlichkeit

5.4 J-M

Klasse

Klassifizerung (auch Klassierung).

Konfidenzinterall (auch Vertrauensintervall)

Kontingenztafel

Kontingenzkoeffizient

Korrelation

Korrelationskoeffizient

Kovarianz

Kreisdiagramm (oder Tortendiagramm)

Kreuztabelle (auch Kontingenztabelle, -tafel)

Kumulative Häufigkeit (auch kumulierte H.)

Lagemaße (auch Zentralwerte oder Maße der zentralen Tendenz)

Liniendiagramm (auch Kurvendiagramm)

Maßzahlen

Median (auch Zentralwert)

Merkmal (auch Variable)

Messniveau (auch Skalenniveau)

Metrik

metrisch

Mittel

Mittelwert (auch Arithmetisches Mittel)

Modalwert (auch Modus)

Modus (siehe Modalwert)

Multivariate Verfahren (oder m. Analyse)

5.5 N-P

Nichtparametrische Verfahren (auch parameterfreie Verfahren)

nominal

Normalverteilung (auch Gaußverteilung)