Difference between revisions of "Von der Fragestellung zur statistischen Analyse/Operationalisierung"

From Eksa
Jump to: navigation, search
(Created page with " '''Von_der_Fragestellung_zur_statistischen_Analyse#2. Von der Fragestellung zur statistischen Analyse|Vorheriges Kapitel: 2. Von der Fragestellung zur statistischen Analys...")
 
m (Protected "Von der Fragestellung zur statistischen Analyse/Operationalisierung" ([Edit=Allow only administrators] (indefinite) [Move=Allow only administrators] (indefinite)) [cascading])
 
(5 intermediate revisions by the same user not shown)
Line 1: Line 1:
 
+
'''[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|Vorheriges Kapitel: 2.1 Die Grundpopulation: worüber wir Aussagen machen]]'''
 
+
= 2.2 Die Operationalisierung =
'''[[Von_der_Fragestellung_zur_statistischen_Analyse#2. Von der Fragestellung zur statistischen Analyse|Vorheriges Kapitel: 2. Von der Fragestellung zur statistischen Analyse]]'''
 
= 2.1 Die Grundpopulation: worüber wir Aussagen machen =
 
 
<sup>verfasst von Erwin Ebermann</sup>
 
<sup>verfasst von Erwin Ebermann</sup>
  
Die '''empirische Grundgesamtheit''' ('''Grundpopulation''') ist jene abgegrenzte Menge von Personen (z.B. die Wiener Bevölkerung) oder Objekten (z.B. die Regenfälle in einer tropischen Region, die Autos im 7. Bezirk), über die man Aussagen machen möchte.
+
Unter '''Operationalisierung''' versteht man die präzise Angabe der Vorgangsweise, mit der ein theoretisches Konstrukt gemessen werden soll (wie z.B. die Akzeptanz von Zuwanderergruppen). Dazu gehört die Auswahl der '''Indikatoren''', die genaue Formulierung der Fragen im '''Fragebogen''', dazu gehören die '''Antwortkategorien''', die Bestimmung der '''Messinstrumente''', die '''Bestimmung der Genauigkeit der Messung''', die '''Anweisungen an die InterviewerInnen''', wie sie die Fragen stellen und welche Zusatzinformationen sie geben dürfen etc. '''Operationalisierung[[Einige_wissenschaftstheoretische_Grundlagen_der_empirischen_Sozialforschung/Begriffe#2.7.1.1 Operationale Definition: Operationalisierung|[1]]]''' versucht also bis ins kleinste Detail sicherzustellen, dass die '''wissenschaftlichen Qualitätserfordernisse[[Von_der_Fragestellung_zur_statistischen_Analyse/Gütekriterien#2.3 Gütekriterien quantitativer Untersuchungen|[2]]]''' für vergleichbare Forschungsarbeiten eingehalten werden können und tatsächlich brauchbare Antworten zu den Themen gefunden werden können, die man zu untersuchen vorgibt.
  
Anders ausgedrückt: Wenn wir eine Studie zu AfrikanerInnen in Österreich durchführen, dann möchten wir als Ergebnis zu Aussagen kommen, welche Tendenzen sich in dieser Bevölkerungsgruppe zeigen. Alle Mitglieder der Gruppe AfrikanerInnen in Österreich bilden gemeinsam die '''Grundgesamtheit'''.
+
==== '''Was man untersucht bzw. ’misst’, muss in seinen Ausprägungen in sinnvolle und voneinander abgrenzbare Untereinheiten unterteilt werden können.''' ====
  
==== '''Elemente, Variable und Ausprägungen''' ====
+
Untersucht man z.B. die mathematischen Fähigkeiten von Schulkindern, kann man zur Notenskala greifen. Das Geschlecht kann in männlich und weiblich unterteilt werden. Bei der Untersuchung der Körpergröße wird man in Maßeinheiten wie cm oder mm messen. Die Einstellung gegenüber Zuwanderergruppen können wir z.B. in einer fünfteiligen Abstufung wiedergeben, wie z.B. ’sehr positiv’, ’eher positiv’, ’neutral’, ’eher ablehnend’ oder ’absolut ablehnend’. Den Erfolg bei den Bewerbungen von Zuwanderern am Arbeitsmarkt könnte man unterteilen in ’sofort abgelehnt’, ’zu Bewerbungsgespräch eingeladen, aber dann abgelehnt’ und ’aufgenommen’ unterteilen. Den Familienstand kann man in ’ledig’, ’geschieden’, ’verheiratet’, ’verwitwet’ unterteilen.
 
 
Ein Einzelobjekt aus dieser Grundgesamtheit bezeichnet man als '''statistische Einheit''' oder '''Element''' (z.B. Herr Moussa Bamba aus Bamako, der jetzt in Wien lebt). Die Einzelobjekte weisen jeweils '''Merkmale''' auf (auch '''Variablen''' genannt, z.B. Geschlecht, Einkommen, Autofarbe etc.), die uns interessieren und über deren Ausprägung in der Grundgesamtheit wir mehr erfahren möchten (die sogenannte '''Verteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1]]]'''). Die möglichen Werte dieser Merkmale bezeichnet man als '''Merkmalsausprägungen''.''''' So gibt es für das Merkmal Geschlecht die Ausprägungen männlich oder weiblich, für die Variable Körpergröße Zahlen zwischen theoretisch Null und deutlich über zwei Meter.
 
 
 
==== '''Befragung der gesamten Grundpopulation nur selten möglich''' ====
 
 
 
Meist ist die '''Grundpopulation''' so groß, dass wir nur einen Teil der Grundpopulation befragen können, eine sogenannte '''Stichprobe'''.
 
 
 
==== '''Öffentliche Quellen für Daten über Grundpopulationen''' ====
 
 
 
Grundinformationen über die Verteilung der '''Grundpopulationen''' kann man u.a. suchen bei '''Statistik Austria[http://www.statistik.at/ &#91;2&#93;]''' und anderen Informationsstellen, in einschlägigen Publikationen etc.
 
  
  
  
 
'''Verweise:'''<br />
 
'''Verweise:'''<br />
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1] Siehe Kapitel 3.1.3]]<br />
+
[[Einige_wissenschaftstheoretische_Grundlagen_der_empirischen_Sozialforschung/Begriffe#2.7.1.1 Operationale Definition: Operationalisierung|[1] Siehe Kapitel 2.7.1.1 der Lernunterlage ''Einführung in die Empirischen Methoden der Kultur- und Sozialanthropologie'']]<br/>
[http://www.statistik.at/ &#91;2&#93; http://www.statistik.at/]<br />
+
[[Von_der_Fragestellung_zur_statistischen_Analyse/Gütekriterien#2.3 Gütekriterien quantitativer Untersuchungen|[2] Siehe Kapitel 2.3]]<br />
  
 
==Inhalt==
 
==Inhalt==
 
<div class="eksa_toc">
 
<div class="eksa_toc">
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|2.1 Die Grundpopulation: worüber wir Aussagen machen]]<br />
+
[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2 Die Operationalisierung|2.2 Die Operationalisierung]]<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.1 Die Stichprobe (Sample)|2.1.1 Die Stichprobe (Sample)]]<br />
+
:[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.1 Die Suche nach Indikatoren|2.2.1 Die Suche nach Indikatoren]]<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.2 Teil- oder Vollerhebung?|2.1.2 Teil- oder Vollerhebung?]]<br />
+
:[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.2 Das Messen|2.2.2 Das Messen]]<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3 Die Ziehung (Auswahl) der Stichprobe|2.1.3 Die Ziehung (Auswahl) der Stichprobe]]<br />
+
::[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.2.1 Messfehler|2.2.2.1 Messfehler]]<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3.1 Geschichtete Stichprobenauswahl (Quotenstichprobe)|2.1.3.1 Geschichtete Stichprobenauswahl (Quotenstichprobe)]]<br />
+
:[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.3 Vom Fragebogen zum Codeplan|2.2.3 Vom Fragebogen zum Codeplan]]<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3.1.1 Proportional geschichtete Stichproben|2.1.3.1.1 Proportional geschichtete Stichproben]]<br />
+
::[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.3.1 Dateneingabe und Erstellung einer Datenmatrix|2.2.3.1 Dateneingabe und Erstellung einer Datenmatrix]]<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3.1.2 Disproportional geschichtete Stichproben|2.1.3.1.2 Disproportional geschichtete Stichproben]]<br />
+
::[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.3.2 Umcodierung mit SPSS|2.2.3.2 Umcodierung mit SPSS]]<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3.1.3 Laufende Kontrolle der Schichtung|2.1.3.1.3 Laufende Kontrolle der Schichtung]]<br />
+
::[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2.3.3 Automatische Rückcodierung mit SPSS|2.2.3.3 Automatische Rückcodierung mit SPSS]]<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3.2 Zufallsstichproben|2.1.3.2 Zufallsstichproben]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3.2.1 Einfache Zufallsstichprobe|2.1.3.2.1 Einfache Zufallsstichprobe]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3.2.2 Systematische Zufallsstichprobe|2.1.3.2.2 Systematische Zufallsstichprobe]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3.2.3 Geschichtete Zufallsstichprobe|2.1.3.2.3 Geschichtete Zufallsstichprobe]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3.3 Willkürliches Auswahlverfahren|2.1.3.3 Willkürliches Auswahlverfahren]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.3.4 Klumpenstichproben|2.1.3.4 Klumpenstichproben]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.4 Repräsentativität|2.1.4 Repräsentativität]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.5 Was tun, wenn die Grundpopulation nicht bekannt ist?|2.1.5 Was tun, wenn die Grundpopulation nicht bekannt ist?]]<br />
 
 
</div>
 
</div>
  
=== Weitere Kapitel dieser Lernunterlage ===
+
== 2.2.1 Die Suche nach Indikatoren ==
[[Funktion_und_Sinn_von_Statistik#1. Funktion und Sinn von Statistik|1. Funktion und Sinn von Statistik]]<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden#3. Ausgewählte statistische Grundlagen und Analysemethoden|3. Ausgewählte statistische Grundlagen und Analysemethoden]]<br />
 
[[Software_für_quantitative_Forschungsprojekte#4. Software für quantitative Forschungsprojekte|4. Software für quantitative Forschungsprojekte]]<br />
 
[[Lexikon_statistischer_Grundbegriffe#5. Lexikon statistischer Grundbegriffe|5. Lexikon statistischer Grundbegriffe]]<br />
 
[[Literatur_Ressourcen_und_Links#6. Literatur, Ressourcen und Links|6. Literatur, Ressourcen und Links]]<br />
 
  
== 2.1.1 Die Stichprobe (Sample) ==
+
Im Forschungsentwurf werden verschiedene '''Hypothesen''' formuliert. Nun benötigt man eine Reihe von '''Indikatoren''', um die '''Hypothesen[[Einige_wissenschaftstheoretische_Grundlagen_der_empirischen_Sozialforschung/Begriffe#2.7.4 Hypothesen|[1]]]''' beibehalten bzw. verwerfen zu können.
  
Eine '''Stichprobe''' ist eine Auswahl von Elementen der Grundgesamtheit, anhand derer die '''Grundgesamtheit[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[1]]]''' nachgebildet werden soll.
+
In vielen Fällen ist die Suche nach den '''Indikatoren''' einfach. Möchte man z.B. ermitteln, wie warm zur gleichen Jahreszeit verschiedene Orte sind, dann genügt eine Messung mit dem Thermometer. Meist jedoch sind die Forschungsfragen komplexer und nicht mit einer einzigen konkreten Messungsart zu beantworten.
  
==== '''Auswahl fast immer notwendig''' ====
+
'''Beispiel 1:'''<br />
 +
Nehmen wir an, Sie postulieren, dass die Gesellschaft in Nepal sehr ungleich und damit nicht egalitär ist. Nun bräuchten wir eine Reihe von sehr viel spezifischeren Fragestellungen, eigentlich '''Subhypothesen''', deren Synthese zur Beantwortung der allgemeinen Hypothese führen kann. Wir könnten zwischen materieller, rechtlicher und politischer (Un-)Gleichheit unterscheiden. Wir könnten Vermögensverhältnisse in verschiedenen Schichten betrachten; den Zugang zu staatlichen und privaten Ressourcen; wir könnten die Vertretung verschiedener Gruppen der Gesellschaft (Frauen, Adelige, Bauern etc.) im Parlament und anderen öffentlichen Gremien betrachten. Wir könnten die Schulbesuchsquote kontrastiv untersuchen etc.
  
Auf Grund der Größe der '''Grundpopulationen''' ist es kaum jemals möglich, alle Mitglieder derselben zu befragen. Daher greift man in der Regel zu '''Stichproben''', also einer Auswahl von Mitgliedern der Grundgesamtheit. Die Mitglieder der Stichproben sollten in der Regel so ausgewählt sein, dass sie ein '''unverzerrtes Abbild''' der '''Grundgesamtheit''' darstellen (siehe '''Repräsentativität[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.4 Repräsentativität|[2]]]''').
+
In all diesen Punkten müssen wir äußerst konkret und präzise werden. Bezüglich des Schulbesuchs könnte man die Zahl der Jahre in der Schule, den maximalen Ausbildungsgrad etc. abfragen. Bezüglich des Vermögens Grundstücke, Häuser, Kapital, Vieh, andere Besitztümer, Leibeigene etc. Wir könnten Einschätzungen abfragen, ob Heiraten zwischen Adeligen und Nichtadeligen als akzeptabel empfunden werden, ob die Befragten annehmen, dass Arme und Reiche vor Gericht die gleichen Chancen haben usw.
  
 +
'''Beispiel 2:'''<br />
 +
Sie nehmen an, dass viele Menschen in Wien AraberInnen ablehnen und oft sogar rassistisch gegenüberstehen. Sie könnten nun in einem Fragebogen an die Wiener Bevölkerung die Wertschätzung des Islams, der arabischen Kultur abfragen. Sie könnten fragen, in welchem Maße man annimmt, dass AraberInnen besonders leicht zu Terrorismus neigen. Sie könnten fragen, ob man sich vorstellen könnte, AraberInnen als angeheiratete Familienmitglieder zu akzeptieren. Sie könnten die Bereitschaft abfragen, AraberInnen Wohnungen zu vermieten. Sie könnten die Befragten ersuchen, die ersten Assoziationen zu nennen, die ihnen beim Begriff AraberInnen einfallen. Sie könnten die Befragten ersuchen, Ihnen das dominante Gefühl zu nennen, welches sie in Gegenwart von AraberInnen spüren usw.
  
 +
Letztendlich könnte man sich auf einen Schlüssel einigen, mit welchem Anteil die mit den verschiedenen Detailfragen erhaltenen Informationen in einen Sammelparameter (Beispiel 1: Ungleichheit/Gleichheit; Beispiel 2: Rassismus gegenüber AraberInnen) einfließen.
  
'''Verweise:'''<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[1] Siehe Kapitel 2.1]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1.4 Repräsentativität|[2] Siehe Kapitel 2.1.4]]<br />
 
  
  
== 2.1.2 Teil- oder Vollerhebung? ==
+
'''Verweise:'''<br />
 
+
[[Einige_wissenschaftstheoretische_Grundlagen_der_empirischen_Sozialforschung/Begriffe#2.7.4 Hypothesen|[1] Siehe Kapitel 2.7.4 der Lernunterlage ''Einführung in die Empirischen Methoden der Kultur- und Sozialanthropologie'']]<br/>
==== '''Teil- oder Vollerhebung?''' ====
 
  
Je nach Größe der '''Grundpopulation''', der Zahl der BefragerInnen und der finanziellen Ressourcen eines Forschungsprojekts kann eine Stichprobe unterschiedlich groß gewählt werden. Quantitativ sinnvolle Stichprobengrößen beginnen bei einer Befragtenanzahl von 100 und sind auch dann noch von großen Fehlermöglichkeiten gekennzeichnet. Sinnvoller wären auch hier deutlich höhere Stichprobengrößen. Wenn z.B. ein Meinungsforschungsinstitut die Wahlpräferenzen erhebt, befragt es in der Regel 300- 1000 Personen.
+
== 2.2.2 Das Messen ==
  
Falls die '''Grundpopulation''' relativ klein ist, wie z.B. ausländische HändlerInnen am Brunnenmarkt, lässt sich auch eine '''Vollerhebung''' durchführen. Dabei werden alle in Frage kommenden Personen befragt.
+
Unter '''Messung''' versteht man die '''quantitative Bestimmung von Sachverhalten in Form einer Messgröße'''''.'' d.h. wir ordnen diesen Zahlen zu.
  
+
Misst man die Temperatur eines Körpers, wird man in unseren Regionen in der Messgröße Celsius messen, in anderen in Fahrenheit etc. Messen wir die Körpergröße, dann messen wir bei größeren Körpern in Metern und Zentimetern, bei Kleinstlebewesen aber auch in Millionstel Metern und darunter. Messen wir das Haushaltseinkommen, werden wir in Euro messen. Bei der Messung von Einstellungen und sozialen Sachverhalten kann man selbst die Messgrößen bestimmen. So könnte man bei der Einschätzung der Sympathie für eine bestimmte Kultur fünf verschiedene Messgrößen festlegen, wie z.B. ’sehr sympathisch’, ’sympathisch’, ’neutral’, ’weniger sympathisch’ und ’unsympathisch’.
  
 +
==== '''Die Antwortkategorien müssen fair und ausgewogen sein''' ====
  
== 2.1.3 Die Ziehung (Auswahl) der Stichprobe ==
+
Es wäre tendenziös und unseriös, in der obigen Sympathie-Skala im positiven Bereich nur ’sehr sympathisch’ anzugeben, im negativen jedoch die zwei vorhandenen Unterscheidungen. Dies könnte dazu führen, dass Antwortende, die nur eine leichte Sympathie für die andere Kultur empfinden, zum neutralen Wert ausweichen. Daher gilt als Grundregel, dass die Zahl der möglichen Antwortvarianten bei derartigen Fragen im negativen Bereich genauso hoch wie im positiven Bereich sein soll.
  
Unter '''Ziehung der Stichprobe''' versteht man die Selektion der Elemente der Stichprobe.
+
Messungen beinhalten immer das Problem von '''Messfehlern'''.
 
 
Die Formen der Ziehung der Stichprobe lassen sich prinzipiell unterteilen in
 
 
 
* '''Geschichtete Stichprobenauswahl'''
 
* '''Willkürliches Auswahlverfahren'''
 
* '''Zufallsstichproben'''
 
* '''Klumpenstichproben'''
 
  
  
 
-----
 
-----
  
=== 2.1.3.1 Geschichtete Stichprobenauswahl (Quotenstichprobe) ===
+
=== 2.2.2.1 Messfehler ===
  
Unter einer '''geschichteten Stichprobenauswahl''' versteht man ein Auswahlverfahren, bei dem wesentliche '''Verteilungscharakteristiken[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1]]]''' der '''Grundgesamtheit[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[2]]]''' nachgebildet werden.
+
Unter '''Messfehler''' versteht man die Abweichung des Ergebnisses von Messungen von den realen Gegebenheiten. Wo eine Messung erfolgt, sollte man immer die Möglichkeit von Messfehlern berücksichtigen. Man kann zwischen '''zufälligen''', '''systematischen und fahrlässigen Messfehlern''' unterscheiden.
  
Einzelne für die Untersuchung als relevant erachtete Merkmale der Zielgruppe werden annähernd im gleichen Verhältnis auf die '''Stichprobe''' übertragen, wie sie in der Grundgesamtheit vorkommen.
+
==== '''A. Zufällige Messfehler:''' ====
  
Relevant sind besonders die Merkmale, welche bei der spezifischen Fragestellung zu besonderer Differenzierung führen können. Bei den Wahlpräferenzen sind das z.B. das Bundesland (Wien ist z.B. traditionell ein ’rotes’ Bundesland, NÖ ein ’schwarzes’); Geschlecht (Frauen haben oft ein ganz anderes Wahlverhalten als Männer); Alter (die Älteren haben eine stärkere Tendenz zur SPÖ, die Jüngeren zu den Grünen) etc.
+
Zufällige Messfehler sind von den Messenden nicht zu kontrollieren. Wenn man zum Beispiel eine bestimmte Personengruppe zu einem sensiblen Thema befragen möchte und gerade am Tag vorher ein (den InterviewerInnen unbekanntes) Ereignis eintritt, welches ihre Neigung zu ehrlichen Antworten temporär verändert, während bei Vergleichsgruppen im gleichen Zeitraum nichts Vergleichbares auftritt, können verfälschte Ergebnisse auftreten. Misst man die Regenfälle in der Sahelgegend, kann es sein, dass ein Ort deutlich besser und gleichmäßiger beregnet wird, als die nicht gemessenen Nachbarorte, im nächsten Jahr kann es umgekehrt sein. Es gibt jedoch einen sogenannten '''Zentralen Grenzwertsatz der Statistik (Wikibooks)[https://de.wikibooks.org/wiki/Statistik:_Zentraler_Grenzwertsatz &#91;1&#93;]''', nach welchem zufällige Fehler sich im Laufe der Zeit ausgleichen und einer Normalverteilung zustreben. Man kann daher postulieren, dass die zufälligen Messfehler bei häufigen Messungen zum Ausgleich tendieren.
  
'''Beispiel:'''<br />
+
==== '''B. Systematische Messfehler:''' ====
Man versucht die aktuellen Wahlpräferenzen der Österreicher mit insgesamt 500 Befragten zu erheben. Da etwa 1/5 der ÖsterreicherInnen in Wien lebt, sollte dementsprechend auch 1/5 der Befragten der Stichprobe, also ca. 100 Personen, aus Wien kommen, aber wesentlich weniger aus dem Burgenland. In gleicher Weise sollte auch die altersmäßige Verteilung der ÖsterreicherInnen wiedergegeben werden, also etwa 1/4 der Befragten über 60 Jahre etc.
 
  
Je nachdem, ob die wesentliichen Verteilungsparameter berücksichtigt werden oder einzelne teilweise bewusst verzerrt werden, spricht man von '''proportional geschichteten Stichproben''' oder von '''disproportional geschichteten Stichproben.'''
+
Systematische Messfehler können durch '''fehlerhafte Messgeräte''' entstehen, wie z.B. die Gewichtsmessung durch eine verstellte Waage; die Zeitmessung durch eine ungenaue Uhr; aber auch z.B. eine Kommunikationsform, welche den Zugang zu manchen Informationen kaum erlaubt. So ist es möglich, dass besonders hoch emotionale Angelegenheiten in einer Fremdsprache zu anderen Antworten als in seiner Muttersprache führen. Man überlege sich, ob es einem in einer Fremdsprache ähnlich schwer wie in seiner Muttersprache fällt, z.B. ''Ich liebe Dich'' zu sagen, wo beim Aussprechen ähnlicher Sätze auch Assoziationen mit Enttäuschungen u.a. verbunden sein können und damit auch die Angst vor Zurückweisung.
  
 +
Ein Teil der systematischen Messfehler kann durch '''stetige Kontrolle''' und '''kritische Hinterfragung''' der Messinstrumente behoben werden.
  
 +
==== '''C. Fahrlässige Messfehler:''' ====
  
'''Verweise:'''<br />
+
'''Grobe Messfehler''' '''beruhen auf menschlichen Fehlern'''. Man trägt z.B. beim Alter 15 statt 51 ein, schreibt eine Antwort in die falsche Spalte; vergisst eine Frage zu stellen oder zu beantworten. Man vermittelt beim Interview eigene Einstellungen, welche mit großer Wahrscheinlichkeit zu einer veränderten Reaktion des Befragten führen (wenn man z.B. einem Befragten deutlich zeigt, dass man seine Einstellungen und Meinungen geringschätzt).
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1] Siehe Kapitel 3.1.3]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[2] Siehe Kapitel 2.1]]<br />
 
  
 +
Weiterführendes zu Messfehlern:
  
-----
+
'''Messfehler (Wikipedia)[http://de.wikipedia.org/wiki/Messfehler &#91;2&#93;]'''
  
=== 2.1.3.1.1 Proportional geschichtete Stichproben  ===
 
  
Bei der '''proportional geschichteten Stichprobe''' werden die '''Schichten''' entsprechend ihrer Verteilung in der Grundgesamtheit ausgewählt. Es wird ein durchgehend treues und '''unverzerrtes Abbild der Grundgesamtheit''' angestrebt.
 
  
Besonders häufig werden für die '''Schichtung''' Geschlecht, Alter und Wohnart verwendet.
+
'''Verweise:'''<br />
 +
[https://de.wikibooks.org/wiki/Statistik:_Zentraler_Grenzwertsatz &#91;1&#93; https://de.wikibooks.org/wiki/Statistik:_Zentraler_Grenzwertsatz]<br />
 +
[http://de.wikipedia.org/wiki/Messfehler &#91;2&#93; http://de.wikipedia.org/wiki/Messfehler]<br />
  
  
-----
+
== 2.2.3 Vom Fragebogen zum Codeplan ==
  
=== 2.1.3.1.2 Disproportional geschichtete Stichproben  ===
+
Unter einem '''Codeplan''' verstehen wir die '''Auflistung aller verwendeten Variablen''' mit einer eindeutigen Information zur inhaltlichen Bedeutung der numerischen Codes, eventuell noch von weiteren Informationen begleitet, welche sich auf den Messvorgang beziehen.
  
Unter einer '''disproportional geschichteten Stichprobe''' versteht man die bewusste Verzerrung einzelner '''Verteilungsparameter''', um signifikante Aussagen über Randbereiche erhalten zu können. Dabei wird eine Bevölkerungsgruppe '''überproportional''' wiedergegeben, um genügend Interviews für sie zu erhalten.
+
In einem Codeplan halten wir eindeutig fest, '''welchen Variablennamen Fragen des Fragebogens entsprechen''', '''wie verschiedene Ausprägungen von Variablen gemessen werden''' (z.B. in cm für die Körpergröße oder in Ja/Nein für bestimmte Erfahrungen) und '''wie diese Ausprägungen in eine numerische Form übersetzt werden''', was überhaupt erst eine maschinelle quantitative Analyse erlaubt.
  
Diese Methode wird v.a. angewandt, um bei beschränkten Stichprobengrößen '''signifikante[[Funktion_und_Sinn_von_Statistik/Wahrscheinlichkeit#1.3.2 Irrtumswahrscheinlichkeit und Signifikanzniveau|[1]]]''' Aussagen über kleinere Bevölkerungsgruppen erhalten zu können, die für die Fragestellung besonders interessant sind.
+
==== '''Statistikprogramme benötigen automatisch interpretierbare Datentypen''' ====
  
==== '''Beispiel: Umfrage zu Reformen im Bildungsbereich''' ====
+
Statistikprogramme benötigen für Berechnungen bestimmte Datentypen, die in der Regel '''numerisch''' sind. Kein Statistikprogramm kann in den Antwortkategorien ’sehr’, ’eher schon’, ’durchschnittlich’, ’eher weniger’, ’überhaupt nicht’ eine logische Reihe erkennen, dass also diese Bezeichnungen für verschiedene logische Abstufungen stehen, nämlich für eine '''Ordinalskala[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.3 Ordinalskalierung|[1]]]'''.
  
Problemstellung: Man möchte herausfinden, wie die österreichische Bevölkerung eine große Bildungsreform einschließlich des Hochschulwesens einschätzt. Man kann dabei insgesamt 1000 Personen befragen. Befragt man die österreichische Bevölkerung proportional geschichtet, würde man etwa 27 Studierende zu diesem Thema befragen, da mit etwa 220.000 Studierenden an öffentlichen Hochschulen ihr Anteil an der Bevölkerung bei ca. 2,7 % liegt. Man könnte somit bei bloß 27 befragten Studierenden keine verlässliche Aussage über sie bekommen, da ihre spezifische Anzahl zu klein ist. Da sie als Betroffene jedoch für die Fragestellung von besonderer Relevanz sind, könnte man sie übergewichten und 100 oder mehr von ihnen befragen.
+
Damit ein Statistikprogramm wie '''SPSS''' die logische Reihenfolge erkennen und danach Analysen über diese bilden kann, müssen die Textwerte in numerische umcodiert werden. Im '''Codeplan''', d.h. der Dokumentation über die ursprünglichen Text- Begriffe und ihrer numerischen Entsprechungen, werden diese Umcodierungen festgehalten. Im obigen Beispiel könnte man ’sehr’ immer durch 1, ’eher schon’ durch 2, ’durchschnittlich’ durch 3, ’eher weniger’ durch 4 und ’überhaupt nicht’ durch 5 ersetzen. Nun ist eine für die Software durchgehende Reihe von 1-5 entstanden, die vom kleinsten zum größten Wert gereiht ist.
  
==== '''Vorteil Kenntnis von Randbereichen, Nachteil Verzerrung des Meinungsbildes''' ====
+
Aktuelle Statistikprogramme wie '''SPSS''' rechnen intern mit diesen numerischen Daten, können mit einfachen Befehlen jedoch bei der Ausgabe der Ergebnisse automatisch die urspünglichen Textinformationen verwenden.
  
Der Vorteil liegt in einer besseren Kenntnis des Meinungsbilds dieser thematisch wichtigen Subgruppe, '''der Nachteil dieser Methode in einem Verlust an Repräsentativität.''' Die Stichprobe ist verzerrt. Wollte man nun allgemeine Aussagen über das Meinungsbild bezüglich dieser Bildungsreform in der österreichischen Öffentlichkeit treffen, müsste man das Meinungsbild der Studierenden auf ihren tatsächlichen Anteil in der Bevölkerung hinuntergewichten.
+
Beispiel eines Codeplans: 
  
 
   
 
   
  
 
+
[[File:quantitative-30_1.jpg|frame|center|Beispiel eines Codeplans]]
 
 
'''Verweise:'''<br />
 
[[Funktion_und_Sinn_von_Statistik/Wahrscheinlichkeit#1.3.2 Irrtumswahrscheinlichkeit und Signifikanzniveau|[1] Siehe Kapitel 1.3.2]]<br />
 
 
 
 
 
-----
 
 
 
=== 2.1.3.1.3 Laufende Kontrolle der Schichtung  ===
 
 
 
==== Während der Befragungsphase laufende Kontrolle der Schichtung erforderlich ====
 
 
 
Bei einem quantitativen Forschungsprojekt führt man laufend Erhebungen, meist mit Fragebögen, durch. Dabei muss man stets einen Überblick über die '''Verteilung[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1]]]''' der bereits Interviewten haben, um Abweichungen von der Verteilung in der '''Grundpopulation[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[2]]]''' korrigieren zu können. Wie? Indem man die nächsten Interviewten aus Personengruppen wählt, die bisher '''unterrepräsentiert''' waren, deren bisheriger Anteil in der Stichprobe also deutlich geringer als ihr Anteil in der Grundpopulation ist.
 
 
 
==== Berechnung ====
 
 
 
Bei ganz kleinen Umfragen kann man die '''Aufteilungsverhältnisse''' mit einer Matrix kontrollieren, in die man laufend mit ‚Stricherln’ einträgt, wen man interviewt hat. Nehmen wir an, in der Grundpopulation hätten wir eine Verteilung von 55 % Männern und 45 % Frauen bzw. von 25 % AkademikerInnen und 75 % NichtakademikerInnen. Mit den '''Schichtungsfragen''' stellen wir fest, ob die Verteilung der Interviewten mit der der Grundpopulation übereinstimmt. Daher müssen Schichtungsfragen auch fester Bestandteil der Fragebögen sein. Bisher haben wir folgende Interviews geführt:
 
 
 
[[File:quantitative-17_1.jpg|frame|center|Kontrolle der Aufteilungsverhältnisse in einer Matrix]]
 
 
 
In unserer '''Stichprobe''' findet sich bisher ein Männeranteil von 70 % (gegenüber 55 % in der Grundpopulation) sowie ein AkademikerInnen-Anteil von 43 % (gegenüber 25 % in der Grundpopulation). Daher müssen wir in Zukunft mehr Frauen und mehr NichtakademikerInnen befragen, solange, bis dieses Ungleichgewicht behoben ist. Zusätzlich gilt es zu bedenken, dass in unserer Stichprobe der Akademikeranteil bei den Männern bisher bei ca. 38 % liegt, der Akademikerinnen-Anteil bei den Frauen jedoch bei ca. 55 %. Sofern beide in der Grundpopulation den gleichen AkademikerInnen-Anteil aufweisen, müssten wir bei den folgenden Interviews darauf achten, dass bei Frauen noch stärker als bei den Männern besonders NichtakademikerInnen interviewt werden.
 
 
 
 
 
 
 
'''Verweise:'''<br />
 
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.3 Verteilungen|[1] Siehe Kapitel 3.1.3]]<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[2] Siehe Kapitel 2.1]]<br />
 
 
 
 
 
-----
 
 
 
=== 2.1.3.2 Zufallsstichproben  ===
 
 
 
Unter '''Zufallsstichproben''' versteht man Auswahlverfahren einer '''Stichprobe''', bei welchen bei einem theoretisch vorliegenden Register aller Elemente der '''Grundgesamtheit[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[1]]]''' die Elemente der '''Stichprobe''' zufällig gezogen werden.
 
 
 
Man vergleiche dies mit einer Lottoziehung. Man hat ein Register von 45 Lotto-Zahlen, welche die gleiche Ziehungwahrscheinlichkeit aufweisen. Aus diesen werden beim Lotto insgesamt sechs Zahlen gezogen.
 
 
 
Man unterscheidet zwischen '''einfachen''' und '''systematischen Zufallsstichproben.''' Eine Sonderform der '''Zufallsstichproben''' sind die '''geschichteten Zuallsstichproben.'''
 
 
 
==== '''Allgemeines Problem von Zufallsstichproben:''' ====
 
 
 
Es ist äußerst schwierig, Register aufzutreiben oder zu erstellen, welche tatsächlich jedem Element der Grundgesamtheit die gleiche Chance des Gezogenwerdens erlauben. Im Telefonregister scheinen viele Nummern nicht auf, da sie als Geheimnummern unterdrückt werden. Geheimnummern werden wiederum häufiger von besser etablierten Personen verwendet, weshalb sie über das Telefonregister eine geringere Chance haben, erreicht zu werden.
 
  
  
  
 
'''Verweise:'''<br />
 
'''Verweise:'''<br />
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[1] Siehe Kapitel 2.1]]<br />
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Eignung#3.1.2.3 Ordinalskalierung|[1] Siehe Kapitel 3.1.2.3]]<br />
 
 
 
 
-----
 
 
 
=== 2.1.3.2.1 Einfache Zufallsstichprobe  ===
 
 
 
Bei der '''einfachen Zufallsstichprobe''' gibt es keinerlei Systematik der Ziehung.
 
 
 
Will man z.B. die Wiener Bevölkerung zum Thema Stadtautobahn befragen, könnte man alle Telefonnummern in einen PC einspeisen (das Register) und sich von einem Programm mit Zufallsgenerator 100 dieser Telefonnummern ’auswerfen’ lassen.
 
  
  
 
-----
 
-----
  
=== 2.1.3.2.2 Systematische Zufallsstichprobe ===
+
=== 2.2.3.1 Dateneingabe und Erstellung einer Datenmatrix ===
  
Bei der '''systematischen Zufallsstichprobe''' erfolgt die Ziehung mit System, mit einem bestimmten Ziehungsschlüssel, und damit nicht mehr ganz zufällig.
+
Unter einer '''Datenmatrix''' versteht man eine '''Tabelle, in welcher alle Messungen an den Versuchsobjekten zusammengefasst werden'''. Die Daten sind normalerweise so angeordnet, dass jede Zeile der Datenmatrix alle '''Messungen''' an einem einzelnen Datenobjekt enthält. In den Zeilen stehen somit von links nach rechts die Angaben zu einer Person (bzw. zu den Untersuchungsobjekten), während in den Spalten die Variablen eingetragen werden.
  
'''Beispiel:''' <br />
+
Siehe z.B. die ersten Spalten und Zeilen der SPSS-Datei zur weltweiten Entwicklung world95.sav:
Man möchte die Einstellung der Wiener Bevölkerung zur Fristenlösung befragen. Man nimmt das Telefonbuch der Stadt Wien und wählt jede 100. Telefonnummer an.
 
  
==== '''Potentielle Probleme der systematischen Zufallsstichproben:''' ====
+
[[File:quantitative-31_1.jpg|frame|center|Beispiel einer SPSS-Datenmatrix]]
 +
Die Untersuchungsobjekte sind hier eindeutig durch ihre in der ersten Spalte stehenden (Länder-)Namen identifiziert. Von links nach rechts werden danach in den einzelnen Zeilen durch Variable Informationen zu den jeweiligen Ländern angegeben: Bevölkerungsgröße, Bevölkerungsdichte, Prozentsatz der städtischen Bevölkerung, Religion etc.
  
Ein Problem dieses Verfahrens kann in einer nicht erkannten Systematik der Verteilung liegen. Wenn man alle Personen befragt, welche jeweils die Türnummer 1 in den Häusern aufweisen, dann wäre die Wahrscheinlichkeit groß, dass Hausmeister deutlich überrrepräsentiert sind.
+
Es ist äußerst empfehlenswert, die Datenmatrix in der hier beschriebenen Weise zu verwalten, da alle führenden und gängigen Analyse- und Darstellungsprogramme (Excel, SPSS etc.) die gleiche Anordnung verwenden.
 
 
==== '''Systematik darf nicht zu starr sein:''' ====
 
 
 
Daher sollte die Systematik nicht zu starr sein. Man könnte z.B. bei der ersten Befragung im 1. Haus das Alter der Person abfragen und aus dem Alter die Türnummer des nächsten abzufragenden Hauses ermitteln, z.B. aus der Ziffernsumme. Nehmen wir an, ein Alter von 32 wird angegeben, dann ist die Ziffernsumme 3+2 = 5, beim nächsten Haus wird also die BewohnerIn der Türnummer 5 befragt usw.
 
 
 
 
  
  
 
-----
 
-----
  
=== 2.1.3.2.3 Geschichtete Zufallsstichprobe ===
+
=== 2.2.3.2 Umcodierung mit SPSS ===
  
Eine Sonderform der '''Zufallsstichprobe''' ist die '''geschichtete Zufallsstichprobe''.''''' Bei dieser findet zuerst eine Einteilung der Stichprobe in sich nicht überlappende Schichten statt. Aus diesen werden wiederum '''einfache''' oder '''systematische Zufallsstichproben''' entnommen.
+
SPSS benötigt gleichzeitig für viele Funktionen numerische Daten, wo Daten in ''String'' (oder Text-)Format vorliegen. So kann SPSS bei reinen Textdaten, wie z.B. ’Sehr Gut’ oder ’Gut’ nicht erkennen, dass ’Sehr Gut’ eine höhere Intensität bzw. Qualität als ’Gut’ wiederspiegelt. SPSS würde eine sinnvolle Rangfolge jedoch in numerischer Form erkennen.
  
==== '''Beispiel: Befragung von WienerInnen''' ====
+
SPSS erlaubt es, '''Stringvariable''' automatisch in '''numerische''' zu codieren.
  
Man entscheidet sich zuerst für eine Berücksichtigung der Größenverhältnisse der einzelnen Bezirke, danach realisiert man mit der festgelegten Anzahl von Personen aus diesen Bezirken '''einfache''' oder '''systematische Zufallsstichproben.'''
+
Dazu benützen Sie die Funktion TRANSFORMIEREN - UMCODIEREN in der Menüleiste. Nun können Sie sich entscheiden, ob die Umcodierung in die gleiche oder in eine andere Variable erfolgen soll. Es ist besser, sich für ''eine andere Variable'' zu entscheiden, da durch die Umcodierung (man kann auch mehrere Werte zu einem einzigen neuen umcodieren) Informationsverlust auftreten kann (ob willentlich oder durch einen Bedienungsfehler). Dieses Problem wird durch Umcodierung in eine neue Variable ausgeschlossen.
  
 +
Sie wählen nun die Variable aus, welche umcodiert werden soll und geben im Feld Ausgabevariable einen neuen Namen dafür ein (der aus Gründen verschiedenster Kompatibilität) acht Zeichen nicht überschreiten darf. Im Feld darunter können Sie jedoch einen beliebig langen und expressiveren Namen wählen.
  
-----
+
[[File:quantitative-32_1.jpg|frame|center|Umkodieren in andere Variablen mit SPSS]]
 +
Klicken Sie nun auf ''Alte und neue Werte''. Wenn Sie einzelne Werte umcodieren möchten, geben Sie im Feld ''Wert'' denselben ein (z.B. Matura). Nun benötigen Sie einen neuen Wert dafür. Dafür könnten Sie z.B. die Zahl 3 im Feld ''Neuer Wert'' eingeben. Im oben angeführten Beispiel wären verschiedene abgeschlossene Ausbildungsstufen in eine logische Reihenfolge gebracht.
  
=== 2.1.3.3 Willkürliches Auswahlverfahren  ===
+
Falls Sie mehrere (numerische) Werte zu einem einzigen neuen zusammenfassen möchten, können Sie einen Bereich angeben (z.B. ''Bereich'' 20 ''bis'' 29), wenn Sie alle zwischen 20-29jährigen in eine einzige Altersklasse ’zwischen 20 und 30' einbringen möchten). Klicken Sie nach jeder einzelnen Angabe zur Umcodierung auf ''Hinzufügen.''
  
Unter einem '''willkürlichen Auswahlverfahren''' versteht man eine '''unkontrollierte Form der Ziehung''', bei welcher die Elemente der Grundgesamtheit eine '''deutlich unterschiedliche Wahrscheinlichkeit der Selektion''' aufweisen, weshalb von der Stichprobe nicht mehr auf die Grundgesamtheit geschlossen werden kann.
+
Klicken Sie am Ende auf Weiter und dann auf OK. Ihre Daten werden nun in die neue Variable umcodiert. Erst jetzt wäre es Ihnen möglich, dass SPSS die Ausbildung nach Jahren und Qualität sinnvoll reihen kann und natürlich auch viele weitere (damit zusammenhängenden) Analysen rechnen kann. So wäre erst jetzt die Berechnung einer '''Korrelation[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Korrelation#3.5.3 Die Korrelation|[1]]]''' zwischen dem Ausbildungsgrad und dem Einkommen möglich.
  
'''Beispiel:'''<br />
 
Eine LehrerIn fragt in der Schule, welche SchülerInnen sich bereit erklären, bei einem sportlichen Ausdauertraining mit Vor- und Nachtest mitzumachen. Eine kleine Zahl von SchülerInnen meldet sich, die wahrscheinlich um einiges fitter als die anderen sind.
 
  
==== '''Sinnvoll für Rückschlüsse auf Methoden''' ====
 
  
Auch eine derartige Auswahl kann sinnvoll sein, wenn man z.B. messen möchte, ob sich die Fitness der ausgewählten TeilnehmerInnen durch das Training verbesserte. In der Medizin verwendet man oft dieses Auswahlverfahren, um die Wirksamkeit von Medikamenten zu testen.
+
'''Verweise:'''<br />
 
+
[[Ausgewählte_statistische_Grundlagen_und_Analysemethoden/Korrelation#3.5.3 Die Korrelation|[1] Siehe Kapitel 3.5.3]]<br />
==== '''Kein Rückschluss auf die Grundgesamtheit''' ====
 
 
 
Ein Rückschluss auf die Grundgesamtheit ist jedoch mit dem '''willkürlichen Auswahlverfahren''' nicht erlaubt.
 
  
  
 
-----
 
-----
  
=== 2.1.3.4 Klumpenstichproben ===
+
=== 2.2.3.3 Automatische Rückcodierung mit SPSS ===
  
Unter einer '''Klumpenstichprobe''' versteht man die Auswahl von '''Klumpen''' (Bündel von Erhebungselementen wie Schulklassen oder Unternehmen) nach dem Zufallsverfahren.
+
Damit SPSS mit Daten rechnen kann, wurden diese in numerischer Form eingegeben oder in eine neue numerische Variable umcodiert. Wenn Sie nun eine auf diesen neuen Variablen basierende Analyse starten, wirken die Ergebnisse ohne zusätzliche Information wenig informativ.
  
Dieses Auswahlverfahren erfolgt meist aus Gründen der Ökonomie. Statt einzelne SchülerInnen aus Schulen in 1000 Orten zu befragen, befragt man z.B. alle SchülerInnen aus 30 ausgewählten Orten, von denen man annimmt, dass diese bezüglich ihrer Eigenheiten die Grundgesamtheit der Orte abbilden.
+
[[File:quantitative-33_1.gif|frame|center|Numerische Variablen]]
  
 +
Niemand könnte ohne Zusatzinformation wissen, dass ''0'' für ''Nein'' und ''1'' für ''Ja'' steht. Damit SPSS intern mit den numerischen Daten rechnen kann, wir jedoch bei allen Ausgaben (Diagramme, Analysen etc.) informative Bezeichnungen erhalten, klicken wir in SPSS unten links auf die ''Variablenansicht.'' Im neuen Fenster finden wir in der Zeile der neuen Variable den Punkt ''Variablenlabel.'' Nach Doppelklick darauf erscheint folgendes Fenster:
  
== 2.1.4 Repräsentativität ==
+
[[File:quantitative-33_2.jpg|frame|center|Definition der Wertelabels mit SPSS]]
  
Unter '''Repräsentativität''' versteht man die angestrebte Eigenschaft von statistischen Erhebungen, die Grundgesamtheit in der ausgewählten Stichprobe möglichst unverzerrt nachzubilden. Eine statistische Erhebung ist '''repräsentativ''', wenn sie auf einer '''Zufallsstichprobe''' basiert und Aussagen über die '''Grundgesamtheit[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[1]]]''' zulässt.
+
Wir geben nun für den Wert das gewünschte Label ein. Wir möchten, dass statt ''0'' der aussagekräftige Text ''Nein'' erscheint, statt ''1'' der aussagekräftige Wert ''Ja.'' Nach Eingabe aller automatisch durchzuführenden Änderungen klicken wir auf OK.
  
Damit von der Stichprobe auf die Grundgesamtheit geschlossen werden kann, müssen bei den verschiedenen '''Formen der Ziehungen''' folgende Bedingungen erfüllt sein:
+
Wenn wir nun die gleiche Häufigkeitsberechnung wie oben durchführen, erhalten wir nun folgende leichter verständliche Tabelle:
 
 
* '''Die Grundgesamtheit muss exakt definiert sein'''. Es muss somit klar festgelegt werden, welche Elemente zur Stichprobe gehören. Gehören z.B. bei einer Untersuchung über AfrikanerInnen in Österreich auch hier geborene Kinder von ZuwanderInnen zur Grundgesamtheit oder ausschließlich in Afrika Geborene?
 
* '''Die Grundgesamtheit muss physisch oder symbolisch präsent und manipulierbar sein''' (sie muss sich durchmischen lassen, jedes Element muss entnehmbar sein). Einfaches Beispiel: Bei einer Lottoziehung wären 45 Kugeln vorhanden, aus denen nach dem Zufallsprinzip jeweils eine gezogen wird.
 
* '''Jedes Element darf nur einmal in der Grundgesamtheit vertreten sein.''' Man darf also nicht z.B. die gleiche Person zweimal mit dem gleichen Fragebogen befragen.
 
* '''Die Auswahl muss so erfolgen, dass jedes Element die gleiche berechenbare Auswahlchance (größer 0) hat, in die Stichprobe zu gelangen.''' Wenn die Befragung ausschließlich an Orten oder zu Zeitpunkten stattfindet, an welchen ein Teil der Grundpopulation nicht oder nur selten erreichbar ist (z.B. ältere Menschen in Discos oder Arbeitende untertags im Park), dann ist die Repräsentativität ebenfalls nicht gewährleistet.
 
 
 
 
 
 
 
'''Verweise:'''<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[1] Siehe Kapitel 2.1]]<br />
 
 
 
 
 
== 2.1.5 Was tun, wenn die Grundpopulation nicht bekannt ist? ==
 
 
 
Sollte es unmöglich sein, statistische Daten über die Schichtung der '''Grundpopulation[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[1]]]''' zu erhalten, kann man entweder
 
 
 
* '''aufgrund vermutlich vergleichbarer Grundpopulationen verallgemeinern.''' Nehmen wir an, wir kennen den Frauenanteil von SudanesInnen in Wien nicht, Die ZuwanderInnen aus verschiedenen anderen vergleichbaren afrikanischen Ländern (islamisch, arabisch - englisch) weisen einen Frauenanteil von etwa 40 % auf, dann könnte man auch bei Sudanesinnen diesen Wert als Arbeitshypothese ansetzen. Man sollte jedoch unbedingt in der Publikation auf dieses Problem und die daraus folgende Annahme einer bestimmten Schichtung hinweisen.
 
* '''ExpertInnen zum Thema befragen''', am besten gleich mehrere. Z.B. könnte man das Magistrat befragen, in welchem Ausmaß verschiedene Nationalitäten am Brunnenmarkt vertreten sind; IntegrationsforscherInnen, auch erfahrene Mitglieder der Grundpopulation etc.
 
 
 
 
 
 
 
'''Verweise:'''<br />
 
[[Von_der_Fragestellung_zur_statistischen_Analyse/Grundpopulation#2.1 Die Grundpopulation: worüber wir Aussagen machen|[1] Siehe Kapitel 2.1]]<br />
 
  
 +
[[File:quantitative-33_3.gif|frame|center|Tabelle mit Wertelabels]]
  
 
<br />
 
<br />
'''[[Von_der_Fragestellung_zur_statistischen_Analyse/Operationalisierung#2.2 Die Operationalisierung|Nächstes Kapitel: 2.2 Die Operationalisierung]]'''
+
'''[[Von_der_Fragestellung_zur_statistischen_Analyse/Gütekriterien#2.3 Gütekriterien quantitativer Untersuchungen|Nächstes Kapitel: 2.3 Gütekriterien quantitativer Untersuchungen]]'''
 
----
 
----
[[#2.1 Die Grundpopulation: worüber wir Aussagen machen|&uarr; Nach oben]]
+
[[#2.2 Die Operationalisierung|&uarr; Nach oben]]

Latest revision as of 14:31, 24 September 2020

Vorheriges Kapitel: 2.1 Die Grundpopulation: worüber wir Aussagen machen

2.2 Die Operationalisierung

verfasst von Erwin Ebermann

Unter Operationalisierung versteht man die präzise Angabe der Vorgangsweise, mit der ein theoretisches Konstrukt gemessen werden soll (wie z.B. die Akzeptanz von Zuwanderergruppen). Dazu gehört die Auswahl der Indikatoren, die genaue Formulierung der Fragen im Fragebogen, dazu gehören die Antwortkategorien, die Bestimmung der Messinstrumente, die Bestimmung der Genauigkeit der Messung, die Anweisungen an die InterviewerInnen, wie sie die Fragen stellen und welche Zusatzinformationen sie geben dürfen etc. Operationalisierung[1] versucht also bis ins kleinste Detail sicherzustellen, dass die wissenschaftlichen Qualitätserfordernisse[2] für vergleichbare Forschungsarbeiten eingehalten werden können und tatsächlich brauchbare Antworten zu den Themen gefunden werden können, die man zu untersuchen vorgibt.

Was man untersucht bzw. ’misst’, muss in seinen Ausprägungen in sinnvolle und voneinander abgrenzbare Untereinheiten unterteilt werden können.

Untersucht man z.B. die mathematischen Fähigkeiten von Schulkindern, kann man zur Notenskala greifen. Das Geschlecht kann in männlich und weiblich unterteilt werden. Bei der Untersuchung der Körpergröße wird man in Maßeinheiten wie cm oder mm messen. Die Einstellung gegenüber Zuwanderergruppen können wir z.B. in einer fünfteiligen Abstufung wiedergeben, wie z.B. ’sehr positiv’, ’eher positiv’, ’neutral’, ’eher ablehnend’ oder ’absolut ablehnend’. Den Erfolg bei den Bewerbungen von Zuwanderern am Arbeitsmarkt könnte man unterteilen in ’sofort abgelehnt’, ’zu Bewerbungsgespräch eingeladen, aber dann abgelehnt’ und ’aufgenommen’ unterteilen. Den Familienstand kann man in ’ledig’, ’geschieden’, ’verheiratet’, ’verwitwet’ unterteilen.


Verweise:
[1] Siehe Kapitel 2.7.1.1 der Lernunterlage Einführung in die Empirischen Methoden der Kultur- und Sozialanthropologie
[2] Siehe Kapitel 2.3

Inhalt

2.2.1 Die Suche nach Indikatoren

Im Forschungsentwurf werden verschiedene Hypothesen formuliert. Nun benötigt man eine Reihe von Indikatoren, um die Hypothesen[1] beibehalten bzw. verwerfen zu können.

In vielen Fällen ist die Suche nach den Indikatoren einfach. Möchte man z.B. ermitteln, wie warm zur gleichen Jahreszeit verschiedene Orte sind, dann genügt eine Messung mit dem Thermometer. Meist jedoch sind die Forschungsfragen komplexer und nicht mit einer einzigen konkreten Messungsart zu beantworten.

Beispiel 1:
Nehmen wir an, Sie postulieren, dass die Gesellschaft in Nepal sehr ungleich und damit nicht egalitär ist. Nun bräuchten wir eine Reihe von sehr viel spezifischeren Fragestellungen, eigentlich Subhypothesen, deren Synthese zur Beantwortung der allgemeinen Hypothese führen kann. Wir könnten zwischen materieller, rechtlicher und politischer (Un-)Gleichheit unterscheiden. Wir könnten Vermögensverhältnisse in verschiedenen Schichten betrachten; den Zugang zu staatlichen und privaten Ressourcen; wir könnten die Vertretung verschiedener Gruppen der Gesellschaft (Frauen, Adelige, Bauern etc.) im Parlament und anderen öffentlichen Gremien betrachten. Wir könnten die Schulbesuchsquote kontrastiv untersuchen etc.

In all diesen Punkten müssen wir äußerst konkret und präzise werden. Bezüglich des Schulbesuchs könnte man die Zahl der Jahre in der Schule, den maximalen Ausbildungsgrad etc. abfragen. Bezüglich des Vermögens Grundstücke, Häuser, Kapital, Vieh, andere Besitztümer, Leibeigene etc. Wir könnten Einschätzungen abfragen, ob Heiraten zwischen Adeligen und Nichtadeligen als akzeptabel empfunden werden, ob die Befragten annehmen, dass Arme und Reiche vor Gericht die gleichen Chancen haben usw.

Beispiel 2:
Sie nehmen an, dass viele Menschen in Wien AraberInnen ablehnen und oft sogar rassistisch gegenüberstehen. Sie könnten nun in einem Fragebogen an die Wiener Bevölkerung die Wertschätzung des Islams, der arabischen Kultur abfragen. Sie könnten fragen, in welchem Maße man annimmt, dass AraberInnen besonders leicht zu Terrorismus neigen. Sie könnten fragen, ob man sich vorstellen könnte, AraberInnen als angeheiratete Familienmitglieder zu akzeptieren. Sie könnten die Bereitschaft abfragen, AraberInnen Wohnungen zu vermieten. Sie könnten die Befragten ersuchen, die ersten Assoziationen zu nennen, die ihnen beim Begriff AraberInnen einfallen. Sie könnten die Befragten ersuchen, Ihnen das dominante Gefühl zu nennen, welches sie in Gegenwart von AraberInnen spüren usw.

Letztendlich könnte man sich auf einen Schlüssel einigen, mit welchem Anteil die mit den verschiedenen Detailfragen erhaltenen Informationen in einen Sammelparameter (Beispiel 1: Ungleichheit/Gleichheit; Beispiel 2: Rassismus gegenüber AraberInnen) einfließen.


Verweise:
[1] Siehe Kapitel 2.7.4 der Lernunterlage Einführung in die Empirischen Methoden der Kultur- und Sozialanthropologie

2.2.2 Das Messen

Unter Messung versteht man die quantitative Bestimmung von Sachverhalten in Form einer Messgröße. d.h. wir ordnen diesen Zahlen zu.

Misst man die Temperatur eines Körpers, wird man in unseren Regionen in der Messgröße Celsius messen, in anderen in Fahrenheit etc. Messen wir die Körpergröße, dann messen wir bei größeren Körpern in Metern und Zentimetern, bei Kleinstlebewesen aber auch in Millionstel Metern und darunter. Messen wir das Haushaltseinkommen, werden wir in Euro messen. Bei der Messung von Einstellungen und sozialen Sachverhalten kann man selbst die Messgrößen bestimmen. So könnte man bei der Einschätzung der Sympathie für eine bestimmte Kultur fünf verschiedene Messgrößen festlegen, wie z.B. ’sehr sympathisch’, ’sympathisch’, ’neutral’, ’weniger sympathisch’ und ’unsympathisch’.

Die Antwortkategorien müssen fair und ausgewogen sein

Es wäre tendenziös und unseriös, in der obigen Sympathie-Skala im positiven Bereich nur ’sehr sympathisch’ anzugeben, im negativen jedoch die zwei vorhandenen Unterscheidungen. Dies könnte dazu führen, dass Antwortende, die nur eine leichte Sympathie für die andere Kultur empfinden, zum neutralen Wert ausweichen. Daher gilt als Grundregel, dass die Zahl der möglichen Antwortvarianten bei derartigen Fragen im negativen Bereich genauso hoch wie im positiven Bereich sein soll.

Messungen beinhalten immer das Problem von Messfehlern.



2.2.2.1 Messfehler

Unter Messfehler versteht man die Abweichung des Ergebnisses von Messungen von den realen Gegebenheiten. Wo eine Messung erfolgt, sollte man immer die Möglichkeit von Messfehlern berücksichtigen. Man kann zwischen zufälligen, systematischen und fahrlässigen Messfehlern unterscheiden.

A. Zufällige Messfehler:

Zufällige Messfehler sind von den Messenden nicht zu kontrollieren. Wenn man zum Beispiel eine bestimmte Personengruppe zu einem sensiblen Thema befragen möchte und gerade am Tag vorher ein (den InterviewerInnen unbekanntes) Ereignis eintritt, welches ihre Neigung zu ehrlichen Antworten temporär verändert, während bei Vergleichsgruppen im gleichen Zeitraum nichts Vergleichbares auftritt, können verfälschte Ergebnisse auftreten. Misst man die Regenfälle in der Sahelgegend, kann es sein, dass ein Ort deutlich besser und gleichmäßiger beregnet wird, als die nicht gemessenen Nachbarorte, im nächsten Jahr kann es umgekehrt sein. Es gibt jedoch einen sogenannten Zentralen Grenzwertsatz der Statistik (Wikibooks)[1], nach welchem zufällige Fehler sich im Laufe der Zeit ausgleichen und einer Normalverteilung zustreben. Man kann daher postulieren, dass die zufälligen Messfehler bei häufigen Messungen zum Ausgleich tendieren.

B. Systematische Messfehler:

Systematische Messfehler können durch fehlerhafte Messgeräte entstehen, wie z.B. die Gewichtsmessung durch eine verstellte Waage; die Zeitmessung durch eine ungenaue Uhr; aber auch z.B. eine Kommunikationsform, welche den Zugang zu manchen Informationen kaum erlaubt. So ist es möglich, dass besonders hoch emotionale Angelegenheiten in einer Fremdsprache zu anderen Antworten als in seiner Muttersprache führen. Man überlege sich, ob es einem in einer Fremdsprache ähnlich schwer wie in seiner Muttersprache fällt, z.B. Ich liebe Dich zu sagen, wo beim Aussprechen ähnlicher Sätze auch Assoziationen mit Enttäuschungen u.a. verbunden sein können und damit auch die Angst vor Zurückweisung.

Ein Teil der systematischen Messfehler kann durch stetige Kontrolle und kritische Hinterfragung der Messinstrumente behoben werden.

C. Fahrlässige Messfehler:

Grobe Messfehler beruhen auf menschlichen Fehlern. Man trägt z.B. beim Alter 15 statt 51 ein, schreibt eine Antwort in die falsche Spalte; vergisst eine Frage zu stellen oder zu beantworten. Man vermittelt beim Interview eigene Einstellungen, welche mit großer Wahrscheinlichkeit zu einer veränderten Reaktion des Befragten führen (wenn man z.B. einem Befragten deutlich zeigt, dass man seine Einstellungen und Meinungen geringschätzt).

Weiterführendes zu Messfehlern:

Messfehler (Wikipedia)[2]


Verweise:
[1] https://de.wikibooks.org/wiki/Statistik:_Zentraler_Grenzwertsatz
[2] http://de.wikipedia.org/wiki/Messfehler


2.2.3 Vom Fragebogen zum Codeplan

Unter einem Codeplan verstehen wir die Auflistung aller verwendeten Variablen mit einer eindeutigen Information zur inhaltlichen Bedeutung der numerischen Codes, eventuell noch von weiteren Informationen begleitet, welche sich auf den Messvorgang beziehen.

In einem Codeplan halten wir eindeutig fest, welchen Variablennamen Fragen des Fragebogens entsprechen, wie verschiedene Ausprägungen von Variablen gemessen werden (z.B. in cm für die Körpergröße oder in Ja/Nein für bestimmte Erfahrungen) und wie diese Ausprägungen in eine numerische Form übersetzt werden, was überhaupt erst eine maschinelle quantitative Analyse erlaubt.

Statistikprogramme benötigen automatisch interpretierbare Datentypen

Statistikprogramme benötigen für Berechnungen bestimmte Datentypen, die in der Regel numerisch sind. Kein Statistikprogramm kann in den Antwortkategorien ’sehr’, ’eher schon’, ’durchschnittlich’, ’eher weniger’, ’überhaupt nicht’ eine logische Reihe erkennen, dass also diese Bezeichnungen für verschiedene logische Abstufungen stehen, nämlich für eine Ordinalskala[1].

Damit ein Statistikprogramm wie SPSS die logische Reihenfolge erkennen und danach Analysen über diese bilden kann, müssen die Textwerte in numerische umcodiert werden. Im Codeplan, d.h. der Dokumentation über die ursprünglichen Text- Begriffe und ihrer numerischen Entsprechungen, werden diese Umcodierungen festgehalten. Im obigen Beispiel könnte man ’sehr’ immer durch 1, ’eher schon’ durch 2, ’durchschnittlich’ durch 3, ’eher weniger’ durch 4 und ’überhaupt nicht’ durch 5 ersetzen. Nun ist eine für die Software durchgehende Reihe von 1-5 entstanden, die vom kleinsten zum größten Wert gereiht ist.

Aktuelle Statistikprogramme wie SPSS rechnen intern mit diesen numerischen Daten, können mit einfachen Befehlen jedoch bei der Ausgabe der Ergebnisse automatisch die urspünglichen Textinformationen verwenden.

Beispiel eines Codeplans:


Beispiel eines Codeplans


Verweise:
[1] Siehe Kapitel 3.1.2.3



2.2.3.1 Dateneingabe und Erstellung einer Datenmatrix

Unter einer Datenmatrix versteht man eine Tabelle, in welcher alle Messungen an den Versuchsobjekten zusammengefasst werden. Die Daten sind normalerweise so angeordnet, dass jede Zeile der Datenmatrix alle Messungen an einem einzelnen Datenobjekt enthält. In den Zeilen stehen somit von links nach rechts die Angaben zu einer Person (bzw. zu den Untersuchungsobjekten), während in den Spalten die Variablen eingetragen werden.

Siehe z.B. die ersten Spalten und Zeilen der SPSS-Datei zur weltweiten Entwicklung world95.sav:

Beispiel einer SPSS-Datenmatrix

Die Untersuchungsobjekte sind hier eindeutig durch ihre in der ersten Spalte stehenden (Länder-)Namen identifiziert. Von links nach rechts werden danach in den einzelnen Zeilen durch Variable Informationen zu den jeweiligen Ländern angegeben: Bevölkerungsgröße, Bevölkerungsdichte, Prozentsatz der städtischen Bevölkerung, Religion etc.

Es ist äußerst empfehlenswert, die Datenmatrix in der hier beschriebenen Weise zu verwalten, da alle führenden und gängigen Analyse- und Darstellungsprogramme (Excel, SPSS etc.) die gleiche Anordnung verwenden.



2.2.3.2 Umcodierung mit SPSS

SPSS benötigt gleichzeitig für viele Funktionen numerische Daten, wo Daten in String (oder Text-)Format vorliegen. So kann SPSS bei reinen Textdaten, wie z.B. ’Sehr Gut’ oder ’Gut’ nicht erkennen, dass ’Sehr Gut’ eine höhere Intensität bzw. Qualität als ’Gut’ wiederspiegelt. SPSS würde eine sinnvolle Rangfolge jedoch in numerischer Form erkennen.

SPSS erlaubt es, Stringvariable automatisch in numerische zu codieren.

Dazu benützen Sie die Funktion TRANSFORMIEREN - UMCODIEREN in der Menüleiste. Nun können Sie sich entscheiden, ob die Umcodierung in die gleiche oder in eine andere Variable erfolgen soll. Es ist besser, sich für eine andere Variable zu entscheiden, da durch die Umcodierung (man kann auch mehrere Werte zu einem einzigen neuen umcodieren) Informationsverlust auftreten kann (ob willentlich oder durch einen Bedienungsfehler). Dieses Problem wird durch Umcodierung in eine neue Variable ausgeschlossen.

Sie wählen nun die Variable aus, welche umcodiert werden soll und geben im Feld Ausgabevariable einen neuen Namen dafür ein (der aus Gründen verschiedenster Kompatibilität) acht Zeichen nicht überschreiten darf. Im Feld darunter können Sie jedoch einen beliebig langen und expressiveren Namen wählen.

Umkodieren in andere Variablen mit SPSS

Klicken Sie nun auf Alte und neue Werte. Wenn Sie einzelne Werte umcodieren möchten, geben Sie im Feld Wert denselben ein (z.B. Matura). Nun benötigen Sie einen neuen Wert dafür. Dafür könnten Sie z.B. die Zahl 3 im Feld Neuer Wert eingeben. Im oben angeführten Beispiel wären verschiedene abgeschlossene Ausbildungsstufen in eine logische Reihenfolge gebracht.

Falls Sie mehrere (numerische) Werte zu einem einzigen neuen zusammenfassen möchten, können Sie einen Bereich angeben (z.B. Bereich 20 bis 29), wenn Sie alle zwischen 20-29jährigen in eine einzige Altersklasse ’zwischen 20 und 30' einbringen möchten). Klicken Sie nach jeder einzelnen Angabe zur Umcodierung auf Hinzufügen.

Klicken Sie am Ende auf Weiter und dann auf OK. Ihre Daten werden nun in die neue Variable umcodiert. Erst jetzt wäre es Ihnen möglich, dass SPSS die Ausbildung nach Jahren und Qualität sinnvoll reihen kann und natürlich auch viele weitere (damit zusammenhängenden) Analysen rechnen kann. So wäre erst jetzt die Berechnung einer Korrelation[1] zwischen dem Ausbildungsgrad und dem Einkommen möglich.


Verweise:
[1] Siehe Kapitel 3.5.3



2.2.3.3 Automatische Rückcodierung mit SPSS

Damit SPSS mit Daten rechnen kann, wurden diese in numerischer Form eingegeben oder in eine neue numerische Variable umcodiert. Wenn Sie nun eine auf diesen neuen Variablen basierende Analyse starten, wirken die Ergebnisse ohne zusätzliche Information wenig informativ.

Numerische Variablen

Niemand könnte ohne Zusatzinformation wissen, dass 0 für Nein und 1 für Ja steht. Damit SPSS intern mit den numerischen Daten rechnen kann, wir jedoch bei allen Ausgaben (Diagramme, Analysen etc.) informative Bezeichnungen erhalten, klicken wir in SPSS unten links auf die Variablenansicht. Im neuen Fenster finden wir in der Zeile der neuen Variable den Punkt Variablenlabel. Nach Doppelklick darauf erscheint folgendes Fenster:

Definition der Wertelabels mit SPSS

Wir geben nun für den Wert das gewünschte Label ein. Wir möchten, dass statt 0 der aussagekräftige Text Nein erscheint, statt 1 der aussagekräftige Wert Ja. Nach Eingabe aller automatisch durchzuführenden Änderungen klicken wir auf OK.

Wenn wir nun die gleiche Häufigkeitsberechnung wie oben durchführen, erhalten wir nun folgende leichter verständliche Tabelle:

Tabelle mit Wertelabels


Nächstes Kapitel: 2.3 Gütekriterien quantitativer Untersuchungen


↑ Nach oben