Einführung in die Statistik

Statistik ist ein Werkzeug um Aussagen zu treffen

Begriffe

Population bestehen aus all denjenigen Objekten, über die man eine Aussage treffen möchte
In Zufallsstichproben hat jedes Element die gleiche Chance ausgewäht zu werden
Inferenz (Rückschluss) Aussage über die Population aufgrund einer Stichprobe. Verallgemeinerung
Statistik gibt Werkzeuge, die es ermöglichen, das Risiko einer Falschaussage zu minimieren

Einheit	Terminologie	Notation
Population	Menge aller relevanten Beobachtungseinheiten	Ausmaß: N, Parameter: mu
Stichprobe	(Zufalls-)Auswahl von Beobachtungseinheiten aus der Population	Ausmaß: n, Parameter x
Beobachtungseinheit	Kleinste Einheit der Beobachtung un Statistikanalyse
Zufallsvariable oder Wert	Merkmale der Beobachtungseinheiten	Zufallsvariable: X, individ. Wert: xi

Von der Idee zur Untersuchung

graph TD; a[Fragestellung] b[Planung] c[Datenerhebung] d[Datenauswertung] e[Interpretation] a-->b b-->c c-->d d-->e e-->a

Berechnung einer Stichprobengröße

Faustregel 1

Zellbesetzung >5
Folgendes muss erfüllt sein: n*(1-Stichprobenanteil in %) >5
Beispiel: Wenn am Sonntag
- Variablen: Geschlecht (2 Kategorien), Alter (4 Kategorien), Schichtzugehörigkeit (3 Kategorien), Wahlbeteiligung (2 Kategorien). Insgesamt 48 Zellen
- Es müssen also 5*48 = 240 Personen befragt werden
  Faustregel 2
Festlegung einer Grenze (z.B. 5%)
1/Wurzel(n)
Beispiel: 1/Wurzel(1000) = 0,03 entspricht 3%

Bevölkerungsstudien

Das RKI macht drei große Bevölkerungsstudien: GEDA, KIGGS, DEGS
GEDA 1.0
- N: Deutschsprachige Wohnbevölkerung in Privathaushalten ab 18 Jahren, die über einen Festnetzanschluss zu erreichen sind
- Zusallstichprobe aus Nummern-pool aller öffentlich zugänglichen rufnummern (Gabler-Häder-Verfahren 1999)
- Kontaktaufnahme der Haushalte und Auswahl der Zielperson nach der Last-Birthday-nethode
- Merkmal und Ausprägung
  - z.B. Merkmal: Sozioökonomischer Status zugehörige Ausprägung wird durch drei Indikatoren gebildet (Bildungsstand, Berufsstatus, Einkommen). Aus den drei Indikatoren werden die Ausprägungen berechnet.
GEDA Daten sind public use files

Skalenniveau

Skala	Definition	Mögliche Aussagen	Beispiel
Nominal	Häufigkeiten	Äquivalenzrelation	Geschlecht, ICD-10
Ordinal	+Rangfolge	Ordnungsrelation	Sozialstatus
Intervall	+Abstände	Gleichheit von Differenzen	Einkommen
Metrisch	+absoluter Nullpunkt	Gleichheit von Verhältnissen	Längenmaß

Es ist möglich ein hohes Skalenniveau in ein niedrigeres zu transferieren

Erhebungsmethoden

Beobachtung: qualitativ vs quantitativ
Befragung: mündlich vs. schriftlich
Experimentelle designs: psycholgische tests, physiologische Messung
Interviewform
- nicht-standardisiertes Interview (narrativ)
- offenes Interview
- halbstandardisiertes Interview (Leitfaden)
- standardisiertes interview

Schriftliche Befragung

Wenn möglich validierte Instrumente

Gütekriterien

Objektivität: Anwenderunabhängig
Reliabilität: Wiederholbarkeit
Validität: Gültig

Deskriptive Statistik

Kurze Beschreibung der grundlegenden Datenmerkmalen
Datenaufbereitung
Berechnung von statistischen Kennzahlen
Grundlagen jeder umfangreicheren quantitativen Datenanalyse

Statistische Datenanalyse

Univariat
- Maße der zentralen Tendenz (Lagemaße)
- Dispersionsmaße (Streungsmaße)
- Proportionen, Häufigkeiten
Bivariat
- Analyse von Unterschieden
- Zusammenahngsanalyse
Multivariat
- Struktur entdeckende Verfahren
- Strukturprüfende Verfahren

Lage und Streuungsmaße

Modalwert (höchster Wert)
Median
Mittelwert
Varianz ist die Summe der quadrierten Abweichungen vom Mittelwert
Standardabweichung ist die Wurzel aus der Varianz (wieder in der Standardeinheit)

Methodenberatung

Methodenberatung der Universität Zürich

Normalverteilung

Glockenförmig
Unimodal
Symetrisch

Konfidenzintervall und p-Wert

p-Wert gibt die Wahrscheinlichekti an eine Falschaussage zu treffen
Konfidenzintervall gibt Informationen über die Größe eine Effektes
Alternative Baysean statistics

Wahl der Analysemethode

Siehe Methodenberatung Universtität Zürich

t-Test

Der t-Test vergleicht Mittelwerte
Bei 2 unabhängigen Gruppen - Zweisitchprobentest
Bei 2 abhängigen Gruppen - Gepaarte Stichproben
Bei 1 Gruppe
Klassische Frage: Wie wahrscheinlich ist die empirisch gefundene oder eine größere Mittelwertdifferenz unter allen möglichen rein theoretisch denkbaren Differenzen?
Voraussetzungen des t-Tests
- Die abhängige Variable ist intervallskaliert
- Das untersuchte Merkmal ist in den Grundgesamtheiten der beiden Gruppen normalverteilt
- Homogenität der Varianzen (->Leven Test)
- Die einzelnen Messwerte sind voneinander unabhängig

Korrelation

Man nimmt den Korrelationskoeffizient zur Abschätzung der Stärke eines Zusammenhangs (nimmt Werte zwischen -1 und +1 an)
Korrelationskoeffizent r
Interpretation nach Cohen, aber abhängig vom Untersuchungsgegenstand

Chi-Quadrat-Test

Der Chi-Quadrat-Test wird zur Überprüfung von Häufigkeitsverteilungen eingesetzt also bei Variablen mit nomalem Skalenniveau
Typische Frage: Tragen Männer oder Frauen häufiger Brillen

Lineare Regression

Kann angewendet werden, wenn die abhängige Variable metrisch ist.

Logistische Regression

Kann angewendet werden, wenn die abhängige Variable dichotom ist
Sinnvoll für viele medizinische Fragestellungen: Hat die Person ein Übergewicht oder nicht

Begriffe

Von der Idee zur Untersuchung

Berechnung einer Stichprobengröße

Faustregel 1

Faustregel 2

Bevölkerungsstudien

Skalenniveau

Erhebungsmethoden

Schriftliche Befragung

Gütekriterien

Deskriptive Statistik

Statistische Datenanalyse

Lage und Streuungsmaße

Methodenberatung

Normalverteilung

Konfidenzintervall und p-Wert

Wahl der Analysemethode

t-Test

Korrelation

Chi-Quadrat-Test

Lineare Regression

Logistische Regression