Zur Übersicht über die Lernpfade Zur Welcome Page


0,05 - in signifikanter Mission

Lernpfad erstellt und betreut von:

die_normalverteilten

E-mail: reinhard.raml@univie.ac.at
Homepage: http://www.univie.ac.at/soziologie-statistik/
Steckbrief
Kurs-Informationen
Lernpfadseite als User öffnen (Login)
Lernpfadseite bearbeiten (Autor)

Übersicht:       
Hilfe
1. Stichprobe und Grundgesamtheit
2. Testen von Hypothesen
3. Literatur

Stichprobe und Grundgesamtheit
 
1.1. Einführende Bemerkungen
Die Statistik als sozialwissenschaftliches Betätigungsfeld (Instrumentarium) zerfällt im Wesentlichen in zwei Gebiete: die deskriptive (beschreibende) Statistik und die Inferenz- (schließende) statistik.

Die deskriptive Statistik befasst sich mit der kompakten Beschreibung von erhobenen/festgestellten Merkmalsverteilungen in einer bestimmten Menge von Objekten. Sie gibt uns Hilfsmittel in die Hand mit denen wir uns einen Überblick über die Fülle des Materials verschaffen können. Sie erleichtert uns auch die Kommunikation wesentlicher Informationen.

In den Sozialwissenschaften stellen wir uns aber häufig auch die Frage nach der Generalisierbarkeit von Ergebnissen, d.h. wir wollen aufgrund der Beschaffenheit einer kleinen Teilmenge (Stichprobe) Aussagen über die Strukturen der zugrundeliegenden Menge (Grundgesamtheit, Population) machen. Mit den damit verbundenen Verfahren und Problemen beschäftigt sich die Inferenzstatistik .

In einer empirischen Untersuchung ziehen wir zunächst eine Stichprobe (siehe 1.2), anhand deren wir bestimmte statistische Kennwerte (wie arithmetisches Mittel, Standardabweichung usw.) berechnen, anhand deren wir die Parameter in der Population schätzen. Diese Punktschätzungen sind mehr oder weniger genau. Um diese Ungenauigkeit abschätzen zu können, haben wir letztes Semester die Konfidenzintervalle kennen gelernt. Mit den Eigenschaften des Konfidenzintervalls beschäftigt sich Pkt. 1.4

In Pkt. 1.3 wird das fundamentale Konzept der Signifikanztests erläutert. Hierbei wird die Theorie behandelt, wie man von Kennwerten einer Stichprobe auf den entsprechenden Parameter in der Grundgesamtheit schließen kann. Aus didaktischen Gründen der Einfachheit beschränken wir uns dabei auf das arithmetische Mittel bzw. den Parameter µ [mü].


Zur Ergänzung und Vertiefung dienen Ihnen die im Literaturkapitel angeführten Standardwerke sowie diverse Suchmaschinen des Internets.

Unter 1.3. ist etwa ein link angegeben, der ein Folienset zum Thema "Inferenzstatistik" enthält, welches durch die Suchmaschine "Google" mit dem Begriff "Stichprobenkennwerteverteilung" gefunden wurde. Beachten Sie aber, dass auf das Internet im Grunde genommen das Bildnis eines Müllhaufens zutrifft!


Vorgriff
 
1.2. Ziehen von Stichproben, Arten von Stichproben
http://www.mathe-online.at/materialien/die_normalverteilten/
   files/aufgabenblatt.doc

Angebot aus den Materialien des Open Studio oder upgeloadete Ressource Eintrag in das Lerntagebuch erwünscht!
Statistische Untersuchungen haben meist das Ziel über interessierende Eigenschaften einer bestimmten Gruppe von Personen oder Objekten (Grundgesamtheit) Informationen zu erhalten. Da es aus vielerlei Gründen nicht immer möglich ist, die ganze Grundgesamtheit zu untersuchen (Vollerhebung), beschränkt man sich häufig auf die Untersuchung eines Teils dieser Grundgesamtheit (Stichprobe) und versucht von den in dieser Teilmenge vorgefundenen Eigenschaften auf die Eigenschaften in der Grundgesamtheit zu schließen. Kann aufgrund theoretischer Überlegungen von der Verteilung der Merkmalsausprägungen in der Stichprobe auf jene in der Grundgesamtheit geschlossen werden, so nennt man die Stichprobe repräsentativ für die Grundgesamtheit. Ist eine Stichprobe in bezug auf alle Merkmale der Grundgesamtheit repräsentativ, so spricht man von globaler Repräsentativität, ist sie dies nur bezüglich bestimmter Merkmale, so spricht man von spezifischer Repräsentativität. Die Wahl der Repräsentativität ist vom Untersuchungsdesign und den Vorkenntnissen über die zu überprüfenden Hypothesen abhängig.
Eine Stichprobe ist sozusagen ein Miniaturbild der Grundgesamtheit. Je besser dieses Bild ist, desto besser lassen sich Schlüsse über die Population ziehen. Darüber hinaus ist die Präzision der getroffenen Aussagen von der Größe der Stichprobe abhängig (siehe hierzu 1.3, 1.5 und 1.6).


Zufallsstichprobe (random sample)
Eine Zufallsstichprobe ist dadurch charakterisiert, dass jedes Element der Grundgesamtheit mit gleicher Wahrscheinlichkeit in die Stichprobe aufgenommen werden kann. Die Ziehung einer Zufallsstichprobe empfiehlt sich dann, wenn über die Verteilung der für die Untersuchung relevanten Merkmale wenig oder gar nichts bekannt ist.


Geschichtete Stichprobe (stratified sample)
Sind in einer Untersuchung die relevanten Einflussgrößen bekannt (wie etwa Geschlecht, Einkommen etc.), so empfiehlt es sich eine in bezug auf diese Determinanten repräsentative Stichprobe zu ziehen, d.h. die Verteilung dieser Merkmale in der Population in der Stichprobe abzubilden. Die Auswahl innerhalb der Schichten erfolgt wiederum zufällig.


Klumpenstichprobe (cluster sample)
Eine Klumpenstichprobe besteht aus allen Einheiten, die sich in zufällig ausgewählten Klumpen befinden. Interessiert man sich z.B. für die Grundgesamtheit der AHS-Schüler, so stellt die zufällige Auswahl und vollständige (!) Untersuchung mehrerer Schulklassen eine Klumpenstichprobe dar.


Aufgabe:

Bearbeiten Sie nun Punkt 1 des Aufgabenblatts (siehe link)!


Eintrag in das Lerntagebuch
 
1.3. Stichprobenkennwerteverteilung
http://www2.rz.hu-berlin.de/esf/statI/ hypothesenueberpruefung.pdf

MeilensteinEintrag in das Lerntagebuch erwünscht!

Nehmen Sie sich für dieses Kapitel ausreichend Zeit! Versuchen Sie jeden einzelnen Gedankengang nachzuvollziehen und fahren Sie mit dem Lesen des Textes erst dann fort, wenn Sie der Meinung sind, diesen Gedankengang jemand anderen erklären zu können, sprich: Sie sind der Auffassung, Sie haben ihn verstanden :-)

Die fundamentale Aussgangssituation sieht folgendermaßen aus: Zunächst wird eine Grundgesamtheit definiert, aus der eine Zufallsstichprobe vom Umfang n gezogen wird. Wir erheben in dieser Stichprobe die Ausprägungen der Variablen X und berechnen das arithmetische Mittel (AM). Wie gut schätzt nun AM den Parameter (wahre Kenngröße) µ?

Der zentrale Gedanke ist nun: Angenommen wir ziehen noch eine zweite Stichprobe vom gleichen Unfang aus der Population und berechnen abermals AM. Je näher diese beiden Kennwerte beieinander liegen, desto eher würden wir annehmen, dass sie den Parameter µ gut schätzen. Es erscheint auch plausibel, das AM der beiden Kennwerte zu berechnen und als Schätzwert heran zu ziehen. Des weiteren wird angenommen, dass die AM verschiedener Stichproben aus derselben Grundgesamtheit nicht identisch sind, sondern um den Parameter µ streuen. Ziehen wir nun aus der Population (theoretisch unendlich) viele Stichproben, so erhalten wir für jede ein AM. Die Verteilung dieser (theoretisch unendlich) vielen AM nennt man Stichprobenkennwerteverteilung.

Der Standardfehler

Die Streuung der Stichprobenkennwerteverteilung ist ein Maß dafür, wie gut ein Kennwert den Parameter schätzt. Die Standardabweichung der AM-Werteverteilung von gleich großen Stichproben wird als Standardfehler bezeichnet.

Der Standardfehler ist im Wesentlichen von 2 Determinanten abhängig:

(1) Von der Streuung der Messwerte in der Population.
Dieser Feststellung liegt folgender Gedankengang zu Grunde: Angenommen in der Population wären alle Messwerte identisch. Wie verhalten sich die gewonnen Kennwerte gezogener Stichproben zueinander? Sie wäre ebenfalls identisch! Das wiederum bedeutet, sie entsprächen alle dem Parameter µ, der Standardfehler wäre Null. Streut das Merkmal in der Population sehr stark, so sind Stichproben denkbar, in den sich viele Einheiten mit geringer (oder hoher) Ausprägung befinden, so dass die erhaltenen AM stark voneinander abweichen, der Standardfehler wäre groß.
Mathematisch formuliert: Der Standardfehler (genau genommen die Varianz der AM-Werteverteilung) ist proportional zur Streuung des Merkmals in der Grundgesamtheit. D.h.: Je größer die Streuung des Merkmlas, desto größer der Standardfehler.

(2) Von der Stichprobengröße n
Wiederum sei dieser Sachverhalt an folgendem Gedankengang skizziert: Angenommen, die Stichproben wären alle vom gleichen Umfang der Population, so würden wir bei Ziehung von k Stichproben de facto k-mal die Grundgesamtheit untersuchen. Wie hoch wäre dann der Standardfehler? Da wir k-mal den Parameter µ berechnen würden, wäre die Streuung Null. Würden wir hingegen Stichproben vom Umfang n=1 ziehen, so entspräche der Standardfehler der Streuung des Merkmals in der Population. Warum?
Mathematisch ausgedrückt: Der Standardfehler (genau genommen die Varianz der AM-Werteverteilung) ist indirekt proportional zum Stichprobenumfang. D.h. Je größer der Stichprobenumfang, desto kleiner der Standardfehler.

In Korrespondenz obiger Gedankengänge liefert die mathematische Herleitung des Standardfehlers folgende Beziehung:



In den meisten Fällen ist uns aber die Varianz (Streuung) σ² des Merkmals nicht bekannt, sodass wir auch diese schätzen müssen (als Schätzwert dient uns die Bias-korrigierte Varianz; vgl. letztes Sommersemester).

Aufgabe:

Beschreiben Sie die Abhängigkeit des Stichprobenfehlers von der Stichprobengröße n! Bearbeiten Sie desweiteren Punkt 2 des Aufgabenblattes (siehe link Kapitel 1.2)!


Eintrag in das Lerntagebuch
 
1.4. Zentrales Grenzwerttheorem
Die Verteilung von Mittelwerten (AM) aus theoretisch unendlich vielen Stichproben, die aus ein und derselben Grundgesamtheit stammen, strebt mit wachsendem Stichprobenumfang n gegen eine Normalverteilung. Dieses Faktum ist unabhängig von der Verteilungsform des Merkmals in der Grundgesamtheit.
Lernstoff
 
1.5. Parameterschätzung
Meilenstein
Das arithmetische Mittel (AM) der AM-Kennwerteverteilung entspricht dem Parameter µ der Verteilung des entsprechenden Merkmals in der Grundgesamtheit (dies lässt sich mathematisch beweisen, ist aber intuitiv auch plausibel).

Zusammenfassung: Entsprechend den obigen Ausführungen können wir nun davon ausgehen, dass sich die AM aus hinreichend großen Stichproben (vgl. zentrales Grenzwerttheorem) um den unbekannten Parameter µ mit der Streuung des Standardfehlers (den wir ebenfalls schätzen müssen, sofern wir nicht die wahre Streuung des Merkmals in der Population kennen) normalverteilen.

Die Normalverteilung besitzt überaus hilfreiche und interssante Eigenschaften: So befinden sich im Intervall µ ± σ ca. 68% und im Intervall µ ± 2σ ca. 95,5% aller Fälle (hier: Mittelwerte).

Ausgehend von unserer AM-Kennwerteverteilung ergibt sich für die AM, dass sie mit 95,5%iger Wahrscheinlichkeit im folgenden Intervall liegen:



Anstelle des Koeffizienten 2 können wir je nach gewünschter Wahrscheinlichkeit für
KI 95% 1,96 und
KI 99% 2,58 einsetzen.

Nun müssen wir uns allerdings noch vor Augen halten, dass der Paramter µ unbekannt ist. Ziehen wir jetzt aber eine Stichprobe und berechnen für ein Merkmal das AM, so können wir für dieses AM mit Hilfe obiger Überlegungen bestimmte Parameter µ für dessen "Zustandekommen" ausschließen.

Hierzu ein kleines Beispiel:

(Nochmals) Angenommen, der Parameter µ sei bekannt mit µ=100. Dann liegt ein AM einer beliebigen Zufallstichprobe mit 95%iger Wahrscheinlichkeit im Intervall µ ± 1,96 mal Standardfehler des AM! Sei der Standardfehler = 10, so entspricht das einem Intervall von [80,4;119,6]. Ein erhobenes AM von 115 fällt also in diesen Bereich, ist µ allerdings 90 so ergibt sich bei gleichem Standardfehler ein Intervall von [70,4;109,6] - unser erhobenes AM ist also nicht inkludiert, der Parameter µ=90 fällt also mit hoher Wahrscheinlichkeit als "Erzeuger" eines AM von 115 aus.
Damit wären wir auch schon am Ende unserer Überlegungen zur Parameterschätzung. Stellen wir obige Ungleichung um, so können wir für jedes erhobene AM mit einer festgelegten Wahrscheinlichkeit ein Intervall von Populationsparametern angeben, welche für die "Erzeugung" dieses Stichprobenkennwertes AM in Frage kommen.

Die umgestellte Ungleichung lautet:


Lernstoff
 
1.6. Eigenschaften des Konfidenzintervalls
Eintrag in das Lerntagebuch erwünscht!
1. Wie wirken sich folgende Kenngrößen auf die Breite des Konfidenzintervalls aus?

1.1 Stichprobengröße n
1.2 gewählte Wahrscheinlichkeit (80%; 90%; 95%, 99%)


Für das 95%-Konfidenzintervall eines Anteilswerts gilt:



2.1 Für welchen Anteilswert p erreicht die Funktion p(1-p) ihr Maximum?
2.2 Was folgt daraus bezüglich der Breite des Konfidenzintervalls?


Übungsaufgaben, Eintrag in das Lerntagebuch
 
Lernpfadseite als User öffnen (Login)

Falls Sie noch kein registrierter User sind, können Sie sich einen neuen Zugang anlegen. Als registrierter User können Sie ein persönliches Lerntagebuch zu diesem Lernpfad anlegen.

 Zur Galerie
 Zu den Mathematischen Hintergründen
 Zum Lexikon
 Zu den interaktiven Tests
 Zu den Mathe-Links und Online-Werkzeugen
 Zur Welcome Page
   Übersicht über die Lernpfade
 Open Studio Materialien
 Open Studio Eingang
 Neuen Zugang anlegen
 Login