Konzepte in der Statistik

Beispiel

Community College Studenten und Geschlecht

Nach einem Bericht des American Council on Education aus dem Jahr 2010 machen Frauen 57 % der College-Bevölkerung in den Vereinigten Staaten aus. Die Studenten eines Statistikkurses am Tallahassee Community College wollen den Anteil der weiblichen Studenten am TCC ermitteln. Sie wählen eine Zufallsstichprobe von 135 TCC-Studenten aus und stellen fest, dass 72 weiblich sind, was einem Stichprobenanteil von 72 / 135 ≈ 0,533 entspricht. Somit sind 53,3 % der Studenten in der Stichprobe weiblich.

Was können sie über den Anteil der Frauen an der Hochschule sagen? Wie sicher können sie in ihrer Schätzung sein?

Um diese Fragen zu beantworten, müssen wir ein Konfidenzintervall finden.

Bedingungen überprüfen:

Wir haben in Linking Probability to Statistical Inference gelernt, dass ein Konfidenzintervall aus einem Normalmodell der Stichprobenverteilung stammt. Lassen Sie uns zunächst sicherstellen, dass ein normales Modell hier angemessen ist. Erinnern Sie sich an die beiden Bedingungen für die Verwendung eines Normalmodells für Stichprobenproportionen:

  • Die Stichprobe muss zufällig sein.
  • Die erwartete Anzahl der Erfolge in der Stichprobe, np, und die erwartete Anzahl der Misserfolge, n(1 – p), sind beide größer oder gleich 10. In Symbolen ausgedrückt ist dies np ≥ 10 und n(1 – p) ≥ 10. Es sei daran erinnert, dass Erfolg nicht gut und Misserfolg nicht schlecht bedeutet. Ein Erfolg ist einfach das, was wir zählen.

Wenn wir versuchen, diese Bedingungen zu überprüfen, haben wir ein Problem. Wir kennen p, den Anteil der Bevölkerung, nicht. Tatsächlich ist p das, was wir zu schätzen versuchen! Wir können also die erwartete Anzahl der Erfolge und Misserfolge nicht bestimmen. Unsere Lösung für dieses Problem besteht darin, diese Bedingungen anzupassen. Die fortgeschrittene Theorie besagt, dass ein normales Modell immer noch gut passt, wenn die tatsächliche Anzahl der Erfolge und Misserfolge in der Stichprobe größer oder gleich 10 ist.

Diese Stichprobe enthält 72 Erfolge (weibliche Studenten) und 63 Misserfolge (männliche Studenten). Beide sind größer als 10. Wir verwenden daher das Normalmodell für die Stichprobenverteilung.

Finden der Fehlermarge:

Wir wissen, dass ein Stichprobenanteil nur eine Schätzung für den Bevölkerungsanteil ist. Wir erwarten nicht, dass der Anteil der Stichprobe dem Anteil der Grundgesamtheit entspricht, so dass ein gewisser Fehler aufgrund des Zufalls besteht. Wir verwenden die Standardabweichung der Stichprobenanteile, um das Ausmaß des Fehlers zu beschreiben, den wir bei Zufallsstichproben erwarten können. Wir nennen dies den Standardfehler.

In Linking Probability to Statistical Inference haben wir gelernt, dass der Standardfehler des Stichprobenanteils vom Bevölkerungsanteil und der Stichprobengröße abhängt. Hier ist die Formel für den Standardfehler:

\sqrt{\frac{p(1-p)}{n}}

Wenn wir ein Normalmodell für die Stichprobenverteilung verwenden, schätzen 95% der Stichprobenanteile den Bevölkerungsanteil innerhalb von ungefähr 2 Standardfehlern. Die Fehlermarge ist also die folgende:

2\text{}\sqrt{\frac{p(1-p)}{n}}

Berechnen wir nun die Fehlermarge für die TCC-Schätzung von 53,3%. Beachten Sie, dass wir das gleiche Problem wie zuvor haben. Wir kennen p, den Bevölkerungsanteil, nicht. Also können wir die Fehlermarge nicht berechnen! Unsere Lösung für dieses Problem ist die Schätzung des Standardfehlers unter Verwendung des Stichprobenanteils anstelle von p. Wir nennen dies den geschätzten Standardfehler, und die Formel lautet:

\sqrt{\frac{\stackrel{ˆ}{p}(1-\stackrel{ˆ}{p})}{n}}

Für dieses Beispiel beträgt der geschätzte Standardfehler

\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043

Der Fehlerbereich für das 95%-Konfidenzintervall ist also:

2\text{}\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}2(0.043)\text{}=\text{}0.086

Bestimmen des Konfidenzintervalls:

Wir können die Fehlermarge interpretieren, indem wir sagen, dass wir zu 95 % sicher sind, dass der Anteil der weiblichen Studenten an der TCC innerhalb von 0,086 von unserem Stichprobenanteil von 0,533 liegt. Wir können dann das Intervall in der folgenden Form schreiben:

\stackrel{ˆ}{p}\text{}±\text{}\mathrm{margin}\text{}\mathrm{of}\text{}\mathrm{error}=0.533\text{}±\text{}0.086

Wenn wir die Fehlermarge zum Stichprobenanteil addieren und subtrahieren, ergibt sich ein Konfidenzintervall von 0,447 bis 0,619.

Schlussfolgerung:

Wir sind zu 95 % sicher, dass der Anteil aller TCC-Studenten, die weiblich sind, zwischen 0,447 und 0,619 liegt. Wir können diese Aussage auch anhand von Prozentsätzen treffen. Wir sind zu 95 % sicher, dass der Anteil aller TCC-Studenten, die weiblich sind, zwischen 44,7 % und 61,9 % liegt.

Erinnern Sie sich aus der Verknüpfung von Wahrscheinlichkeit und statistischer Schlussfolgerung, dass 95 % Sicherheit bedeutet, dass diese Methode den Bevölkerungsanteil in etwa 95 % der Zeit erfasst.