Concepten in de statistiek
Voorbeeld
Community College Students and Gender
Volgens een rapport uit 2010 van de American Council on Education maken vrouwen 57% uit van de studentenpopulatie in de Verenigde Staten. Studenten in een statistiekklas aan Tallahassee Community College willen het aandeel vrouwelijke studenten aan TCC bepalen. Zij trekken een willekeurige steekproef van 135 TCC-studenten en stellen vast dat 72 vrouwen zijn, wat neerkomt op een steekproefverhouding van 72 / 135 ≈ 0,533. Dus 53,3% van de studenten in de steekproef is vrouw.
Wat kunnen zij concluderen over het aandeel vrouwen op de hogeschool? Hoe zeker kunnen ze zijn van hun schatting?
Om deze vragen te beantwoorden, moeten we een betrouwbaarheidsinterval vinden.
Voorwaarden controleren:
We hebben in Linking Probability to Statistical Inference geleerd dat een betrouwbaarheidsinterval ontstaat uit een normaal model van de steekproefverdeling. Laten we eerst nagaan of een normaal model hier op zijn plaats is. Herinner je de twee voorwaarden voor het gebruik van een normaal model voor steekproefverhoudingen:
- De steekproef moet willekeurig zijn.
- Het verwachte aantal successen in de steekproef, np, en het verwachte aantal mislukkingen, n(1 – p), zijn beide groter dan of gelijk aan 10. In symbolen is dit np ≥ 10 en n(1 – p) ≥ 10. Onthoud dat succes niet goed betekent en mislukking niet slecht. Een succes is gewoon wat we tellen.
Wanneer we deze voorwaarden proberen te controleren, hebben we een probleem. We kennen p, het bevolkingsaandeel, niet. In feite is p datgene wat we proberen te schatten! Wij kunnen dus niet het verwachte aantal successen en mislukkingen bepalen. Onze oplossing voor dit probleem is deze voorwaarden aan te passen. Geavanceerde theorie leert ons dat als het werkelijke aantal geslaagden en mislukkingen in de steekproef groter is dan of gelijk aan 10, een normaal model nog steeds goed past.
Deze steekproef bevat 72 geslaagden (vrouwelijke studenten) en 63 mislukkingen (mannelijke studenten). Beide zijn groter dan 10. We gebruiken dus het normale model voor de steekproefverdeling.
Het vinden van de foutenmarge:
We weten dat een steekproefaandeel slechts een schatting is voor het populatieaandeel. We verwachten niet dat het steekproefaandeel gelijk is aan het populatieaandeel, dus er is een foutmarge als gevolg van willekeurig toeval. We gebruiken de standaardafwijking van de steekproefproporties om de hoeveelheid fout te beschrijven die we in willekeurige steekproeven kunnen verwachten. We noemen dit de standaardfout.
In Linking Probability to Statistical Inference hebben we geleerd dat de standaardfout van het steekproefaandeel afhangt van het populatieaandeel en de steekproefgrootte. Hier volgt de formule voor de standaardfout:
\sqrt{\frac{p(1-p)}{n}}
Wanneer we een normaal model voor de steekproefverdeling gebruiken, schat 95% van de steekproefproporties de populatieproportie binnen ongeveer 2 standaardfouten. De foutenmarge is dus als volgt:
2text{}{sqrt{p(1-p)}{n}
Laten we nu de foutenmarge berekenen voor de TCC schatting van 53,3%. Merk op dat we met hetzelfde probleem zitten dat we eerder hadden. We kennen p, het bevolkingsaandeel, niet. Dus kunnen we de foutenmarge niet berekenen! Onze oplossing voor dit probleem is de standaardfout te schatten met behulp van de steekproefverhouding in plaats van p. We noemen dit de geschatte standaardfout, en de formule is:
\sqrt{{\stackrel{ˆ}{p}(1-{stackrel{ˆ}{p})}{n}}
Voor dit voorbeeld is de geschatte standaardfout
\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043
Dus de foutmarge voor het 95% betrouwbaarheidsinterval is:
2{{}\sqrt{0.533(1-0.533)}{135}}{{}{}0.086
Dus de foutmarge voor het 95% betrouwbaarheidsinterval is:
2{}\sqrt{0.533(1-0.533)}{135}}{{}0.0832{}2(0.043)}{{}}={}0.086
Het betrouwbaarheidsinterval vinden:
We kunnen de foutmarge interpreteren door te zeggen dat we er voor 95% zeker van zijn dat het aandeel vrouwelijke studenten aan TCC binnen 0,086 van ons steekproefaandeel van 0,533 ligt. We kunnen het interval dan in de volgende vorm schrijven:
stackrel{ˆ}{p}{text{}±\text{}\mathrm{margin}{text{}\mathrm{of}{text{}\mathrm{error}=0.533\text{}±\text{}0.086
Als we de foutmarge optellen en aftrekken van de steekproefverhouding, is het betrouwbaarheidsinterval 0,447 tot 0,619.
Conclusie:
We zijn er voor 95% zeker van dat de verhouding van alle TCC-studenten die vrouw zijn tussen 0,447 en 0,619 ligt. We kunnen deze uitspraak ook met percentages doen. We zijn er 95% zeker van dat het percentage vrouwelijke TCC-studenten tussen 44,7% en 61,9% ligt.
Herinner u van Linking Probability to Statistical Inference dat 95% betrouwbaarheid betekent dat deze methode de populatieproportie ongeveer 95% van de tijd weergeeft.