Begrepp i statistik
Exempel
Kommunala collegestudenter och kön
Enligt en rapport från American Council on Education från 2010 utgör kvinnor 57 % av collegestudenterna i USA. Studenter i en statistikklass vid Tallahassee Community College vill fastställa andelen kvinnliga studenter vid TCC. De väljer ut ett slumpmässigt urval av 135 TCC-studenter och finner att 72 är kvinnor, vilket ger en andel av urvalet på 72/135 ≈ 0,533. Så 53,3 % av studenterna i urvalet är kvinnor.
Vad kan de dra för slutsatser om andelen kvinnor vid college? Hur säkra kan de vara på sin uppskattning?
För att besvara dessa frågor måste vi hitta ett konfidensintervall.
Kontrollvillkor:
Vi lärde oss i Länka sannolikhet till statistisk slutsats att ett konfidensintervall kommer från en normalmodell av urvalsfördelningen. Låt oss först försäkra oss om att en normalmodell är lämplig här. Minns de två villkoren för att använda en normalmodell för urvalsproportioner:
- Stickprovet måste vara slumpmässigt.
- Det förväntade antalet lyckade försök i stickprovet, np, och det förväntade antalet misslyckade försök, n(1 – p), är båda större än eller lika med 10. I symboler är detta np ≥ 10 och n(1 – p) ≥ 10. Kom ihåg att framgång inte betyder bra och misslyckande inte betyder dåligt. En framgång är bara det vi räknar.
När vi försöker kontrollera dessa villkor har vi ett problem. Vi känner inte till p, befolkningsandelen. I själva verket är det p som vi försöker uppskatta! Vi kan alltså inte bestämma det förväntade antalet lyckade och misslyckade försök. Vår lösning på detta problem är att justera dessa villkor. Avancerad teori säger oss att om det faktiska antalet lyckade och misslyckade elever i urvalet är större än eller lika med 10, är en normalmodell fortfarande en bra anpassning.
Detta urval innehåller 72 lyckade elever (kvinnliga elever) och 63 misslyckade elever (manliga elever). Båda är större än 10. Vi använder därför normalmodellen för stickprovsfördelningen.
Finnande av felmarginalen:
Vi vet att en stickprovsandel endast är en uppskattning av populationsandelen. Vi förväntar oss inte att urvalsproportionerna ska vara lika med populationsproportionerna, så det finns ett visst fel som beror på slumpen. Vi använder standardavvikelsen för urvalsproportionerna för att beskriva hur mycket fel vi kan förvänta oss i slumpmässiga urval. Vi kallar detta för standardfel.
I Linking Probability to Statistical Inference lärde vi oss att standardfelet för urvalsproportionerna beror på populationsproportionerna och urvalsstorleken. Här är formeln för standardfelet:
\sqrt{\frac{p(1-p)}{n}}
När vi använder en normal modell för urvalsfördelningen uppskattar 95 % av urvalsproportionerna populationsproportionerna inom ungefär 2 standardfel. Så felmarginalen är följande:
2\text{}\sqrt{\frac{p(1-p)}{n}}
Nu ska vi beräkna felmarginalen för TCC-skattningen på 53,3 %. Observera att vi har samma problem som vi hade tidigare. Vi känner inte till p, befolkningsandelen. Vi kan alltså inte beräkna felmarginalen! Vår lösning på detta problem är att uppskatta standardfelet genom att använda urvalsproportionerna i stället för p. Vi kallar detta det uppskattade standardfelet, och formeln är:
\sqrt{\frac{\stackrel{ˆ}{p}(1-\stackrel{ˆ}{p})}{n}}
För det här exemplet är det uppskattade standardfelet
\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043
Så felmarginalen för 95% konfidensintervallet är:
2\text{}\sqrt{\frac{0.533(1-0.533)}{135}}\text{}}\approx \text{}2(0.043)\text{}=\text{}0.086
Finnande av konfidensintervallet:
Vi kan tolka felmarginalen genom att säga att vi är 95 % säkra på att andelen av alla studenter vid TCC som är kvinnor ligger inom 0,086 av vår urvalsproportion på 0,533. Vi kan då skriva intervallet i följande form:
\stackrel{ˆ}{p}\text{}±\text{}\mathrm{margin}\text{}\mathrm{of}\text{}\mathrm{error}=0.533\text{}±\text{}0.086
När vi adderar och subtraherar felmarginalen från andelen i urvalet är konfidensintervallet 0,447 till 0,619.
Slutsats:
Vi är 95 % säkra på att andelen av alla TCC-studenter som är kvinnor ligger mellan 0,447 och 0,619. Vi kan också göra detta uttalande med hjälp av procentsatser. Vi är 95 % säkra på att andelen av alla TCC-studenter som är kvinnor ligger mellan 44,7 % och 61,9 %.
Håll dig till minnet från Linking Probability to Statistical Inference att 95 % konfidens innebär att den här metoden fångar populationens andel ungefär 95 % av gångerna.