Concepts in Statistics
Example
Community College Students and Gender
Az American Council on Education 2010-es jelentése szerint az Egyesült Államokban az egyetemisták 57%-a nő. A Tallahassee Community College egyik statisztikai óráján a hallgatók meg akarják határozni a női hallgatók arányát a TCC-ben. Véletlenszerű mintát választanak 135 TCC-s hallgatóból, és megállapítják, hogy 72 nő, ami 72 / 135 ≈ 0,533 arányt jelent. Tehát a mintában szereplő hallgatók 53,3%-a nő.
Mire következtethetnek a főiskola női hallgatóinak arányára? Mennyire lehetnek biztosak a becslésükben?
Ezeknek a kérdéseknek a megválaszolásához meg kell találnunk egy konfidenciaintervallumot.
Kontrollfeltételek:
A Valószínűség és statisztikai következtetés összekapcsolása című fejezetben megtanultuk, hogy a konfidenciaintervallum a mintavételi eloszlás normális modelljéből származik. Először is győződjünk meg arról, hogy a normál modell itt megfelelő. Emlékezzünk vissza a mintaarányok normálmodelljének használatára vonatkozó két feltételre:
- A mintának véletlenszerűnek kell lennie.
- A mintában a sikerek várható száma, np, és a kudarcok várható száma, n(1 – p), egyaránt nagyobb vagy egyenlő 10-nél. Szimbólumokban ez np ≥ 10 és n(1 – p) ≥ 10. Emlékezzünk arra, hogy a siker nem jelent jót, a kudarc pedig nem jelent rosszat. A siker csak azt jelenti, hogy számolunk.
Amikor megpróbáljuk ellenőrizni ezeket a feltételeket, problémánk adódik. Nem ismerjük p-t, a populáció arányát. Valójában p az, amit megpróbálunk megbecsülni! Tehát nem tudjuk meghatározni a sikerek és a kudarcok várható számát. Megoldásunk erre a problémára az, hogy módosítjuk ezeket a feltételeket. A fejlett elmélet azt mondja, hogy ha a sikerek és kudarcok tényleges száma a mintában nagyobb vagy egyenlő 10-nél, akkor a normál modell még mindig jól illeszkedik.
Ez a minta 72 sikert (női diákok) és 63 kudarcot (férfi diákok) tartalmaz. Mindkettő nagyobb, mint 10. Ezért a mintavételi eloszlásra a normál modellt használjuk.
A hibahatár meghatározása:
Tudjuk, hogy a minta aránya csak egy becslés a populációs arányra. Nem várjuk el, hogy a mintaarány megegyezzen a populációs aránnyal, tehát van némi véletlenből adódó hiba. A mintaarányok szórását használjuk a véletlenszerű mintákban várható hiba mértékének leírására. Ezt nevezzük standard hibának.
A Valószínűség és statisztikai következtetés összekapcsolása című fejezetben megtanultuk, hogy a mintaarány standard hibája a populációs aránytól és a minta méretétől függ. Íme a standard hiba képlete:
\sqrt{\frac{p(1-p)}{n}}
Ha a mintavételi eloszlásra normális modellt használunk, a mintaarányok 95%-a körülbelül 2 standard hibán belül becsüli a populációs arányt. A hibahatár tehát a következő:
2\text{}\sqrt{\frac{p(1-p)}{n}}
Most pedig számoljuk ki az 53,3%-os TCC becslés hibahatárát. Vegyük észre, hogy ugyanazzal a problémával állunk szemben, mint korábban. Nem ismerjük p-t, a népesség arányát. Így nem tudjuk kiszámítani a hibahatárt! Megoldásunk erre a problémára az, hogy a p helyett a mintaarányt használva becsüljük meg a standard hibát. Ezt nevezzük becsült standard hibának, és a képlet a következő:
\sqrt{\frac{\\stackrel{ˆ}{p}(1-\stackrel{ˆ}{p})}{n}}}
Ebben a példában a becsült standard hiba
\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043
A 95%-os konfidenciaintervallum hibahatára tehát:
2\text{}\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}2(0.043)\text{}=\text{}0.086
A konfidenciaintervallum meghatározása:
A hibahatárt úgy értelmezhetjük, hogy 95%-ban biztosak vagyunk abban, hogy a TCC összes női hallgatójának aránya 0,086-on belül van a 0,533-as mintaarányunkhoz képest. Ekkor az intervallumot a következő formában írhatjuk fel:
\stackrel{ˆ}{p}\text{}±\text{}\mathrm{margin}\text{\mathrm{of}\text{}\mathrm{error}=0.533\text{}±\text{}0.086
Ha a hibahatárt hozzáadjuk és kivonjuk a mintaarányból, a konfidenciaintervallum 0,447 és 0,619 között van.
Következtetés:
95%-os bizonyossággal állíthatjuk, hogy a TCC összes női hallgatójának aránya 0,447 és 0,619 között van. Ezt az állítást százalékos arányok segítségével is megtehetjük. 95%-os bizonyossággal állíthatjuk, hogy a TCC összes női hallgatójának aránya 44,7% és 61,9% között van.
Emlékezzünk vissza a “Linking Probability to Statistical Inference” című fejezetből, hogy a 95%-os megbízhatóság azt jelenti, hogy ez a módszer az esetek 95%-ában megragadja a populációs arányt.