Concepts in Statistics

Example

Community College Students and Gender

Az American Council on Education 2010-es jelentése szerint az Egyesült Államokban az egyetemisták 57%-a nő. A Tallahassee Community College egyik statisztikai óráján a hallgatók meg akarják határozni a női hallgatók arányát a TCC-ben. Véletlenszerű mintát választanak 135 TCC-s hallgatóból, és megállapítják, hogy 72 nő, ami 72 / 135 ≈ 0,533 arányt jelent. Tehát a mintában szereplő hallgatók 53,3%-a nő.

Mire következtethetnek a főiskola női hallgatóinak arányára? Mennyire lehetnek biztosak a becslésükben?

Ezeknek a kérdéseknek a megválaszolásához meg kell találnunk egy konfidenciaintervallumot.

Kontrollfeltételek:

A Valószínűség és statisztikai következtetés összekapcsolása című fejezetben megtanultuk, hogy a konfidenciaintervallum a mintavételi eloszlás normális modelljéből származik. Először is győződjünk meg arról, hogy a normál modell itt megfelelő. Emlékezzünk vissza a mintaarányok normálmodelljének használatára vonatkozó két feltételre:

  • A mintának véletlenszerűnek kell lennie.
  • A mintában a sikerek várható száma, np, és a kudarcok várható száma, n(1 – p), egyaránt nagyobb vagy egyenlő 10-nél. Szimbólumokban ez np ≥ 10 és n(1 – p) ≥ 10. Emlékezzünk arra, hogy a siker nem jelent jót, a kudarc pedig nem jelent rosszat. A siker csak azt jelenti, hogy számolunk.

Amikor megpróbáljuk ellenőrizni ezeket a feltételeket, problémánk adódik. Nem ismerjük p-t, a populáció arányát. Valójában p az, amit megpróbálunk megbecsülni! Tehát nem tudjuk meghatározni a sikerek és a kudarcok várható számát. Megoldásunk erre a problémára az, hogy módosítjuk ezeket a feltételeket. A fejlett elmélet azt mondja, hogy ha a sikerek és kudarcok tényleges száma a mintában nagyobb vagy egyenlő 10-nél, akkor a normál modell még mindig jól illeszkedik.

Ez a minta 72 sikert (női diákok) és 63 kudarcot (férfi diákok) tartalmaz. Mindkettő nagyobb, mint 10. Ezért a mintavételi eloszlásra a normál modellt használjuk.

A hibahatár meghatározása:

Tudjuk, hogy a minta aránya csak egy becslés a populációs arányra. Nem várjuk el, hogy a mintaarány megegyezzen a populációs aránnyal, tehát van némi véletlenből adódó hiba. A mintaarányok szórását használjuk a véletlenszerű mintákban várható hiba mértékének leírására. Ezt nevezzük standard hibának.

A Valószínűség és statisztikai következtetés összekapcsolása című fejezetben megtanultuk, hogy a mintaarány standard hibája a populációs aránytól és a minta méretétől függ. Íme a standard hiba képlete:

\sqrt{\frac{p(1-p)}{n}}

Ha a mintavételi eloszlásra normális modellt használunk, a mintaarányok 95%-a körülbelül 2 standard hibán belül becsüli a populációs arányt. A hibahatár tehát a következő:

2\text{}\sqrt{\frac{p(1-p)}{n}}

Most pedig számoljuk ki az 53,3%-os TCC becslés hibahatárát. Vegyük észre, hogy ugyanazzal a problémával állunk szemben, mint korábban. Nem ismerjük p-t, a népesség arányát. Így nem tudjuk kiszámítani a hibahatárt! Megoldásunk erre a problémára az, hogy a p helyett a mintaarányt használva becsüljük meg a standard hibát. Ezt nevezzük becsült standard hibának, és a képlet a következő:

\sqrt{\frac{\\stackrel{ˆ}{p}(1-\stackrel{ˆ}{p})}{n}}}

Ebben a példában a becsült standard hiba

\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043

A 95%-os konfidenciaintervallum hibahatára tehát:

2\text{}\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}2(0.043)\text{}=\text{}0.086

A konfidenciaintervallum meghatározása:

A hibahatárt úgy értelmezhetjük, hogy 95%-ban biztosak vagyunk abban, hogy a TCC összes női hallgatójának aránya 0,086-on belül van a 0,533-as mintaarányunkhoz képest. Ekkor az intervallumot a következő formában írhatjuk fel:

\stackrel{ˆ}{p}\text{}±\text{}\mathrm{margin}\text{\mathrm{of}\text{}\mathrm{error}=0.533\text{}±\text{}0.086

Ha a hibahatárt hozzáadjuk és kivonjuk a mintaarányból, a konfidenciaintervallum 0,447 és 0,619 között van.

Következtetés:

95%-os bizonyossággal állíthatjuk, hogy a TCC összes női hallgatójának aránya 0,447 és 0,619 között van. Ezt az állítást százalékos arányok segítségével is megtehetjük. 95%-os bizonyossággal állíthatjuk, hogy a TCC összes női hallgatójának aránya 44,7% és 61,9% között van.

Emlékezzünk vissza a “Linking Probability to Statistical Inference” című fejezetből, hogy a 95%-os megbízhatóság azt jelenti, hogy ez a módszer az esetek 95%-ában megragadja a populációs arányt.