Koncepcje w statystyce
Przykład
Studenci Community College i płeć
Według raportu Amerykańskiej Rady Edukacji z 2010 roku, kobiety stanowią 57% populacji college’ów w Stanach Zjednoczonych. Studenci na zajęciach ze statystyki w Tallahassee Community College chcą określić odsetek kobiet wśród studentów TCC. Wybierają losowo 135 studentów TCC i stwierdzają, że 72 z nich to kobiety, co daje proporcję 72 / 135 ≈ 0.533. Tak więc 53.3% studentów w próbie to kobiety.
Co można wywnioskować na temat proporcji kobiet w tej uczelni? Jak bardzo mogą być pewni swoich szacunków?
Aby odpowiedzieć na te pytania, musimy znaleźć przedział ufności.
Warunki sprawdzające:
W Linking Probability to Statistical Inference dowiedzieliśmy się, że przedział ufności pochodzi z normalnego modelu rozkładu próby. Najpierw upewnijmy się, że model normalny jest tutaj odpowiedni. Przypomnijmy sobie dwa warunki użycia modelu normalnego dla proporcji próby:
- Próba musi być losowa.
- Oczekiwana liczba sukcesów w próbie, np, i oczekiwana liczba porażek, n(1 – p), są większe lub równe 10. W symbolach jest to np ≥ 10 i n(1 – p) ≥ 10. Przypomnijmy, że sukces nie oznacza dobra, a porażka nie oznacza zła. Sukces to po prostu to, co liczymy.
Gdy próbujemy sprawdzić te warunki, pojawia się problem. Nie znamy p, czyli proporcji populacji. W rzeczywistości, p jest tym, co próbujemy oszacować! Nie możemy więc określić oczekiwanej liczby sukcesów i porażek. Naszym rozwiązaniem tego problemu jest dostosowanie tych warunków. Zaawansowana teoria mówi nam, że jeśli rzeczywista liczba sukcesów i porażek w próbie jest większa lub równa 10, to model normalny jest nadal dobrze dopasowany.
Ta próba zawiera 72 sukcesy (studentki) i 63 porażki (studenci). Oba są większe niż 10. Dlatego używamy modelu normalnego dla rozkładu próby.
Oznaczanie marginesu błędu:
Wiemy, że proporcja próby jest tylko oszacowaniem proporcji populacji. Nie oczekujemy, że proporcja próby będzie równa proporcji populacji, więc istnieje pewien błąd wynikający z przypadku losowego. Używamy odchylenia standardowego proporcji próbki, aby opisać wielkość błędu, którego możemy się spodziewać w próbkach losowych. Nazywamy to błędem standardowym.
W Łączeniu prawdopodobieństwa z wnioskowaniem statystycznym dowiedzieliśmy się, że błąd standardowy proporcji próbki zależy od proporcji populacji i wielkości próbki. Oto wzór na błąd standardowy:
qrt{frac{p(1-p)}{n}}
Gdy używamy modelu normalnego dla rozkładu próbkowania, 95% proporcji próbki szacuje proporcje populacji w granicach około 2 błędów standardowych. Zatem margines błędu jest następujący:
Obliczmy teraz margines błędu dla oszacowania TCC wynoszącego 53,3%. Zauważmy, że mamy ten sam problem, który mieliśmy wcześniej. Nie znamy p, czyli proporcji populacji. Nie możemy więc obliczyć marginesu błędu! Naszym rozwiązaniem tego problemu jest oszacowanie błędu standardowego przy użyciu proporcji próby zamiast p. Nazywamy to szacowanym błędem standardowym, a wzór brzmi:
Sqrt{frac{stackrel{ˆ}{p}(1-stackrel{ˆ}{p})}{n}}}
Dla tego przykładu, szacowany błąd standardowy wynosi
Sqrt{frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043
Więc margines błędu dla 95% przedziału ufności wynosi:
qrt{sqrac{0,533(1-0,533)}{135}}}approx \tekst{}2(0,043)\tekst{}= 0.086
Oznaczenie przedziału ufności:
Możemy zinterpretować margines błędu mówiąc, że jesteśmy na 95% pewni, że proporcja wszystkich studentów TCC, którzy są kobietami jest w granicach 0,086 proporcji naszej próby 0,533. Możemy wtedy zapisać przedział w następującej formie:
stackrel{ˆ}{p}}text{}±\\tekst{mathrm{margin}\tekst{mathrm{of}\tekst{błąd}=0.533\text{}±\text{}0.086
Gdy dodamy i odejmiemy margines błędu od proporcji próby, przedział ufności wynosi 0.447 do 0.619.
Wniosek:
Jesteśmy na 95% pewni, że proporcja wszystkich studentów TCC, którzy są kobietami jest pomiędzy 0.447 a 0.619. Możemy również sformułować to stwierdzenie używając procentów. Jesteśmy w 95% pewni, że odsetek wszystkich studentów TCC, którzy są kobietami jest pomiędzy 44.7% a 61.9%.
Przypomnij sobie z Linking Probability to Statistical Inference, że 95% pewność oznacza, że ta metoda uchwyciła proporcję populacji w około 95% przypadków.