Pojmy ve statistice

Příklad

Studenti komunitních vysokých škol a pohlaví

Podle zprávy Americké rady pro vzdělávání z roku 2010 tvoří ženy 57 % vysokoškolské populace ve Spojených státech. Studenti v hodině statistiky na Tallahassee Community College chtějí zjistit podíl studentek na TCC. Vyberou náhodný vzorek 135 studentů TCC a zjistí, že 72 z nich jsou ženy, což představuje podíl 72 / 135 ≈ 0,533. Zjistí, že 72 studentů TCC jsou ženy. Tedy 53,3 % studentů ve vzorku jsou ženy.

Co mohou vyvodit o podílu žen na vysoké škole? Jak si mohou být svým odhadem jisti?“

Abychom mohli odpovědět na tyto otázky, potřebujeme najít interval spolehlivosti.

Kontrolní podmínky:

V kapitole Propojení pravděpodobnosti se statistickým usuzováním jsme se učili, že interval spolehlivosti vychází z normálního modelu výběrového rozdělení. Nejprve se ujistíme, že normální model je zde vhodný. Připomeňme si dvě podmínky pro použití normálního modelu pro výběrové poměry:

  • Výběr musí být náhodný.
  • Očekávaný počet úspěchů ve vzorku, np, a očekávaný počet neúspěchů, n(1 – p), jsou oba větší nebo rovny 10.
  • Výběr musí být náhodný. V symbolech je to np ≥ 10 a n(1 – p) ≥ 10. Připomeňme, že úspěch neznamená dobře a neúspěch neznamená špatně. Úspěch je prostě to, co počítáme.

Když se pokusíme tyto podmínky ověřit, narazíme na problém. Neznáme p, tedy podíl populace. Ve skutečnosti je p to, co se snažíme odhadnout! Nemůžeme tedy určit očekávaný počet úspěchů a neúspěchů. Naším řešením tohoto problému je upravit tyto podmínky. Pokročilá teorie nám říká, že pokud je skutečný počet úspěchů a neúspěchů ve vzorku větší nebo roven 10, pak normální model stále dobře vyhovuje.

Tento vzorek obsahuje 72 úspěchů (studentky) a 63 neúspěchů (studenti). Obě hodnoty jsou větší než 10. Pro výběrové rozdělení proto použijeme normální model.

Zjištění chybového rozpětí:

Víme, že výběrový podíl je pouze odhadem podílu populace. Neočekáváme, že výběrový podíl se bude rovnat populačnímu podílu, takže zde existuje určitá chyba způsobená náhodou. K popisu velikosti chyby, kterou můžeme očekávat u náhodných vzorků, používáme směrodatnou odchylku výběrových podílů. Nazýváme ji standardní chyba.

V kapitole Propojení pravděpodobnosti se statistickým usuzováním jsme se dozvěděli, že standardní chyba výběrového podílu závisí na populačním podílu a velikosti vzorku. Zde je vzorec pro standardní chybu:

\sqrt{\frac{p(1-p)}{n}}

Pokud pro výběrové rozdělení použijeme normální model, 95 % výběrových podílů odhadne populační podíl přibližně s přesností 2 standardních chyb. Chybové rozpětí je tedy následující:

2\text{}\sqrt{\frac{p(1-p)}{n}}

Nyní vypočítáme chybové rozpětí pro odhad TCC 53,3 %. Všimněte si, že máme stejný problém jako dříve. Neznáme p, tedy podíl populace. Nemůžeme tedy vypočítat chybové rozpětí! Naším řešením tohoto problému je odhadnout standardní chybu s použitím výběrového podílu místo p. Tomu říkáme odhadnutá standardní chyba a vzorec je:

\sqrt{\frac{\stackrel{ˆ}{p}(1-\stackrel{ˆ}{p})}{n}}

Pro tento příklad je odhadnutá standardní chyba

\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043

Takže chyba pro 95% interval spolehlivosti je:

2\text{}\sqrt{\frac{0,533(1-0,533)}{135}}\text{}\aprox \text{}2(0,043)\text{}=\text{}0.086

Zjištění intervalu spolehlivosti:

Rozmezí chyby můžeme interpretovat tak, že máme 95% jistotu, že podíl všech studentů TCC, kteří jsou ženy, je v rozmezí 0,086 od našeho výběrového podílu 0,533. Interval pak můžeme zapsat v následujícím tvaru:

\stackrel{ˆ}{p}\text{}±\text{}\mathrm{margin}\text{}\mathrm{of}\text{}\mathrm{error}=0.533\text{}±\text{}0.086

Pokud sečteme a odečteme chybové rozpětí od podílu ve vzorku, interval spolehlivosti je 0,447 až 0,619.

Závěr:

Jsme si na 95 % jisti, že podíl všech studentů TCC, kteří jsou ženy, je v rozmezí 0,447 až 0,619. Toto tvrzení můžeme také vyjádřit pomocí procent. Máme 95% jistotu, že podíl všech studentů TCC, kteří jsou ženy, je mezi 44,7 % a 61,9 %.

Připomeňme si z kapitoly Propojení pravděpodobnosti se statistickým usuzováním, že 95% jistota znamená, že tato metoda vystihuje podíl populace přibližně v 95 % případů.