Concepte de statistică
Exemplu
Studenții din colegiile comunitare și sexul
Potrivit unui raport din 2010 al American Council on Education, femeile reprezintă 57% din populația universitară din Statele Unite. Studenții de la un curs de statistică de la Tallahassee Community College doresc să determine proporția de studenți de sex feminin la TCC. Ei selectează un eșantion aleatoriu de 135 de studenți de la TCC și constată că 72 sunt de sex feminin, ceea ce reprezintă o proporție a eșantionului de 72 / 135 ≈ 0,533. Deci 53,3% dintre studenții din eșantion sunt de sex feminin.
Ce pot concluziona despre proporția de femei la colegiu? Cât de încrezători pot fi în estimarea lor?
Pentru a răspunde la aceste întrebări, trebuie să găsim un interval de încredere.
Condiții de verificare:
Am învățat în Legătura dintre probabilitate și inferența statistică că un interval de încredere provine dintr-un model normal al distribuției de eșantionare. Să ne asigurăm mai întâi că un model normal este adecvat aici. Reamintim cele două condiții pentru utilizarea unui model normal pentru proporțiile eșantionului:
- Eșantionul trebuie să fie aleatoriu.
- Numărul așteptat de succese în eșantion, np, și numărul așteptat de eșecuri, n(1 – p), sunt ambele mai mari sau egale cu 10. În simboluri, aceasta este np ≥ 10 și n(1 – p) ≥ 10. Reamintim că succesul nu înseamnă bine și eșecul nu înseamnă rău. Un succes este doar ceea ce numărăm.
Când încercăm să verificăm aceste condiții, avem o problemă. Nu cunoaștem p, proporția populației. De fapt, p este ceea ce încercăm să estimăm! Așadar, nu putem determina numărul așteptat de succese și eșecuri. Soluția noastră la această problemă este de a ajusta aceste condiții. Teoria avansată ne spune că, dacă numărul real de succese și eșecuri din eșantion este mai mare sau egal cu 10, atunci un model normal este în continuare o potrivire bună.
Acest eșantion conține 72 de succese (studente) și 63 de eșecuri (studenți). Ambele sunt mai mari decât 10. Prin urmare, folosim modelul normal pentru distribuția eșantionului.
Căutarea marjei de eroare:
Știm că o proporție a eșantionului este doar o estimare pentru proporția populației. Nu ne așteptăm ca proporția eșantionului să fie egală cu proporția populației, deci există o oarecare eroare datorată hazardului. Utilizăm abaterea standard a proporțiilor eșantionului pentru a descrie gradul de eroare la care ne putem aștepta în eșantioanele aleatorii. O numim eroarea standard.
În Legătura dintre probabilitate și inferența statistică, am învățat că eroarea standard a proporției eșantionului depinde de proporția populației și de mărimea eșantionului. Iată formula pentru eroarea standard:
\sqrt{\frac{p(1-p)}{n}}
Când folosim un model normal pentru distribuția de eșantionare, 95% din proporțiile eșantionului estimează proporția populației cu o marjă de aproximativ 2 erori standard. Așadar, marja de eroare este următoarea:
2\text{}\sqrt{\frac{p(1-p)}{n}}
Acum să calculăm marja de eroare pentru estimarea TCC de 53,3%. Observați că avem aceeași problemă pe care am avut-o mai devreme. Nu cunoaștem p, proporția populației. Așadar, nu putem calcula marja de eroare! Soluția noastră la această problemă este să estimăm eroarea standard folosind proporția eșantionului în loc de p. Numim aceasta eroarea standard estimată, iar formula este:
\sqrt{\frac{\stackrel{ˆ}{p}(1-\stackrel{ˆ}{p})}{n}}
Pentru acest exemplu, eroarea standard estimată este
\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043
Prin urmare, marja de eroare pentru intervalul de încredere de 95% este:
2\text{}\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}2(0.043)\text{}=\text{}0.086
Căutarea intervalului de încredere:
Potem interpreta marja de eroare spunând că suntem 95% încrezători că proporția tuturor studenților de la TCC care sunt de sex feminin se situează la 0,086 din proporția eșantionului nostru de 0,533. Putem apoi să scriem intervalul în următoarea formă:
\stackrel{ˆ}{p}\text{}±\text{}\mathrm{margine}\text{}{mathrm{de}\text{}{mathrm}{mathrm{error}=0.533\text{}±\text{}0.086
Când adăugăm și scădem marja de eroare din proporția eșantionului, intervalul de încredere este de la 0,447 la 0,619.
Concluzie:
Suntem 95% încrezători că proporția tuturor studenților TCC care sunt de sex feminin este cuprinsă între 0,447 și 0,619. Putem face această afirmație și folosind procente. Suntem încrezători în proporție de 95% că procentul tuturor studenților TCC care sunt de sex feminin este cuprins între 44,7% și 61,9%.
Reamintim din Linking Probability to Statistical Inference că un nivel de încredere de 95% înseamnă că această metodă surprinde proporția populației în aproximativ 95% din timp.