Concetti di statistica

Esempio

Studenti del Community College e genere

Secondo un rapporto del 2010 dell’American Council on Education, le donne costituiscono il 57% della popolazione dei college negli Stati Uniti. Gli studenti di una classe di statistica al Tallahassee Community College vogliono determinare la proporzione di studenti donne al TCC. Selezionano un campione casuale di 135 studenti del TCC e scoprono che 72 sono donne, che è una proporzione del campione di 72 / 135 ≈ 0,533. Quindi il 53,3% degli studenti del campione sono donne.

Cosa possono concludere sulla proporzione di donne nel college? Quanto possono essere sicuri della loro stima?

Per rispondere a queste domande, abbiamo bisogno di trovare un intervallo di confidenza.

Controllo delle condizioni:

Abbiamo imparato in Linking Probability to Statistical Inference che un intervallo di confidenza deriva da un modello normale della distribuzione del campione. Assicuriamoci innanzitutto che un modello normale sia appropriato in questo caso. Ricordiamo le due condizioni per usare un modello normale per le proporzioni del campione:

  • Il campione deve essere casuale.
  • Il numero previsto di successi nel campione, np, e il numero previsto di fallimenti, n(1 – p), sono entrambi maggiori o uguali a 10. In simboli, questo è np ≥ 10 e n(1 – p) ≥ 10. Ricordiamo che successo non significa buono e fallimento non significa cattivo. Un successo è solo quello che stiamo contando.

Quando cerchiamo di verificare queste condizioni, abbiamo un problema. Non conosciamo p, la proporzione della popolazione. Infatti, p è ciò che stiamo cercando di stimare! Quindi non possiamo determinare il numero atteso di successi e fallimenti. La nostra soluzione a questo problema è regolare queste condizioni. La teoria avanzata ci dice che se il numero effettivo di successi e fallimenti nel campione è maggiore o uguale a 10, allora un modello normale è ancora un buon adattamento.

Questo campione contiene 72 successi (studenti donne) e 63 fallimenti (studenti uomini). Entrambi sono maggiori di 10. Usiamo quindi il modello normale per la distribuzione del campione.

Trovare il margine di errore:

Sappiamo che una proporzione del campione è solo una stima della proporzione della popolazione. Non ci aspettiamo che la proporzione del campione sia uguale alla proporzione della popolazione, quindi c’è qualche errore dovuto al caso. Usiamo la deviazione standard delle proporzioni del campione per descrivere la quantità di errore che possiamo aspettarci nei campioni casuali. Lo chiamiamo errore standard.

In Linking Probability to Statistical Inference, abbiamo imparato che l’errore standard della proporzione del campione dipende dalla proporzione della popolazione e dalla dimensione del campione. Ecco la formula per l’errore standard:

\sqrt{frac{p(1-p)}{n}}

Quando usiamo un modello normale per la distribuzione del campione, il 95% delle proporzioni del campione stima la proporzione della popolazione entro circa 2 errori standard. Quindi il margine di errore è il seguente:

2\testo{}sqrt{frac{p(1-p)}{n}}

Ora calcoliamo il margine di errore per la stima del TCC del 53,3%. Notate che abbiamo lo stesso problema di prima. Non conosciamo p, la proporzione della popolazione. Quindi non possiamo calcolare il margine di errore! La nostra soluzione a questo problema è stimare l’errore standard usando la proporzione del campione al posto di p. Chiamiamo questo l’errore standard stimato, e la formula è:

\sqrt{frac{{stackrel{ˆ}{p}(1-{stackrel{ˆ{p})}{n}

Per questo esempio, l’errore standard stimato è

{sqrt{frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043

Quindi il margine di errore per l’intervallo di confidenza del 95% è:

2\sqrt{frac{0.533(1-0.533)}{135}{text{}approx \text{}2(0.043)\text{}={text{}0.086

Trovare l’intervallo di confidenza:

Possiamo interpretare il margine di errore dicendo che siamo sicuri al 95% che la proporzione di tutti gli studenti della TCC che sono donne sia entro 0,086 della nostra proporzione del campione di 0,533. Possiamo quindi scrivere l’intervallo nella forma seguente:

stackrel{ˆ}{p}{text{}±\mathrm{margin}{text{mathrm{argin}{text{mathrm{error}=0.533\text{}±\text{}0.086

Quando aggiungiamo e sottraiamo il margine di errore dalla proporzione del campione, l’intervallo di confidenza è da 0,447 a 0,619.

Conclusione:

Siamo sicuri al 95% che la proporzione di tutti gli studenti TCC che sono donne è tra 0,447 e 0,619. Possiamo anche fare questa affermazione usando le percentuali. Siamo sicuri al 95% che la percentuale di tutti gli studenti della TCC che sono donne è compresa tra il 44,7% e il 61,9%.

Ricordo da Linking Probability to Statistical Inference che il 95% di confidenza significa che questo metodo cattura la proporzione della popolazione circa il 95% delle volte.