Conceitos em Estatísticas
Exemplo
Alunos Universitários Comunitários e Género
De acordo com um relatório de 2010 do Conselho Americano de Educação, as mulheres constituem 57% da população universitária nos Estados Unidos. Os alunos de uma classe de estatística no Tallahassee Community College querem determinar a proporção de estudantes do sexo feminino no TCC. Eles selecionam uma amostra aleatória de 135 estudantes do TCC e descobrem que 72 são do sexo feminino, que é uma proporção de amostra de 72 / 135 ≈ 0,533. Então 53,3% dos estudantes da amostra são do sexo feminino.
O que eles podem concluir sobre a proporção de estudantes do sexo feminino no colégio? Quão confiantes podem estar em sua estimativa?
Para responder a estas perguntas, precisamos encontrar um intervalo de confiança.
Condições de verificação:
Aprendemos em Ligar Probabilidade à Inferência Estatística que um intervalo de confiança vem de um modelo normal da distribuição da amostra. Vamos primeiro ter certeza de que um modelo normal é apropriado aqui. Recordemos as duas condições para usar um modelo normal para proporções de amostra:
- A amostra deve ser aleatória.
- O número esperado de sucessos na amostra, np, e o número esperado de falhas, n(1 – p), são ambos maiores ou iguais a 10. Em símbolos, este é np ≥ 10 e n(1 – p) ≥ 10. Lembre-se que o sucesso não significa bom e o fracasso não significa mau. Um sucesso é apenas o que estamos a contar.
Quando tentamos verificar estas condições, temos um problema. Nós não sabemos p, a proporção da população. Na verdade, p é o que estamos a tentar estimar! Portanto, não podemos determinar o número esperado de sucessos e fracassos. A nossa solução para este problema é ajustar estas condições. A teoria avançada nos diz que se o número real de sucessos e fracassos na amostra for maior ou igual a 10, então um modelo normal ainda é um bom ajuste.
Esta amostra contém 72 sucessos (estudantes do sexo feminino) e 63 fracassos (estudantes do sexo masculino). Ambos são maiores do que 10. Portanto, usamos o modelo normal para a distribuição da amostra.
Encontrar a margem de erro:
Sabemos que uma proporção da amostra é apenas uma estimativa para a proporção da população. Não esperamos que a proporção da amostra seja igual à proporção da população, portanto há algum erro devido à chance aleatória. Usamos o desvio padrão das proporções da amostra para descrever a quantidade de erro que podemos esperar em amostras aleatórias. Chamamos isso de erro padrão.
Em Ligando Probabilidade à Inferência Estatística, aprendemos que o erro padrão da proporção da amostra depende da proporção da população e do tamanho da amostra. Aqui está a fórmula para o erro padrão:
\sqrt{\frac{p(1-p)}{n}}}
Quando utilizamos um modelo normal para a distribuição da amostra, 95% das proporções de amostra estimam a proporção da população dentro de aproximadamente 2 erros padrão. Então a margem de erro é a seguinte:
2\texto{}}sqrt{\frac{p(1-p)}{n}}}
p>Agora vamos calcular a margem de erro para a estimativa do TCC de 53,3%. Note que temos o mesmo problema que tínhamos antes. Não sabemos p, a proporção da população. Portanto, não podemos calcular a margem de erro! A nossa solução para este problema é estimar o erro padrão usando a proporção da amostra no lugar de p. Chamamos a isto o erro padrão estimado, e a fórmula é:
\sqrt{\frac{\stackrel{ˆ}{p}(1-\stackrel{ˆ}{p})}{n}}}
Para este exemplo, o erro padrão estimado é
\sqrt{\frac{\0.533(1-0.533)}{135}}\text{}\approx \text{}0.043
Então a margem de erro para o intervalo de confiança de 95% é:
2\text{}sqrt{\frac{0.533(1-0.533)}{135}}text{}approx {}text{}2(0.043){}text{}=text{}0.086
Encontrar o intervalo de confiança:
Podemos interpretar a margem de erro dizendo que estamos 95% confiantes de que a proporção de todos os alunos no TCC que são do sexo feminino está dentro de 0,086 da nossa proporção de amostra de 0,533. Podemos então escrever o intervalo da seguinte forma:
\stackrel{ˆ}{ˆ}{p}}text{}±{}text{}mathrm{margin}text{}mathrm{}mathrm{}mathrm{}=0.533\text{}±\text{}0.086
Quando adicionamos e subtraímos a margem de erro da proporção da amostra, o intervalo de confiança é de 0,447 a 0,619.
Conclusion:
Estamos 95% confiantes de que a proporção de todos os alunos TCC que são do sexo feminino está entre 0,447 e 0,619. Também podemos fazer esta afirmação usando percentagens. Estamos 95% confiantes de que a percentagem de todos os alunos TCC que são do sexo feminino está entre 44,7% e 61,9%.
Recall from Linking Probability to Statistical Inference que 95% de confiança significa que este método captura a proporção da população cerca de 95% do tempo.