Concepts en statistique
Exemple
Étudiants du Community College et sexe
Selon un rapport de 2010 de l’American Council on Education, les femmes représentent 57 % de la population des collèges aux États-Unis. Les étudiants d’une classe de statistiques au Tallahassee Community College veulent déterminer la proportion d’étudiantes au TCC. Ils sélectionnent un échantillon aléatoire de 135 étudiants du TCC et constatent que 72 sont des femmes, soit une proportion d’échantillon de 72 / 135 ≈ 0,533. Donc 53,3 % des étudiants de l’échantillon sont des femmes.
Que peuvent-ils conclure sur la proportion de femmes au collège ? Quel degré de confiance peuvent-ils avoir dans leur estimation ?
Pour répondre à ces questions, nous devons trouver un intervalle de confiance.
Vérification des conditions :
Nous avons appris dans Linking Probability to Statistical Inference qu’un intervalle de confiance provient d’un modèle normal de la distribution d’échantillonnage. Vérifions d’abord qu’un modèle normal est approprié ici. Rappelons les deux conditions d’utilisation d’un modèle normal pour les proportions d’échantillon :
- L’échantillon doit être aléatoire.
- Le nombre attendu de succès dans l’échantillon, np, et le nombre attendu d’échecs, n(1 – p), sont tous deux supérieurs ou égaux à 10. En symboles, il s’agit de np ≥ 10 et de n(1 – p) ≥ 10. Rappelons que succès ne signifie pas bon et échec ne signifie pas mauvais. Un succès est juste ce que nous comptons.
Lorsque nous essayons de vérifier ces conditions, nous avons un problème. Nous ne connaissons pas p, la proportion de la population. En fait, p est ce que nous essayons d’estimer ! Nous ne pouvons donc pas déterminer le nombre attendu de réussites et d’échecs. Notre solution à ce problème est d’ajuster ces conditions. La théorie avancée nous dit que si le nombre réel de réussites et d’échecs dans l’échantillon est supérieur ou égal à 10, alors un modèle normal est toujours un bon ajustement.
Cet échantillon contient 72 réussites (étudiantes) et 63 échecs (étudiants). Les deux sont supérieurs à 10. Nous utilisons donc le modèle normal pour la distribution d’échantillonnage.
Déterminer la marge d’erreur :
Nous savons qu’une proportion d’échantillon n’est qu’une estimation de la proportion de la population. Nous ne nous attendons pas à ce que la proportion de l’échantillon soit égale à la proportion de la population, il y a donc une certaine erreur due au hasard. Nous utilisons l’écart-type des proportions de l’échantillon pour décrire la quantité d’erreur à laquelle nous pouvons nous attendre dans les échantillons aléatoires. Nous appelons cela l’erreur standard.
Dans Linking Probability to Statistical Inference, nous avons appris que l’erreur standard de la proportion de l’échantillon dépend de la proportion de la population et de la taille de l’échantillon. Voici la formule de l’erreur standard:
\sqrt{\frac{p(1-p)}{n}}
Lorsque nous utilisons un modèle normal pour la distribution d’échantillonnage, 95 % des proportions de l’échantillon estiment la proportion de la population à environ 2 erreurs standard près. La marge d’erreur est donc la suivante :
2\text{}\sqrt{\frac{p(1-p)}{n}
Maintenant, calculons la marge d’erreur pour l’estimation de 53,3 % du TCC. Remarquez que nous avons le même problème que précédemment. Nous ne connaissons pas p, la proportion de la population. Nous ne pouvons donc pas calculer la marge d’erreur ! Notre solution à ce problème est d’estimer l’erreur standard en utilisant la proportion de l’échantillon à la place de p. Nous appelons cela l’erreur type estimée, et la formule est :
\sqrt{\frac{\stackrel{ˆ}{p}(1-\stackrel{ˆ}{p})}{n}}
Pour cet exemple, l’erreur type estimée est
\sqrt{\frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043
Donc la marge d’erreur pour l’intervalle de confiance à 95% est:
2\text{}\sqrt{\frac{0,533(1-0,533)}{135}}\text{}\approx \text{}2(0,043)\text{}=\text{}0.086
Détermination de l’intervalle de confiance :
Nous pouvons interpréter la marge d’erreur en disant que nous sommes sûrs à 95 % que la proportion de tous les étudiants de TCC qui sont des femmes se situe à 0,086 près de notre proportion d’échantillon de 0,533. Nous pouvons alors écrire l’intervalle sous la forme suivante :
\stackrel{ˆ}{p}\text{}±\text{}\mathrm{margin}\text{}\mathrm{of}\text{}\mathrm{error}=0.533\text{}±\text{}0.086
Lorsque nous ajoutons et soustrayons la marge d’erreur de la proportion de l’échantillon, l’intervalle de confiance est de 0,447 à 0,619.
Conclusion:
Nous sommes sûrs à 95 % que la proportion de tous les étudiants du TCC qui sont des femmes se situe entre 0,447 et 0,619. Nous pouvons également faire cette affirmation en utilisant des pourcentages. Nous sommes sûrs à 95 % que le pourcentage de tous les étudiants de TCC qui sont des femmes est compris entre 44,7 % et 61,9 %.
Rappellez-vous de Linking Probability to Statistical Inference que 95 % de confiance signifie que cette méthode capture la proportion de la population environ 95 % du temps.