Conceptos de estadística

Ejemplo

Los estudiantes del Community College y el género

Según un informe de 2010 del American Council on Education, las mujeres representan el 57% de la población universitaria en Estados Unidos. Los estudiantes de una clase de estadística en el Tallahassee Community College quieren determinar la proporción de estudiantes mujeres en el TCC. Seleccionan una muestra aleatoria de 135 estudiantes de TCC y descubren que 72 son mujeres, lo que supone una proporción muestral de 72 / 135 ≈ 0,533. Por tanto, el 53,3% de los estudiantes de la muestra son mujeres.

¿Qué pueden concluir sobre la proporción de mujeres en la universidad? Qué confianza pueden tener en su estimación?

Para responder a estas preguntas, necesitamos encontrar un intervalo de confianza.

Condiciones de comprobación:

Aprendimos en Vinculación de la probabilidad con la inferencia estadística que un intervalo de confianza proviene de un modelo normal de la distribución muestral. Asegurémonos primero de que un modelo normal es apropiado aquí. Recordemos las dos condiciones para utilizar un modelo normal para las proporciones de la muestra:

  • La muestra debe ser aleatoria.
  • El número esperado de éxitos en la muestra, np, y el número esperado de fracasos, n(1 – p), son ambos mayores o iguales a 10. En símbolos, esto es np ≥ 10 y n(1 – p) ≥ 10. Recordemos que el éxito no significa bueno y el fracaso no significa malo. Un éxito es simplemente lo que estamos contando.
    • Cuando intentamos comprobar estas condiciones, tenemos un problema. No conocemos p, la proporción de población. De hecho, ¡p es lo que estamos tratando de estimar! Así que no podemos determinar el número esperado de éxitos y fracasos. Nuestra solución a este problema es ajustar estas condiciones. La teoría avanzada nos dice que si el número real de éxitos y fracasos en la muestra es mayor o igual a 10, entonces un modelo normal sigue siendo un buen ajuste.

      Esta muestra contiene 72 éxitos (alumnas) y 63 fracasos (alumnos). Ambos son mayores de 10. Por lo tanto, utilizamos el modelo normal para la distribución de la muestra.

      Hallar el margen de error:

      Sabemos que una proporción de la muestra es sólo una estimación de la proporción de la población. No esperamos que la proporción de la muestra sea igual a la proporción de la población, por lo que existe un cierto error debido al azar. Utilizamos la desviación estándar de las proporciones de la muestra para describir la cantidad de error que podemos esperar en las muestras aleatorias. Lo llamamos error estándar.

      En Vinculación de la probabilidad con la inferencia estadística, aprendimos que el error estándar de la proporción de la muestra depende de la proporción de la población y del tamaño de la muestra. Aquí está la fórmula para el error estándar:

      {sqrt{\frac{p(1-p)}{n}

      Cuando utilizamos un modelo normal para la distribución muestral, el 95% de las proporciones de la muestra estiman la proporción de la población dentro de aproximadamente 2 errores estándar. Por lo tanto, el margen de error es el siguiente:

      2\text{} {sqrt{{p(1-p)}{n}

      Ahora vamos a calcular el margen de error para la estimación de la TCC del 53,3%. Obsérvese que tenemos el mismo problema que antes. No conocemos p, la proporción de la población. Así que no podemos calcular el margen de error. Nuestra solución a este problema es estimar el error estándar utilizando la proporción de la muestra en lugar de p. Llamamos a esto el error estándar estimado, y la fórmula es:

      {sqrt{{frac{stackrel{ˆ}{p}(1-stackrel{ˆ}{p})}{n}

      Para este ejemplo, el error estándar estimado es

      {sqrt{frac{0.533(1-0.533)}{135}}\text{}\approx \text{}0.043

      Así que el margen de error para el intervalo de confianza del 95% es:

      2{text}{cuadrado}{0,533(1-0,533)}{135}{text}{aprox}{0,043}={text}{0.086

      Hallar el intervalo de confianza:

      Podemos interpretar el margen de error diciendo que tenemos un 95% de confianza en que la proporción de todos los estudiantes de TCC que son mujeres está dentro de 0,086 de nuestra proporción muestral de 0,533. Podemos entonces escribir el intervalo de la siguiente forma:

      &

      MásMinus;\% de error=0.533\text{}±\text{}0.086

      Cuando sumamos y restamos el margen de error de la proporción de la muestra, el intervalo de confianza es de 0,447 a 0,619.

      Conclusión:

      Tenemos un 95% de confianza en que la proporción de todos los estudiantes de TCC que son mujeres está entre 0,447 y 0,619. También podemos hacer esta afirmación utilizando porcentajes. Tenemos un 95% de confianza en que el porcentaje de todos los estudiantes de TCC que son mujeres está entre el 44,7% y el 61,9%.

      Recordemos de Linking Probability to Statistical Inference que un 95% de confianza significa que este método capta la proporción de la población aproximadamente el 95% de las veces.