¿Qué es una estadística de chi-cuadrado?
Un chi-cuadrado ( χ 2) La estadística es una prueba que mide cómo se comparan las expectativas con los datos reales observados (o los resultados del modelo). Los datos utilizados en el cálculo de una estadística de chi-cuadrado deben ser aleatorios, crudos, mutuamente excluyentes, extraídos de variables independientes y extraídos de una muestra lo suficientemente grande. Por ejemplo, los resultados de lanzar una moneda 100 veces cumplen con estos criterios.
Las pruebas de chi-cuadrado a menudo se usan en pruebas de hipótesis.
La fórmula para Chi-Square es
χc2 = ∑ (Oi − Ei) 2 En cualquier lugar: c = grados de libertad O = valor (es) observado (s) E = valor (es) esperado (s) begin {alineado} & \ chi ^ 2_c = \ sum \ frac {(O_i - E_i) ^ 2} {E_i} \ & \ textbf {donde:} \ & c = \ text {grados de libertad} \ & O = \ text {valores observados} \ & E = \ text {valores esperados } \ \ end {alineado} χc2 = ∑Ei (Oi −Ei) 2 donde: c = grados de libertadO = valor (es) observado (s) E = valor (es) esperado (s)
¿Qué le dice una estadística de chi-cuadrado?
Hay dos tipos principales de pruebas de chi-cuadrado: la prueba de independencia, que hace una pregunta de relación, como, "¿Existe una relación entre los puntajes de género y SAT?"; y la prueba de bondad de ajuste, que pregunta algo como "Si se lanza una moneda 100 veces, ¿saldrá cara 50 veces y cola 50 veces?"
Para estas pruebas, se utilizan grados de libertad para determinar si una determinada hipótesis nula puede rechazarse en función del número total de variables y muestras dentro del experimento.
Por ejemplo, al considerar a los estudiantes y la elección del curso, un tamaño de muestra de 30 o 40 estudiantes probablemente no sea lo suficientemente grande como para generar datos significativos. Obtener los mismos resultados o resultados similares de un estudio que utiliza un tamaño de muestra de 400 o 500 estudiantes es más válido.
En otro ejemplo, considere lanzar una moneda 100 veces. El resultado esperado de lanzar una moneda justa 100 veces es que las caras aparecerán 50 veces y las colas aparecerán 50 veces. El resultado real podría ser que las caras salgan 45 veces y las colas salgan 55 veces. La estadística de chi-cuadrado muestra cualquier discrepancia entre los resultados esperados y los resultados reales.
Ejemplo de una prueba de ji cuadrado
Imagine que se realizó una encuesta aleatoria entre 2.000 votantes diferentes, tanto hombres como mujeres. Las personas que respondieron fueron clasificadas por su género y si eran republicanos, demócratas o independientes. Imagine una cuadrícula con las columnas etiquetadas republicano, demócrata e independiente, y dos filas etiquetadas como masculino y femenino. Suponga que los datos de los 2, 000 encuestados son los siguientes:
El primer paso para calcular la estadística de chi cuadrado es encontrar las frecuencias esperadas. Estos se calculan para cada "celda" en la cuadrícula. Como hay dos categorías de género y tres categorías de visión política, hay seis frecuencias totales esperadas. La fórmula para la frecuencia esperada es:
E (r, c) = n (r) × c (r) nwhere: r = fila en la pregunta c = columna en la pregunta n = total correspondiente \ begin {alineado} & E (r, c) = \ frac {n (r) veces c (r)} {n} \ & \ textbf {donde:} \ & r = \ text {fila en cuestión} \ & c = \ text {columna en cuestión} \ & n = \ text {total correspondiente} \ \ end {alineado} E (r, c) = nn (r) × c (r) donde: r = fila en preguntac = columna en preguntan = total correspondiente
En este ejemplo, las frecuencias esperadas son:
- E (1, 1) = (900 x 800) / 2, 000 = 360E (1, 2) = (900 x 800) / 2, 000 = 360E (1, 3) = (200 x 800) / 2, 000 = 80E (2, 1) = (900 x 1, 200) / 2, 000 = 540E (2, 2) = (900 x 1, 200) / 2, 000 = 540E (2, 3) = (200 x 1, 200) / 2, 000 = 120
A continuación, estos son valores utilizados para calcular la estadística de chi cuadrado utilizando la siguiente fórmula:
Chi-cuadrado = ∑2E (r, c) donde: O (r, c) = datos observados para la fila y columna dadas \ begin {alineado} & \ text {Chi-squared} = \ sum \ frac {^ 2} {E (r, c)} \ & \ textbf {donde:} \ & O (r, c) = \ text {datos observados para la fila y columna dadas} \ \ end {alineado} Chi-cuadrado = ∑E (r, c) 2 donde: O (r, c) = datos observados para la fila y columna dadas
En este ejemplo, la expresión para cada valor observado es:
- O (1, 1) = (400 - 360) 2/360 = 4.44O (1, 2) = (300 - 360) 2/360 = 10O (1, 3) = (100 - 80) 2/80 = 5O (2, 1) = (500 - 540) 2/540 = 2.96O (2, 2) = (600 - 540) 2/540 = 6.67O (2, 3) = (100 - 120) 2/120 = 3.33
La estadística de chi-cuadrado es igual a la suma de estos valores, o 32.41. Luego podemos ver una tabla estadística de chi-cuadrado para ver, dados los grados de libertad en nuestra configuración, si el resultado es estadísticamente significativo o no.