¿Cuál es el coeficiente de determinación?
El coeficiente de determinación es una medida utilizada en el análisis estadístico que evalúa qué tan bien un modelo explica y predice resultados futuros. Es indicativo del nivel de variabilidad explicada en el conjunto de datos. El coeficiente de determinación, también conocido comúnmente como "R cuadrado", se usa como una guía para medir la precisión del modelo.
Una forma de interpretar esta figura es decir que las variables incluidas en un modelo dado explican aproximadamente el x% de la variación observada. Entonces, si R 2 = 0.50, entonces el modelo puede explicar aproximadamente la mitad de la variación observada.
R-cuadrado
Para llevar clave
- El coeficiente de determinación es una idea compleja centrada en el análisis estadístico de un modelo de datos futuro. El coeficiente de determinación se utiliza para explicar cuánta variabilidad de un factor puede ser causada por su relación con otro factor.
Comprensión del coeficiente de determinación
El coeficiente de determinación se utiliza para explicar cuánta variabilidad de un factor puede ser causada por su relación con otro factor. Se basa en gran medida en el análisis de tendencias y se representa como un valor entre 0 y 1.
Cuanto más cercano sea el valor a 1, mejor será el ajuste o la relación entre los dos factores. El coeficiente de determinación es el cuadrado del coeficiente de correlación, también conocido como "R", que le permite mostrar el grado de correlación lineal entre dos variables.
Esta correlación se conoce como la "bondad de ajuste". Un valor de 1.0 indica un ajuste perfecto y, por lo tanto, es un modelo muy confiable para pronósticos futuros, lo que indica que el modelo explica todas las variaciones observadas. Un valor de 0, por otro lado, indicaría que el modelo no puede modelar con precisión los datos. Para un modelo con varias variables, como un modelo de regresión múltiple, el R2 ajustado es un mejor coeficiente de determinación. En economía, un valor de R 2 superior a 0, 60 se considera que vale la pena.
Ventajas de analizar el coeficiente de determinación
El coeficiente de determinación es el cuadrado de la correlación entre los puntajes pronosticados en un conjunto de datos versus el conjunto real de puntajes. También se puede expresar como el cuadrado de la correlación entre las puntuaciones X e Y, siendo la X la variable independiente y la Y la variable dependiente.
Independientemente de la representación, un R cuadrado igual a 0 significa que la variable dependiente no se puede predecir usando la variable independiente. Por el contrario, si es igual a 1, significa que la variable independiente siempre predice el dependiente de una variable.
Un coeficiente de determinación que se encuentra dentro de este rango mide el grado en que la variable independiente es predicha por la variable independiente. Un R cuadrado de 0, 20, por ejemplo, significa que el 20% de la variable dependiente se predice por la variable independiente.
La bondad de ajuste, o el grado de correlación lineal, mide la distancia entre una línea ajustada en un gráfico y todos los puntos de datos que se encuentran dispersos alrededor del gráfico. El conjunto ajustado de datos tendrá una línea de regresión que está muy cerca de los puntos y tiene un alto nivel de ajuste, lo que significa que la distancia entre la línea y los datos es muy pequeña. Un buen ajuste tiene un R cuadrado que está cerca de 1.
Sin embargo, R cuadrado no puede determinar si los puntos de datos o las predicciones están sesgados. Tampoco le dice al analista o usuario si el valor del coeficiente de determinación es bueno o no. Un R cuadrado bajo no es malo, por ejemplo, y depende de la persona tomar una decisión basada en el número R cuadrado.
El coeficiente de determinación no debe interpretarse ingenuamente. Por ejemplo, si el R-cuadrado de un modelo se informa al 75%, la varianza de sus errores es 75% menor que la varianza de la variable dependiente, y la desviación estándar de sus errores es 50% menor que la desviación estándar del dependiente variable. La desviación estándar de los errores del modelo es aproximadamente un tercio del tamaño de la desviación estándar de los errores que obtendría con un modelo de solo constante.
Finalmente, incluso si un valor R cuadrado es grande, puede que no haya significación estadística de las variables explicativas en un modelo, o el tamaño efectivo de estas variables puede ser muy pequeño en términos prácticos.