¿Qué es la regresión lineal múltiple - MLR?
La regresión lineal múltiple (MLR), también conocida simplemente como regresión múltiple, es una técnica estadística que utiliza varias variables explicativas para predecir el resultado de una variable de respuesta. El objetivo de la regresión lineal múltiple (MLR) es modelar la relación lineal entre las variables explicativas (independientes) y la variable de respuesta (dependiente).
En esencia, la regresión múltiple es la extensión de la regresión de mínimos cuadrados ordinarios (MCO) que involucra más de una variable explicativa.
La fórmula para la regresión lineal múltiple es
Yi = β0 + β1 xi1 + β2 xi2 +… + βp xip + ϵ donde, para i = n observaciones: yi = variable dependientexi = variables expansivasβ0 = intersección en y (constante término) βp = coeficientes de pendiente para cada variable explicativaϵ = el término de error del modelo (también conocido como los residuos)
Explicando la regresión lineal múltiple
Una regresión lineal simple es una función que permite a un analista o estadístico hacer predicciones sobre una variable en función de la información que se conoce sobre otra variable. La regresión lineal solo se puede usar cuando uno tiene dos variables continuas: una variable independiente y una variable dependiente. La variable independiente es el parámetro que se utiliza para calcular la variable dependiente o el resultado. Un modelo de regresión múltiple se extiende a varias variables explicativas.
El modelo de regresión múltiple se basa en los siguientes supuestos:
- Existe una relación lineal entre las variables dependientes y las variables independientes. Las variables independientes no están demasiado correlacionadas entre sí . Las observaciones se seleccionan de forma independiente y aleatoria de la población. Los residuos deben distribuirse normalmente con una media de 0 y varianza σ.
El coeficiente de determinación (R cuadrado) es una métrica estadística que se utiliza para medir qué parte de la variación en el resultado puede explicarse por la variación en las variables independientes. R 2 siempre aumenta a medida que se agregan más predictores al modelo MLR, aunque los predictores pueden no estar relacionados con la variable de resultado.
R 2 por sí solo no puede utilizarse para identificar qué predictores deberían incluirse en un modelo y cuáles deberían excluirse. R 2 solo puede estar entre 0 y 1, donde 0 indica que el resultado no puede ser predicho por ninguna de las variables independientes y 1 indica que el resultado puede predecirse sin error a partir de las variables independientes.
Al interpretar los resultados de una regresión múltiple, los coeficientes beta son válidos mientras se mantienen constantes todas las demás variables ("todo lo demás es igual"). El resultado de una regresión múltiple se puede mostrar horizontalmente como una ecuación, o verticalmente en forma de tabla.
Ejemplo usando regresión lineal múltiple
Por ejemplo, un analista puede querer saber cómo el movimiento del mercado afecta el precio de Exxon Mobil (XOM). En este caso, su ecuación lineal tendrá el valor del índice S&P 500 como la variable independiente o predictor, y el precio de XOM como la variable dependiente.
En realidad, hay múltiples factores que predicen el resultado de un evento. El movimiento de precios de Exxon Mobil, por ejemplo, depende de algo más que el rendimiento del mercado en general. Otros predictores como el precio del petróleo, las tasas de interés y el movimiento de los precios de los futuros del petróleo pueden afectar el precio de XOM y los precios de las acciones de otras compañías petroleras. Para comprender una relación en la que están presentes más de dos variables, se utiliza una regresión lineal múltiple.
La regresión lineal múltiple (MLR) se usa para determinar una relación matemática entre varias variables aleatorias. En otros términos, MLR examina cómo se relacionan múltiples variables independientes con una variable dependiente. Una vez que se ha determinado que cada uno de los factores independientes predice la variable dependiente, la información sobre las múltiples variables se puede usar para crear una predicción precisa sobre el nivel de efecto que tienen sobre la variable de resultado. El modelo crea una relación en forma de línea recta (lineal) que se aproxima mejor a todos los puntos de datos individuales.
Refiriéndose a la ecuación MLR anterior, en nuestro ejemplo:
- y i = variable dependiente: precio de XOMx i1 = tasas de interés x i2 = precio del petróleo x i3 = valor del índice S&P 500 x i4 = precio de futuros del petróleo B 0 = intersección en y en el momento cero B 1 = coeficiente de regresión que mide un cambio unitario en el dependiente variable cuando x i1 cambia: el cambio en el precio XOM cuando cambian las tasas de interésB 2 = valor del coeficiente que mide un cambio unitario en la variable dependiente cuando cambia x i2: el cambio en el precio XOM cuando cambian los precios del petróleo
Las estimaciones de mínimos cuadrados, B 0, B 1, B 2… B p, generalmente se calculan mediante software estadístico. Se pueden incluir tantas variables en el modelo de regresión en el que cada variable independiente se diferencia con un número: 1, 2, 3, 4… p. El modelo de regresión múltiple le permite al analista predecir un resultado basado en la información provista en múltiples variables explicativas.
Aún así, el modelo no siempre es perfectamente preciso, ya que cada punto de datos puede diferir ligeramente del resultado predicho por el modelo. El valor residual, E, que es la diferencia entre el resultado real y el resultado predicho, se incluye en el modelo para tener en cuenta estas pequeñas variaciones.
Suponiendo que ejecutamos nuestro modelo de regresión de precios XOM a través de un software de cálculo de estadísticas, que devuelve este resultado:
Un analista interpretaría que esta producción significa que si otras variables se mantienen constantes, el precio de XOM aumentará en un 7.8% si el precio del petróleo en los mercados aumenta en un 1%. El modelo también muestra que el precio de XOM disminuirá en un 1, 5% tras un aumento del 1% en las tasas de interés. R 2 indica que el 86.5% de las variaciones en el precio de las acciones de Exxon Mobil puede explicarse por cambios en la tasa de interés, el precio del petróleo, los futuros del petróleo y el índice S&P 500.
Para llevar clave
- La regresión lineal múltiple (MLR), también conocida simplemente como regresión múltiple, es una técnica estadística que utiliza varias variables explicativas para predecir el resultado de una variable de respuesta. La regresión múltiple es una extensión de la regresión lineal (OLS) que utiliza solo una variable explicativa. MLR se usa ampliamente en econometría e inferencia financiera.
La diferencia entre regresión lineal y múltiple
La regresión lineal (MCO) compara la respuesta de una variable dependiente dado un cambio en alguna variable explicativa. Sin embargo, es raro que una variable dependiente se explique por una sola variable. En este caso, un analista usa regresión múltiple, que intenta explicar una variable dependiente usando más de una variable independiente. Las regresiones múltiples pueden ser lineales y no lineales.
Las regresiones múltiples se basan en el supuesto de que existe una relación lineal entre las variables dependientes e independientes. Tampoco supone una correlación importante entre las variables independientes.