¿Cuál es la suma de cuadrados?
La suma de cuadrados es una técnica estadística utilizada en el análisis de regresión para determinar la dispersión de los puntos de datos. En un análisis de regresión, el objetivo es determinar qué tan bien se puede ajustar una serie de datos a una función que podría ayudar a explicar cómo se generó la serie de datos. La suma de cuadrados se usa como una forma matemática para encontrar la función que mejor se ajusta (varía menos) de los datos.
La fórmula para la suma de cuadrados es
Para un conjunto X de n elementos: Suma de cuadrados = i = 0∑n (Xi −X) 2 donde: Xi = El elemento i-ésimo en el conjunto X = La media de todos los elementos en el conjunto (Xi −X) = La desviación de cada elemento de la media
La suma de cuadrados también se conoce como variación.
¿Qué te dice la suma de cuadrados?
La suma de cuadrados es una medida de desviación de la media. En estadística, la media es el promedio de un conjunto de números y es la medida más utilizada de tendencia central. La media aritmética se calcula simplemente sumando los valores en el conjunto de datos y dividiendo por el número de valores.
Digamos que los precios de cierre de Microsoft (MSFT) en los últimos cinco días fueron 74.01, 74.77, 73.94, 73.61 y 73.40 en dólares estadounidenses. La suma de los precios totales es de $ 369.73 y el precio promedio o promedio del libro de texto sería de $ 369.73 / 5 = $ 73.95.
Pero conocer la media de un conjunto de medidas no siempre es suficiente. A veces, es útil saber cuánta variación hay en un conjunto de mediciones. La distancia entre los valores individuales y la media puede dar una idea de cómo se ajustan las observaciones o los valores al modelo de regresión que se crea.
Por ejemplo, si un analista quisiera saber si el precio de las acciones de MSFT se mueve junto con el precio de Apple (AAPL), puede enumerar el conjunto de observaciones para el proceso de ambas acciones durante un cierto período, digamos 1, 2, o 10 años y cree un modelo lineal con cada una de las observaciones o mediciones registradas. Si la relación entre ambas variables (es decir, el precio de AAPL y el precio de MSFT) no es una línea recta, entonces hay variaciones en el conjunto de datos que deben analizarse.
En las estadísticas hablan, si la línea en el modelo lineal creado no pasa por todas las mediciones de valor, entonces parte de la variabilidad que se ha observado en los precios de las acciones es inexplicable. La suma de cuadrados se usa para calcular si existe una relación lineal entre dos variables, y cualquier variabilidad inexplicada se conoce como la suma residual de cuadrados.
La suma de cuadrados es la suma del cuadrado de variación, donde la variación se define como la extensión entre cada valor individual y la media. Para determinar la suma de cuadrados, la distancia entre cada punto de datos y la línea de mejor ajuste se eleva al cuadrado y luego se resume. La línea de mejor ajuste minimizará este valor.
Cómo calcular la suma de cuadrados
Ahora puede ver por qué la medida se llama suma de desviaciones al cuadrado o suma de cuadrados para abreviar. Usando nuestro ejemplo de MSFT anterior, la suma de cuadrados se puede calcular como:
- SS = (74.01 - 73.95) 2 + (74.77 - 73.95) 2 + (73.94 - 73.95) 2 + (73.61 - 73.95) 2 + (73.40 - 73.95) 2 SS = (0.06) 2 + (0.82) 2 + (- 0.01) 2 + (-0.34) 2 + (-0.55) 2 SS = 1.0942
Agregar la suma de las desviaciones solo sin cuadrar dará como resultado un número igual o cercano a cero, ya que las desviaciones negativas compensarán casi perfectamente las desviaciones positivas. Para obtener un número más realista, la suma de las desviaciones debe ser al cuadrado. La suma de los cuadrados siempre será un número positivo porque el cuadrado de cualquier número, ya sea positivo o negativo, siempre es positivo.
Ejemplo de cómo usar la suma de cuadrados
Basado en los resultados del cálculo de MSFT, una alta suma de cuadrados indica que la mayoría de los valores están más lejos de la media y, por lo tanto, existe una gran variabilidad en los datos. Una suma baja de cuadrados se refiere a la baja variabilidad en el conjunto de observaciones.
En el ejemplo anterior, 1.0942 muestra que la variabilidad en el precio de las acciones de MSFT en los últimos cinco días es muy baja y los inversores que buscan invertir en acciones caracterizadas por la estabilidad de los precios y la baja volatilidad pueden optar por MSFT.
Para llevar clave
- La suma de cuadrados mide la desviación de los puntos de datos del valor medio. Un resultado de suma de cuadrados más alto indica un gran grado de variabilidad dentro del conjunto de datos, mientras que un resultado más bajo indica que los datos varían considerablemente del valor medio..
Limitaciones del uso de la suma de cuadrados
Tomar una decisión de inversión sobre qué acciones comprar requiere muchas más observaciones que las que se enumeran aquí. Un analista puede tener que trabajar con años de datos para saber con mayor certeza cuán alta o baja es la variabilidad de un activo. A medida que se agregan más puntos de datos al conjunto, la suma de los cuadrados se hace más grande ya que los valores se extenderán más.
Las medidas de variación más utilizadas son la desviación estándar y la varianza. Sin embargo, para calcular cualquiera de las dos métricas, primero se debe calcular la suma de los cuadrados. La varianza es el promedio de la suma de cuadrados (es decir, la suma de cuadrados dividida por el número de observaciones). La desviación estándar es la raíz cuadrada de la varianza.
Hay dos métodos de análisis de regresión que utilizan la suma de cuadrados: el método lineal de mínimos cuadrados y el método no lineal de mínimos cuadrados. El método de mínimos cuadrados se refiere al hecho de que la función de regresión minimiza la suma de los cuadrados de la varianza de los puntos de datos reales. De esta manera, es posible dibujar una función que estadísticamente proporcione el mejor ajuste para los datos. Tenga en cuenta que una función de regresión puede ser lineal (una línea recta) o no lineal (una línea curva).