¿Qué es el sesgo de selección de muestra?
El sesgo de selección de muestra es un tipo de sesgo causado por la elección de datos no aleatorios para el análisis estadístico. El sesgo existe debido a una falla en el proceso de selección de muestra, donde un subconjunto de datos se excluye sistemáticamente debido a un atributo particular. La exclusión del subconjunto puede influir en la significación estadística de la prueba o producir resultados distorsionados.
Comprender el sesgo de selección de muestra
El sesgo de supervivencia es un tipo común de sesgo de selección de muestra. Por ejemplo, cuando se realiza una prueba inversa de una estrategia de inversión en un gran grupo de acciones, puede ser conveniente buscar valores que tengan datos para todo el período de muestra. Si fuéramos a probar la estrategia contra 15 años de datos de existencias, podríamos estar inclinados a buscar acciones que tengan información completa para todo el período de 15 años. Sin embargo, eliminar una acción que dejó de cotizar, o que abandonó el mercado en breve, introduciría un sesgo en nuestra muestra de datos. Dado que solo incluimos acciones que duraron el período de 15 años, nuestros resultados finales serían defectuosos, ya que estos funcionaron lo suficientemente bien como para sobrevivir en el mercado.
Los índices de rendimiento de los fondos de cobertura son un ejemplo de sesgo de selección de muestra sujeto al sesgo de supervivencia. Debido a que los fondos de cobertura que no sobreviven dejan de informar su desempeño a los agregadores de índices, los índices resultantes se inclinan naturalmente hacia los fondos y las estrategias que quedan, por lo tanto, "sobreviven". Esto también puede ser un problema con los servicios populares de informes de fondos mutuos.
Los analistas pueden ajustarse para tener en cuenta estos sesgos, pero pueden introducir sesgos de noticias en el proceso.