Así se titula un estupendo artículo de Andrew Gelman y David Weakliem cuya lectura recomiendo encarecidamente a cualquiera que tenga interés por la investigación empírica en ciencias sociales (inglés/castellano). Como en otras ocasiones, Gelman y Weakliem ponen en evidencia la carencia de conocimientos estadísticos de muchos científicos sociales. En este caso tratan dos temas claves que, desafortunadamente, no figuran normalmente en los cursos de Econometría: la significatividad de los coeficientes en un contexto de regresiones múltiples y la dificultad de aprender acerca de la realidad a partir de muestras relativamente pequeñas. Gelman y Weakliem ilustran estos problemas utilizando como ejemplo un artículo de Satoshi Kanazawa, experto en psicología evolutiva de la London School of Economics. Partiendo de la hipótesis de Trivers-Willard, según la cual la probabilidad de tener un hijo varón o una hija puede variar en función de qué opción conlleva una mayor descendencia futura, Kanazawa sugiere que los padres atractivos tienen una mayor probabilidad de tener hijas porque, sostiene, la belleza aumenta en mayor medida el éxito reproductivo de las mujeres que de los varones.
Para contrastar esta tesis, Kanazawa utilizó una base de datos donde era posible observar una medida de la belleza de 3,000 individuos, clasificados en 5 grupos por un entrevistador (de mayor a menor belleza), así como información acerca del sexo de sus hijos. Kanazawa muestra que el 52% de los hijos de los individuos que han sido clasificados en el grupo de mayor belleza son de sexo femenino, comparado con únicamente un 44% entre aquellos individuos que han sido asignados a alguno de los cuatros grupos de menor belleza. Esta diferencia sería estadísticamente significativa al 5%, lo que seguramente contribuyó a que el artículo fuera publicado en el Journal of Theoretical Biology y también a que fuera citado repetidamente por la prensa (incluyendo la española).
En realidad, como muestran Gelman y Weakliem, Kanazawa no calcula de manera correcta los errores estándar, porque no tiene en cuenta que está presentando solamente una de las múltiples comparaciones que podría haber realizado (y seguramente realizó). Además de comparar el grupo más atractivo con los cuatro menos atractivos, podría haber comparado (i) los dos más atractivos con los tres menos atractivos, (ii) los tres más atractivos con los dos menos atractivos o (iii) los cuatro más atractivos con el grupo menos atractivo. No hay ninguna teoría que a priori indique cual de estas comparaciones es más adecuada. El problema es que cuando corremos múltiples regresiones aumenta la posibilidad de que encontremos resultados estadísticamente significativos por pura casualidad. Por ejemplo, si realizamos diez estudios estadísticos independientes, cada uno en un pueblo distinto, acerca de la posibilidad de que los humanos tengan percepción extrasensorial, tenemos cerca del 40% de posibilidades de encontrar, con un grado de confianza del 95%, un pueblo cuya población tiene poderes extrasensoriales (¡y de hecho no seríamos los primeros, aunque me temo que estos resultados no han podido ser replicados!). Por lo tanto, es necesario ajustar los errores estándar por el número de tests realizados o, alternativamente, utilizar un único test que tenga en cuenta todas estas posibles comparaciones. Por ejemplo, Gelman y Weakliem proponen normalizar la variable belleza de forma que tenga media cero y desviación estándar un medio. En este caso, el coeficiente que se obtiene al regresar la proporción de hijas respecto a la belleza (normalizada) de los padres es igual a 4.7% con un error estándar de 4.3%. Con un intervalo de confianza del 95%, el efecto real está entre -3.9% y +13.3%, lo que supone que no podemos rechazar la posibilidad de que en realidad no haya ninguna relación entre ambas variables. (Es decir, si usted tiene hijos varones no tiene por qué preocuparse, no es cierto que tenga una mayor probabilidad de ser feo )
Ahora bien, más allá de este error técnico en el cálculo de los errores estándar, también merece la pena analizar por qué a partir de un estudio como el de Kanazawa, con un tamaño muestral relativamente pequeño, es muy difícil aprender gran cosa acerca de la posible relación entre la belleza de los padres y el sexo de los hijos. En primer lugar, conviene preguntarse cómo de grande sería, en caso de existir, dicha relación. La literatura que ha analizado los determinantes del sexo de los hijos utilizando “big data” muestra que factores como la raza, la edad de los padres, fecha de nacimiento, estatus de la pareja, peso de la madre, etc. pueden tener un efecto de entre 0.3% y un 2%, siendo este efecto especialmente grande durante una hambruna (la explicación es que los fetos varones tienen menos probabilidad de supervivencia en situaciones extremas). Gelman y Weakliem concluyen que, en el caso de la belleza, en un contexto económico normal, si existe algún impacto sobre el sexo de los hijos, cabe esperar que este efecto no sea mayor a un 1%.
¿Qué ocurre cuando intentamos detectar un efecto cuya magnitud podría estar entre un 0 y un 1% utilizando una muestra de tamaño relativamente escaso (con un error estándar igual a 4.3%)? Consideremos dos posibles escenarios. En primer lugar, imaginemos que, en realidad, la probabilidad de tener una hija fuera un 0.3% mayor entre los padres más atractivos. Utilizando una muestra como la de Kanazawa, con un error estándar del 4.3%, solamente existe una probabilidad del 3% de que el coeficiente estimado sea positivo y estadísticamente significativo. Además, únicamente serían significativos coeficientes exageradamente grandes, superiores al 8.4%. Por otro lado, cabe la posibilidad, con una probabilidad del 2%, de que observemos en la muestra un efecto significativo de signo negativo que, naturalmente, también tendría una magnitud desmesurada, inferior a -8.4%. Es decir, si encontramos un coeficiente significativo este será de una magnitud absurdamente grande (error de tipo M) y, con una probabilidad del 40%, el coeficiente tendría incluso el signo contrario al real (en la jerga de Gelman y Tuerlinckx 2000, error de tipo S). En segundo lugar, consideremos un escenario en el que, en realidad, los padres atractivos tienen una probabilidad un 1% mayor de tener una hija. En este caso el econometra que realice un estudio con una muestra de tamaño similar a la de Kanazawa tiene una probabilidad de un 4% de obtener un coeficiente positivo significativamente distinto de cero. Además, con una probabilidad del 1% obtendría resultados significativos de signo negativo. De nuevo, la magnitud de los errores de tipo M y de tipo S es preocupante: en caso de ser significativos, los coeficientes serían exageradamente grandes, unas 10 veces superior a su tamaño real y existiría una probabilidad relativamente alta (un 20%) de que el coeficiente estimado sea del signo contrario al correcto. En resumen, cuando el tamaño muestral es relativamente pequeño en relación al tamaño del efecto que intentamos detectar, si obtenemos resultados estadísticamente significativos es muy probable que estos sean desinformativos: demasiado grandes en términos de magnitud y, a menudo, con un signo contrario al efecto real. Esto es particularmente peligroso en un contexto académico en el que únicamente los estudios con efectos significativos se publican.
¿Qué se puede hacer para evitar estos problemas? En primer lugar, quizás sería útil que al diseñar un estudio los investigadores, de manera más o menos explícita, adoptemos un enfoque más bayesiano. Tanto a la hora de diseñar el estudio como a la hora de interpretar los resultados, además de pensar en términos de errores de tipo I (falsos positivos) y de tipo II (falsos negativos), podríamos incorporar a nuestro análisis el concepto de error de tipo M y error de tipo S. Esto exige cierto conocimiento acerca de nuestro grado de ignorancia, quizás basado en algún meta-análisis o guiados por la teoría. Nuestro cálculo de la distribución posterior dará un peso relativamente pequeño a señales que sean poco informativas. Naturalmente, esto podría resultar frustrante en algunas ocasiones, porque incluso con resultados muy “significativos”, no se podrá concluir que existe realmente un efecto, pero ayudaría a eliminar gran parte del ruido que enturbia hoy en día las ciencias sociales. En segundo lugar, en algunas ocasiones deberíamos hacer un mayor esfuerzo en recopilar fuentes de datos adicionales, que permitan refutar o confirmar los resultados sugestivos que podamos haber encontrado inicialmente. Por último, el cálculo de los errores estándar debería reflejar todas las posibles regresiones que hemos contemplado, especialmente cuando no existe una teoría clara que oriente el análisis. De lo contrario, si no somos más prudentes al interpretar la evidencia empírica, corremos el riesgo de que, como ocurriera en la fábula del lobo y el pastorcito, la sociedad se acabe cansando de escuchar noticias sobre resultados absurdos obtenidos por estudios supuestamente científicos y, finalmente, deje de confiar en el valor del trabajo académico.
Fe de erratas (i) (29-9-2014, 13:25): En la versión original del artículo por error se indicaba que "Kanazawa muestra que el 52% de los hijos de los individuos que han sido clasificados en el grupo de mayor belleza son varones", cuando en realidad "Kanazawa muestra que el 52% de los hijos de los individuos que han sido clasificados en el grupo de mayor belleza son de sexo femenino"
Fe de erratas (ii) (29-9-2014, 18:05): La versión original del artículo omitía a uno de los coautores, David Weakliem. Se ha corregido esta omisión.