Los comentarios salvajes: Pensando con claridad sobre la correlación y la causalidad, por Roberto Colom

Julia Rohrer, del Max Planck Institute, publicó en 2018 ‘Thinking clearly about correlations and causation: Graphical causal models for observational data’.

Pretendía ilustrar el mensaje de que hacer inferencias causales válidas a partir de datos observacionales dista de ser algo mecánico. El acto depende de determinados supuestos basados en el conocimiento disponible y en la verosimilitud de la propuesta. Los estudios experimentales no se salvan de esa exigencia.

Algunos ejemplos que Julia usa para ilustrar la relevancia de preguntarse por la causalidad son:

¿Cuáles son las consecuencias del divorcio sobre el bienestar?

¿Cómo influye la clase social sobre la conducta de los humanos?

¿Cuáles son los efectos de una situación adversa en la infancia sobre la salud en la edad adulta?

Es evidente que no pueden extraerse, sin más, consecuencias causales a partir de evidencias basadas en correlaciones. A menudo se usan variables de control (covariables) para aumentar la verosimilitud de una interpretación causal a partir de dos variables correlacionadas, pero eso carece de sentido. No es la estrategia a seguir para resolver la coyuntura.

La autora basa el resto de su artículo en la aproximación DAG (Directed Acyclic Graph) porque, según ella, ayuda a revelar los supuestos causales que subyacen a los estudios observacionales. Los DAG comparten bastantes características con los modelos SEM (Structural Equation Modeling) –aunque en la DAG solamente se admiten flechas unidireccionales—y ayudan a responder preguntas como las siguientes:

¿Cuáles son las terceras variables que deben controlarse?

¿Cuáles son las terceras variables que pueden ignorarse?

¿En qué situaciones empeorará la coyuntura de sugerir presencia de relaciones causales al controlar variables?

A partir de aquí se ofrece una breve introducción a la DAG partiendo del ejemplo de cómo el nivel educativo puede influir sobre los ingresos. En la Figura 1 se aprecia que la relación entre ambas variables se puede vincular a una causa común: la inteligencia.

Según las flechas de la Figura 1, la manipulación experimental de la variable en la que comienza la flecha (la manipulación del nivel educativo manteniendo constante la inteligencia) cambiará los valores de la variable en la que termina la flecha (ingresos).

En la Figura 2 se añade otra variable (calificaciones escolares) que se encuentra influida por la inteligencia. A su vez, la inteligencia influye sobre el nivel educativo.

Aunque las conexiones entre variables pueden extenderse arbitrariamente y convertirse en algo bastante complejo, pueden dividirse en tres tipos de estructuras causales simples: cadenas, bifurcaciones y bifurcaciones inversas.

1.- Cadenas: A–>B–>C

La inteligencia influye en el nivel educativo y este en los ingresos.

Si la inteligencia influye causalmente sobre el nivel educativo, y este influye causalmente sobre los ingresos, entonces la inteligencia y los ingresos pueden estar correlacionados. Esa correlación reflejaría un efecto causal genuino. En esta cadena, la inteligencia influye causalmente sobre los ingresos a través del nivel educativo.

2.- Bifurcaciones: A<–B–>C

La inteligencia influye tanto en el nivel educativo como en los ingresos.

En una bifurcación se puede transmitir una asociación, pero no hay causalidad. Esta bifurcación indica que el nivel educativo y los ingresos pueden correlacionar porque comparten una causa común: la inteligencia. Las bifurcaciones son la estructura causal más relevante para resolver el fenómeno de la confusión (confounding).

3.- Bifurcaciones inversas: A–>B<–C

El nivel educativo influye en los ingresos y la capacidad intelectual influye en los ingresos.

Tanto el nivel educativo como la inteligencia pueden influir en los ingresos sin que el nivel educativo y los ingresos se encuentren correlacionados.

Una senda que solamente incluya cadenas (inteligencia–>calificaciones escolares–>nivel educativo–>ingresos) puede transmitir una asociación causal. En esas cadenas, las variables afectadas causalmente, directa o indirectamente, por una determinada variable, se denominan ‘descendientes’. Por el contrario, las variables que afectan, directa o indirectamente, a una determinada variable, se denominan ‘ancestros’.

Rohrer califica de ‘perdición de los datos observacionales’ al problema de la confusión, es decir, la presencia de una causa común que acecha a la causa potencial de interés (la variable independiente, que suele denominarse ‘tratamiento’ en los estudios experimentales, y la variable dependiente, es decir, el resultado de interés).

En los ejemplos vistos hasta ahora, la inteligencia y las calificaciones no son las únicas causas del nivel educativo, por lo que puede ser necesario considerar otras variables dirigidas hacia ese nivel educativo:

“La correlación del nivel educativo con los ingresos es una mezcla de efectos causales verdaderos (el nivel educativo influye en los ingresos) y otras asociaciones no causales que se transmiten por sendas que provienen de ‘puertas traseras’ (sendas que comienzan con una flecha que se dirige hacia la variable independiente y terminan con una flecha que se dirige hacia la variable dependiente)”.

El control estadístico puede usarse para bloquear esas puertas traseras. Si el DAG de la Figura 2 recoge adecuadamente las conexiones causales, controlar la inteligencia sería suficiente para identificar el efecto causal del nivel educativo sobre los ingresos, puesto que así se bloquearían todas las puertas traseras: “si se desea controlar una determinada variable, entonces debe medirse”.

¿Y cómo se debe controlar una variable?

Una de las cuestiones que discute la autora a este respecto recurre al hecho de que “saber que todos los rasgos psicológicos son hasta cierto punto heredables tiene consecuencias para establecer inferencias causales”. En la Figura 3, por ejemplo, saber si las muestras de afecto de las madres influyen causalmente en las tendencias depresivas posteriores de sus retoños, exige bloquear la puerta trasera que conecta la conducta de las madres con las tendencias depresivas de sus hijos a través de las predisposiciones genéticas.

La senda que conecta los genes de las madres y de sus niños se puede bloquear considerando exclusivamente niños adoptados, puesto que no existirá conexión genética entre ellos.

Otra solución supone comparar individuos similares en un gran número de variables: gemelos (“los gemelos idénticos son de especial interés para establecer inferencias causales, aunque el investigador no tenga ningún interés en la genética”). Si se encuentra una asociación en pares de gemelos idénticos, no se podrá atribuir a factores genéticos o al ambiente familiar que provoquen confusión, puesto que esas covariables se habrán controlado por el propio diseño.

En un estudio del equipo de Eric Turkheimer se calculó la asociación entre religiosidad y delincuencia en parejas de gemelos idénticos. El resultado fue que el gemelo más religioso no presentaba una tendencia, mayor o menor, a la delincuencia que el menos religioso: “si la religiosidad influyera sobre la delincuencia, debería observarse una asociación al controlar el ambiente familiar y los genes”.

El siguiente punto que se considera hace referencia al uso de covariables bajo el supuesto de que cuantas más se tengan en cuenta más razonable será extraer consecuencias causales. No obstante, los factores de confusión influyen causalmente sobre la variable independiente, pero los ‘colisionadores’ y los ‘mediadores’ están influidos causalmente por esa variable independiente.

En un DAG, el colisionador es la variable que se sitúa en medio de una bifurcación invertida (A–>B<–C). Esa variable suele bloquear una senda, pero al controlar esa variable puede manifestarse una asociación espuria entre A y C. Por ejemplo, se puede estar interesado en realizar un estudio longitudinal para averiguar si los problemas de salud influyen en la satisfacción laboral. Primero se evalúa la salud y posteriormente la satisfacción. La diferencia temporal en la evaluación anima al investigador a establecer una inferencia causal. Sin embargo, los participantes pueden ir abandonando el estudio selectivamente (algunos por problemas de salud, otros porque su ocupación era demasiado estresante). Al analizar los datos de los participantes que permanecen en el estudio, el abandono selectivo puede producir una asociación espuria entre problemas de salud y una ocupación estresante. Ambos factores pueden promover el abandono. Quienes tienen problemas de salud pueden permanecer en el estudio si sus ocupaciones no son estresantes y quienes tienen una ocupación estresante pueden permanecer en el estudio si su salud es de hierro (Figura 4).

El control de variables es verdaderamente peligroso porque puede eliminar la asociación de interés. Se puede reconsiderar la Figura 1 añadiendo la posibilidad de que el nivel educativo influya en la inteligencia adulta. También se puede añadir la variable ‘U’ (alguna variable que influya tanto a la inteligencia adulta como a los ingresos, en potencia algo inobservable) (Figura 5).

Se debe controlar la inteligencia en la infancia porque es un claro factor de confusión. No obstante, la pregunta es si se debe o no controlar la inteligencia adulta. Esa inteligencia adulta es un ‘mediador’ de los efectos del nivel educativo sobre los ingresos. Es un nodo en la senda causal entre esas variables. Si se asignase al azar a los individuos a distintas sendas educativas, esa manipulación también afectaría a la inteligencia, lo que a su vez afectaría a los ingresos. Al controlar la inteligencia adulta se bloquearía esa senda causal genuina, por lo que se subestimarían los efectos positivos de graduarse en la universidad:

“Si interesa calcular la magnitud de un efecto causal, no se deberían controlar las variables mediadoras, es decir, los mecanismos que dirigen el efecto. Por extensión, no se debe controlar a los descendientes de una variable mediadora”.

En la Figura 5, la inteligencia adulta es un ‘colisionador’ con respecto al nivel educativo y a U. Si se controla la inteligencia adulta, se introduce una asociación no causal entre sus dos causas (nivel educativo<–>U). Eso abre una puerta trasera (nivel educativo<–>U–>ingresos) lo que potencialmente introduce una asociación no causal:

“Si el objetivo es estimar el efecto directo de la graduación universitaria sobre los ingresos, deben bloquearse todas las puertas traseras que se abrieron al condicionar el análisis sobre la variable mediadora.”

Este problema de mediación también se manifiesta en los estudios experimentales, salvo que la propia variable mediadora se haya aleatorizado. Esa asignación aleatoria con respecto a la variable independiente descarta las puertas traseras que puedan existir entre las variables independientes y dependientes, pero siguen presentes entre el mediador y la variable dependiente.

Rohrer concluye su artículo subrayando que establecer causalidad a partir de correlaciones es bastante complejo. Complejo, pero no imposible.

La teoría es relevante para delimitar qué se debe medir para ayudar en ese proceso. Eso si, no hay métodos mejores o peores. La pregunta de cuál es el método más adecuado para establecer causalidad con respecto a una determinada pregunta (experimento aleatorizado, experimento natural o estudio observacional) se debe responder caso a caso. No hay una consigna general:

“La actuación de un mecanismo plausible puede ser una buena razón para no necesitar un experimento aleatorizado para llegar a la conclusión de que el uso de paracaídas durante la caída libre reduce la mortalidad

(…) los diferentes diseños de investigación no son ni intercambiables ni rivales, sino que contribuyen con información genuina para ayudar a responder preguntas compartidas.

Las conclusiones causales más convincentes son las que resultan apoyadas por distintos diseños”.

-----

Fuente: https://robertocolom.wordpress.com/2019/10/11/pensando-con-claridad-sobre-la-correlacion-y-la-causalidad/?fbclid=IwAR3alUOYaG8FOx8v8uw1sf89gDyweLxhaokyEHbIq3N59NxpP7F-unOdWhM

Los comentarios salvajes

domingo, 27 de octubre de 2019

Pensando con claridad sobre la correlación y la causalidad, por Roberto Colom

No hay comentarios:

Publicar un comentario

Entradas populares