La validation croisée peut-elle être utilisée pour l'inférence causale?

37

Dans tous les contextes, je suis familier avec la validation croisée, elle est uniquement utilisée dans le but d'accroître la précision prédictive. La logique de la validation croisée peut-elle être étendue en estimant les relations non biaisées entre les variables?

Bien que cet article de Richard Berk montre l’utilisation d’un échantillon à conserver pour la sélection de paramètres dans le modèle de régression "final" (et montre pourquoi la sélection de paramètres par étapes n’est pas une bonne idée), je ne vois toujours pas comment cela garantirait Les estimations non biaisées de l'effet X sur Y ne le sont pas davantage que le choix d'un modèle basé sur la logique et la connaissance préalable du sujet.

Je demande aux gens de citer des exemples dans lesquels on a utilisé un échantillon retenu pour faciliter l'inférence causale ou des essais généraux qui pourraient m'aider à mieux comprendre. Je ne doute pas non plus que ma conception de la validation croisée soit naïve, et donc, si c'est le cas. Il semble que l'utilisation d'un échantillon de réserve soit susceptible d'une inférence causale, mais je ne connais aucun travail qui fasse ceci ou comment il le ferait.

Citation pour le papier Berk:

Inférence statistique après sélection du modèle par: Richard Berk, Lawrence Brown, Linda Zhao Journal of Quantitative Criminology, Vol. 26, no 2. (1er juin 2010), p. 217-236.

Version PDF ici

Cette question sur l'analyse exploratoire de données dans de petites études par chl a suscité cette question.

Andy W
la source

Réponses:

19

Je pense qu'il est utile d'examiner ce que nous savons de la validation croisée. Les résultats statistiques sur les CV se répartissent en deux classes: efficacité et cohérence.

L'efficacité est ce qui nous préoccupe généralement lorsque nous construisons des modèles prédictifs. L'idée est que nous utilisons CV pour déterminer un modèle avec des garanties asymtptotiques concernant la fonction de perte. Le résultat le plus célèbre ici est dû à Stone 1977 et montre que LOO CV est asymptotiquement équivalent à AIC. Mais Brett fournit un bon exemple dans lequel vous pouvez trouver un modèle prédictif qui ne vous informe pas sur le mécanisme causal.

k/n1n

Y=βX+eYX

Peut-être pourriez-vous dire que CV peut aider à l'inférence causale en identifiant le vrai modèle (à condition que vous puissiez satisfaire aux critères de cohérence!). Mais cela ne vous mène que jusqu'à présent; CV en soi ne fait aucun des travaux dans l'un ou l'autre cadre d'inférence causale.

Si vous souhaitez en savoir plus sur ce que l'on peut dire avec la validation croisée, je recommanderais Shao 1997 au document de 1993 largement cité:

Vous pouvez parcourir les principaux résultats, mais il est intéressant de lire la discussion qui suit. Je pensais que les commentaires de Rao & Tibshirani et de Stone étaient particulièrement perspicaces. Mais notez que, même s’ils discutent de cohérence, aucune prétention n’est faite concernant la causalité.

ars
la source
Merci pour toutes les références, en particulier les réponses de Judea Pearl (je
Andy W
1
Les commentaires pour les votes négatifs sont toujours les bienvenus!
chl
18

C'est une question très intéressante et je ne propose pas de citations spécifiques. Cependant, en général, je dirais que NON, en soi, la validation croisée n'offre aucun aperçu de la causalité. En l'absence d'une expérience conçue, la question de la causalité est toujours incertaine. Comme vous le suggérez, la validation croisée peut et va améliorer la précision prédictive. Cela seul ne dit rien sur la causalité.

En l'absence d'expérience expérimentale, l'inférence causale nécessiterait un modèle incluant tous les prédicteurs pertinents - ce que nous pouvons rarement garantir dans une étude d'observation. De plus, une simple variable de décalage, par exemple (ou tout élément fortement corrélé avec le résultat que nous essayions de prédire), produirait un bon modèle et un modèle pouvant être validé dans plusieurs échantillons. Cela ne signifie toutefois pas que nous pouvons en déduire une causalité. La validation croisée assure la répétabilité dans les prédictions et rien de plus. La causalité est une question de conception et de logique.

EDIT: Voici un exemple pour illustrer. Je pourrais construire un modèle avec une bonne précision prédictive qui prédit la population d'une ville en fonction de l'argent que la ville dépense pour l'enlèvement des ordures. Je pourrais utiliser la validation croisée pour tester la précision de ce modèle, ainsi que d'autres méthodes pour améliorer la précision des prévisions et obtenir des paramètres plus stables. Maintenant, alors que ce modèle fonctionne très bien pour la prédiction, la logique causale est fausse - la direction causale est inversée. Quoi que puissent en dire les gens du Département des travaux publics, augmenter leur budget pour l'enlèvement des ordures ne serait pas une bonne stratégie pour augmenter la population de la ville (interprétation causale).

Les problèmes d’exactitude et de répétabilité d’un modèle sont distincts de notre capacité à tirer des conclusions causales sur les relations que nous observons. La validation croisée nous aide avec le premier et non avec le second. Maintenant, si nous estimons un modèle "correct" en termes de spécification d’une relation occasionnelle (par exemple, nous essayons de déterminer le budget que nous aurons pour la suppression des ordures devrait être basé sur notre population attendue l’année prochaine), la validation croisée peut nous aider à avoir une meilleure confiance dans notre estimation de cet effet. Cependant, la validation croisée ne nous aide pas à choisir le modèle "correct" en ce qui concerne les relations causales. Là encore, nous devons nous fier à la conception de l’étude, à notre expertise en la matière, à notre théorie et à notre logique.

Brett
la source
1
Donc, vous ne pensez pas que les estimations de répétabilité dans les effets peuvent être utiles? Bien que vous ne soyez pas seul dans votre conception de ce qu'est la preuve de causalité, je pense qu'elle est assez étroite. Nous ne pourrons jamais prouver indéfiniment une relation de cause à effet, même avec une expérience, en l'absence de toute évidence dans l'univers. Par conséquent, à mon avis, l’objectif est de prouver que toute relation que nous estimons est aussi proche de la vérité que l’information que nous connaissons. Étant donné que vous ne pensez pas que la répétabilité dans la prédiction d'un ensemble d'entraînement à un échantillon retenu pourrait être un moyen utile de vérifier les déductions faites?
Andy W
J'apprécie également vos commentaires et je suis tout à fait d’accord pour dire que les inférences dépendent fortement de la logique et de la conception de la recherche.
Andy W
1
Andy, j'ai édité mon post pour répondre à vos commentaires. De plus, je ne veux pas dire que l'inférence causale ne peut pas être faite en dehors du contexte d'une expérience conçue. Néanmoins, les études par observation sont plus difficiles et moins sûres et nous ne devrions pas chercher à modéliser les procédures de construction pour nous aider à résoudre ce problème. Nous devrions plutôt essayer de mieux comprendre les problèmes pour lesquels nous essayons de comprendre les relations causales.
Brett
Je suis d’accord avec à peu près tout ce que vous dites, sauf que des questions d’exactitude et de répétabilité sont essentielles pour tirer des conclusions correctes en cas de doute. Je peux donner aux experts le bénéfice du doute qu'ils construisent des modèles logiques. Ce qui me préoccupe est la répétabilité des résultats dans de nombreux contextes d’observation. Bien que je convienne que la répétabilité ne tient pas nécessairement compte des influences confusionnelles qui sont mieux traitées dans les environnements expérimentaux.
Andy W
(+1) Mes excuses. Il semble que j'ai aussi oublié de faire passer votre très bonne réponse. Déjà voté vos commentaires utiles.
chl
13

Il me semble que votre question aborde plus généralement différentes formes de validation pour un modèle prédictif: la validation croisée est un peu plus liée à la validité interne , ou du moins à l'étape de la modélisation initiale, alors que l'établissement de liens de causalité sur une population plus large est davantage lié à validité externe. Par cela (et comme mise à jour à la suite de la belle remarque de @ Brett), je veux dire que nous construisons habituellement un modèle sur un échantillon de travail, en supposant un modèle conceptuel hypothétique (c’est-à-dire que nous spécifions les relations entre les prédicteurs et les résultats d’intérêt), et nous essayons d'obtenir des estimations fiables avec un taux d'erreur de classification minimal ou une erreur de prédiction minimale. Espérons que plus le modèle fonctionnera bien, plus il nous permettra de prévoir les résultats sur des données invisibles; Cependant, CV ne dit rien sur la "validité" ou l'adéquation des liens de causalité hypothétiques. Nous pourrions certainement obtenir des résultats décents avec un modèle où certains effets de modération et / ou de médiation sont négligés ou simplement inconnus à l’avance.

Mon point est que quelle que soit la méthode que vous utilisez pour valider votre modèle (et que la méthode d'externalisation n'est certes pas la meilleure, elle est néanmoins largement utilisée dans les études épidémiologiques pour atténuer les problèmes posés par la construction de modèle par étapes), vous travaillez avec le même échantillon. (que nous supposons être représentatif d'une population plus grande). Au contraire, les études de réplication permettent généralement de généraliser les résultats et les liens de causalité induits de cette manière à de nouveaux échantillons ou à une population apparentée de manière plausible . Cela garantit que nous pouvons tester en toute sécurité la capacité prédictive de notre modèle dans une "superpopulation" qui présente un plus grand éventail de variations individuelles et peut également présenter d'autres facteurs d'intérêt potentiels.

Votre modèle peut fournir des prévisions valables pour votre échantillon de travail et inclut tous les facteurs de confusion potentiels auxquels vous pourriez avoir pensé. Cependant, il est possible que les nouvelles données ne donnent pas de bons résultats, simplement parce que d'autres facteurs apparaissent dans le chemin causal intermédiaire qui n'ont pas été identifiés lors de la construction du modèle initial. Cela peut se produire si certains des prédicteurs et les liens de causalité qui en sont déduits dépendent du centre d’essai particulier où les patients ont été recrutés, par exemple.

En épidémiologie génétique, de nombreuses études d'association pangénomiques échouent simplement parce que nous essayons de modéliser des maladies complexes avec une vue trop simpliste des relations de cause à effet entre les marqueurs ADN et le phénotype observé, alors qu'il est très probable que gène-gène (épistase), Les maladies géniques (pléiotropie), gène-environnement et sous-structure de population entrent en jeu, mais voir par exemple Valider, augmenter et affiner les signaux d'association pangénomiques(Ioannidis et al., Nature Reviews Genetics, 2009 10). Ainsi, nous pouvons construire un modèle performant pour prendre en compte les variations croisées observées entre un ensemble de marqueurs génétiques (avec une taille d’effet très faible et éparse) et un motif multivarié de phénotypes observés (par exemple, le volume de matière blanche / grise Des activités localisées dans le cerveau observées par IRMf, des réponses à une évaluation neuropsychologique ou à un inventaire de la personnalité), ne se déroulent pas comme prévu sur un échantillon indépendant.

En ce qui concerne une référence générale à ce sujet, je peux recommander le chapitre 17 et la partie III des modèles de prédiction clinique , de EW Steyerberg (Springer, 2009). J'aime aussi l'article suivant de Ioannidis:

Ioannidis, JPA, Pourquoi les résultats de recherche les plus publiés sont-ils faux? PLoS Med. 2005 2 (8): e124

chl
la source
1
@chl: Pouvez-vous expliquer votre déclaration dans le premier paragraphe sur la validité interne et externe? Dans la tradition que je connais bien: la validité interne fait référence à la capacité d’affirmer des relations de cause à effet entre les variables d’un échantillon donné; La validité externe concerne la possibilité de généraliser à partir d'un échantillon à d'autres personnes, lieux et heures. Traditionnellement, la validation croisée concerne cette dernière solution et donc selon la définition ci-dessus de la validité externe, alors que vous indiquez qu'il s'agit de la validité interne. Ai-je mal compris votre déclaration?
Brett
1
@Brett Je pensais au CV comme une technique statistique pour éviter les surajustements ou pour fournir une mesure de la précision de la prédiction sur l'échantillon de travail (donc pas nécessairement comme un outil dédié pour démontrer la validité interne). Je n'étais pas très clair, merci ou pointant cela. Je conviens que cela est ensuite utilisé pour généraliser l'échantillon, mais je pense que cela n'a rien à voir avec l'inférence causale (le CV ne prouve rien sur les liens de causalité modelés sur l'échantillon de travail). Je partage votre point de vue sur la validité externe, mais pour le démontrer, nous avons besoin d'autres échantillons, non?
chl
1
Vous pourriez clarifier ce premier paragraphe. Je pense que vous essayez de dire que le CV ne fait pas de validité interne. Cela concerne d'autres processus. Mais, si nous avons une bonne validité interne pour d'autres raisons, peu importe la raison, CV aidera à estimer cet effet avec plus de précision selon les personnes, les lieux et les moments - c'est-à-dire à améliorer la validité externe. Je ne vois toujours pas comment CV pourrait nous aider à formuler des affirmations causales sur les relations entre variables - la question de la validité interne elle-même - uniquement pour aider à généraliser une relation de cause à effet établie.
Brett
1
@Brett Je pense que vos commentaires sur cette question sont très pertinents et résument très bien certaines des questions. Je doute que la confusion entre la validité interne et la validité externe puisse être dissipée, mais l'exemple d'épidémiologie génétique de chl est en réalité un problème de validité interne et non de validité externe (sauf entre l'hétérogénéité des ensembles de données (ou la sous-structure de la population), moins préoccupante que la validité interne dans ces exemples).
Andy W
2
La définition de Brett entre la validité interne et la validité externe est exacte, mais elle nous aidera à la définir en termes différents. La validité externe ne concerne que l’échantillon et son lien avec d’autres populations. La validité interne concerne divers aspects des effets estimés et des concepts utilisés pour estimer ces effets.
Andy W
12

C'est une bonne question, mais la réponse est certainement non: la validation croisée n'améliorera pas l'inférence causale. Si vous avez une cartographie des symptômes et des maladies, la validation croisée vous aidera à vous assurer que votre modèle correspond mieux à la répartition de leurs articulations que si vous aviez simplement ajusté votre modèle à l'ensemble des données brutes, mais il ne peut jamais vous en dire plus. la directionnalité de la causalité.

La validation croisée est très importante et mérite d’être étudiée, mais elle ne vous empêche pas de surcharger votre ensemble de données. Si vous souhaitez mieux comprendre, je suggérerais le chapitre 7 d'ESL: http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf

John Myles White
la source
Merci pour la référence. Supposons donc que vous n'êtes pas préoccupé par la sélection du modèle. Une validation croisée des estimations de l'effet du jeu de données d'apprentissage sur le jeu de données en attente pourrait-elle être utile?
Andy W
Ce pourrait être le cas, mais je dirais que vous procédez essentiellement à l’amorçage (ou à une variante de celui-ci) à ce stade.
John Myles White
Je suis d’accord, je pense et j’estime qu’il ya d’autres choses régulièrement effectuées qui reflètent ce même type de logique (comme des tests de spécificité de sous-ensembles ou des variables dépendantes non équivalentes). J'ai simplement posé la question parce que j'imaginais qu'il existait des traitements plus formels.
Andy W
Les commentaires pour les votes négatifs sont toujours les bienvenus!
chl
Ce livre est le cadeau qui continue à donner!
hayd
6

Pour répondre à la suite @Andy posté comme une réponse ici ...

Bien que je ne puisse pas dire quelle estimation est correcte et laquelle est fausse, l’incohérence des estimations de la condamnation pour agression et de la condamnation pour arme à feu entre les deux modèles ne laisse toutefois présumer que l’un ou l’autre a un effet causal réel sur la durée de la peine?

Je pense que ce que vous voulez dire, c’est que la divergence entre les estimations de paramètres nous donne des raisons de croire qu’aucune de ces estimations ne représente le véritable effet de causalité. Je suis d’accord avec cela, bien que nous ayons déjà beaucoup de raisons d’être sceptiques sur le fait qu’un tel modèle rendrait le véritable effet causal.

Voici ce que je pense : le sur-ajustement des données est une source d'estimations paramétriques biaisées, et sans aucune raison de croire que ce biais compense les autres sources de biais dans l'estimation d'un effet causal particulier, il doit donc être mieux, en moyenne, d'estimer les effets causaux. sans surajustement des données. La validation croisée évite les sur-ajustements et devrait donc, en moyenne, améliorer les estimations des effets de causalité.

Mais si quelqu'un essaie de me convaincre de croire son estimation d'un effet causal à partir de données d'observation, il est peu prioritaire de prouver que ses données ne sont pas sur-ajustées, sauf si j'ai de bonnes raisons de penser que leur stratégie de modélisation est susceptible d'avoir sur-ajustement.

Dans les applications de sciences sociales avec lesquelles je travaille, je suis beaucoup plus préoccupé par les problèmes de fond, les problèmes de mesure et les contrôles de sensibilité. Par contrôles de sensibilité, j'entends l'estimation des variations sur le modèle dans lequel les termes sont ajoutés ou supprimés, et l'estimation des modèles avec des interactions permettant à l'effet recherché de varier d'un sous-groupe à l'autre. Dans quelle mesure ces modifications du modèle statistique affectent-elles l'estimation du paramètre que nous voulons interpréter de manière causale? Les divergences dans cette estimation de paramètre entre les spécifications de modèle ou les sous-groupes du modèle sont-elles compréhensibles en termes de causalité que vous essayez de raconter, ou font-elles allusion à un effet dicté par, par exemple, la sélection.

En fait, avant d'exécuter ces spécifications alternatives. Ecrivez comment vous pensez que votre estimation de paramètre va changer. C’est génial si votre estimation de paramètre d’intérêt ne varie pas beaucoup selon les sous-groupes, ni les spécifications - dans le contexte de mon travail, c’est plus important que la validation croisée. Mais d'autres questions de fond affectant mon interprétation sont encore plus importantes.

Michael Bishop
la source
Merci beaucoup pour votre aide! Votre perspective donne certainement une motivation très directe à la validation croisée dans des modèles causaux que je n'avais jamais formulés de manière convaincante. IMO votre même vendre vous-même un peu court en utilisant l'étiquette de sur-ajustement. Par exemple, dans l'ensemble exploratoire initial, je peux examiner l'ajustement du modèle entre les équations en utilisant une variable indépendante à l'échelle initiale par rapport à l'échelle logarithmique. Je décide que le modèle avec une échelle de log s'adapte mieux, puis je l'utilise dans le modèle en attente. Cela ne serait généralement pas considéré comme un sur-ajustement (choix entre l'un ou l'autre), suite ...
Andy W
mais reste tout à fait dans le paradigme que vous avez suggéré dans votre paragraphe voici mon article.
Andy W
5

Je remercie tout le monde pour leurs réponses, mais la question est devenue une question à laquelle je n’avais pas l’intention, principalement un essai sur la notion générale d’inférence causale sans bonne réponse.

Au départ, je voulais que la question interroge le public à la recherche d'exemples d'utilisation de la validation croisée pour l'inférence causale. J'avais supposé que de telles méthodes existaient, car l'idée d'utiliser un échantillon test et de retenir un échantillon pour évaluer la répétabilité des estimations d'effet me semblait logique. Comme John l'a fait remarquer, ce que je suggérais n'est pas si différent de l'amorçage, et je dirais que cela ressemble à d'autres méthodes que nous utilisons pour valider des résultats tels que les tests de spécificité de sous-ensembles ou les variables dépendantes non équivalentes (l'amorce assouplit les hypothèses paramétriques des modèles et les tests de manière plus générale servent à vérifier que les résultats sont logiques dans des situations variées). Aucune de ces méthodes ne satisfait aux normes de preuve pour l'inférence causale, mais je pense qu'elles sont toujours utiles pour l'inférence causale.

Le commentaire de chl est correct en ce que mon affirmation concernant l'utilisation de la validation croisée est une vérification de la validité interne facilitant l'inférence causale. Mais je demande que nous jetions la distinction entre validité interne et validité externe pour le moment, car cela ne fait rien pour faire avancer le débat. L'exemple de chl concernant les études épidémiologiques à l'échelle du génome Je considérerais comme un excellent exemple de faible validité interne, faisant de fortes déductions intrinsèquement douteuses. Je pense que les études d'association du génome sont en fait un exemple de ce que j'ai demandé. Pensez-vous que les inférences entre gènes et maladie sont améliorées grâce à l'utilisation de la validation croisée (par opposition à simplement jeter tous les marqueurs dans un modèle et à ajuster les valeurs p en conséquence?)

Ci-dessous, j'ai collé une copie d'un tableau de l'article de Berk que j'ai cité dans ma question. Bien que ces tableaux démontrent la fausse logique d’utilisation de critères de sélection par étapes et d’inférences causales sur le même modèle, supposons qu'aucun critère de sélection de modèle n’a été utilisé et que les paramètres à la fois de la formation et de l’échantillon ont été déterminés a priori.. Cela ne me semble pas être un résultat irréaliste. Bien que je ne puisse pas dire quelle estimation est correcte et laquelle est fausse, l’incohérence des estimations de la condamnation pour agression et de la condamnation pour arme à feu entre les deux modèles ne laisse toutefois présumer que l’un ou l’autre a un effet causal réel sur la durée de la peine? Est-ce que connaître cette variation n'est pas utile? Si nous ne perdons rien en ayant un échantillon en attente pour tester notre modèle, pourquoi ne pouvons-nous pas utiliser la validation croisée pour améliorer l'inférence causale (ou je manque ce que nous perdons en utilisant un échantillon en attente?) texte alternatif

Andy W
la source
1
Une note sur les raisons pour lesquelles cela a été voté serait appréciée.
Andy W
2
J'appuierai @Andy et suggérerai de laisser un commentaire lorsque vous voterez à la baisse: il est toujours utile de savoir ce qui ne va pas, le cas échéant. Surtout dans ce cas: Andy W est revenu avec des commentaires étendus qui, à mon avis, viennent étayer davantage la question initiale. Il n'y a pas besoin de baisser la voix ici!
chl
1
L'intervalle standard d'erreur / de confiance ne vous donne-t-il pas déjà cette indication de variabilité? les estimations de votre jeu d’essais sont contenues dans les intervalles de confiance standard de votre jeu d’entraînement. J'aurais pensé que de petites erreurs types et des IC étroits sont importants pour la causalité.
probabilitéislogique
Oui @probabilityislogic vous avez raison. Je crois que lorsque j'ai expliqué ce point, cela ne visait pas une situation dans laquelle vous appliquez un CV à un jeu de données déjà disponible, mais à un jeu de données rassemblé à un autre moment. Je pensais que CV pourrait être utile ici pour renforcer les déclarations de cause à effet, mais ce n'est toujours pas clair pour moi si tel est le cas. Je l’ai seulement vue être considérée comme utile en termes de sélection de modèle, sans aucune validation du modèle (par exemple, mon modèle sur cette nouvelle donnée produit un ajustement très proche).
Andy W
1

J'imagine que c'est une façon intuitive de penser à la relation entre CV et inférence causale: (corrigez s'il vous plaît si je me trompe)

Je pense toujours au CV comme un moyen d’évaluer la performance d’un modèle dans les prévisions. Cependant, dans l'inférence causale, nous sommes plus concernés par quelque chose d'équivalent au rasoir d'Occam (parcimonie), donc le CV ne va pas aider.

Merci.

suncoolsu
la source
La raison pour laquelle j'ai posé la question est parce que nous n'avons pas à penser à la validation croisée comme un moyen uniquement d'évaluer la capacité prédictive des modèles. Il n'est pas rare de craindre que les résultats d'un modèle (et donc des inférences) soient des artefacts pour de nombreuses raisons potentielles. Par conséquent, nous voulons examiner la robustesse des résultats et j’ai pensé que la validation croisée pourrait être un contexte utile pour examiner la robustesse des résultats.
Andy W
désolé pour la mauvaise interprétation.
suncoolsu
Pas besoin d'excuses. Je suis celui qui suggère quelque chose d'apparentement marginal et la validation croisée est apparemment toujours utilisée dans le contexte que vous suggérez.
Andy W
@suncoolsu, quand je pense à l'inférence causale, je ne m'inquiète jamais du rasoir d'Occam ou de son paradoxe, pourriez-vous m'expliquer le lien?
Michael Bishop