Comment lire les graphiques de distance de Cook?

40

Est-ce que quelqu'un sait comment déterminer si les points 7, 16 et 29 sont des points d'influence ou non? J'ai lu quelque part que parce que la distance de Cook est inférieure à 1, ils ne le sont pas. Ai-je raison?

entrez la description de l'image ici

Platypezid
la source
1
Il y a différentes opinions. Certaines d'entre elles concernent le nombre d'observations ou le nombre de paramètres. Celles-ci sont esquissées à l' adresse fr.wikipedia.org/wiki/… .
whuber
@ Whuber Merci. Il s’agit toujours d’une zone grise lors de l’exploration de données pour moi. Le point de données 16 ci-dessus influence massivement les résultats du modèle, augmentant ainsi les erreurs de type I.
Platypezid
2
On pourrait faire valoir que cela augmente également les erreurs de "type III", qui sont (génériquement et informellement) des erreurs liées à l'inapplicabilité du modèle de probabilité sous-jacent.
whuber
@whuber oui, très vrai!
Platypezid

Réponses:

43

Certains textes vous indiquent que les points pour lesquels la distance de Cook est supérieure à 1 doivent être considérés comme influents. D'autres textes vous donnent un seuil de ou , où est le nombre d'observations et le nombre de variables explicatives. Dans votre cas, cette dernière formule devrait donner un seuil autour de 0,1.4 / ( N - k - 1 ) N k4/N4/(N-k-1)Nk

John Fox (1), dans son livret sur le diagnostic de régression, est plutôt prudent lorsqu'il s'agit de définir des seuils numériques. Il conseille d'utiliser des graphiques et d'examiner plus en détail les points avec "des valeurs de D considérablement plus grandes que les autres". Selon Fox, les seuils ne devraient être utilisés que pour améliorer les affichages graphiques.

Dans votre cas, les observations 7 et 16 pourraient être considérées comme influentes. Eh bien, je voudrais au moins les regarder de plus près. L'observation 29 n'est pas substantiellement différente de quelques autres observations.


(1) Fox, John. (1991). Diagnostics de régression: une introduction . Sage Publications.


la source
9
+1 Effacer le résumé. J'ajouterais que les cas d'influence ne posent généralement pas de problème lorsque leur suppression de l'ensemble de données laisse essentiellement les estimations de paramètres inchangées: celles dont nous nous inquiétons sont celles dont la présence modifie réellement les résultats.
whuber
1
@lejohn Très reconnaissant de votre réponse. Whuber est juste une excellente clarté dans votre réponse. C'est très instructif. Puis-je vous suggérer de mettre en évidence Fox et vos opinions dans la page wikipedia!
Platypezid
29

+1 à la fois @lejohn et @whuber. Je voulais développer un peu le commentaire de @ whuber. La distance de Cook peut être contrastée avec dfbeta. La distance de Cook indique la distance moyenne parcourue par les valeurs de y prévues si l'observation en question est supprimée de l'ensemble de données. dfbeta fait référence à l'ampleur de la modification d' une estimation de paramètre si l'observation en question est supprimée de l'ensemble de données. Notez qu'avec covariables, il y aura dfbetas (l'interception, et 1 pour chaque covariable). La distance de Cook est probablement plus importante pour vous si vous utilisez une modélisation prédictive, alors que dfbeta est plus important dans la modélisation explicative. k + 1 β 0 βkk+1β0β

Il y a un autre point à souligner ici. Dans la recherche observationnelle, il est souvent difficile d’échantillonner de manière uniforme l’espace de prédicteur, et vous pouvez ne disposer que de quelques points dans une zone donnée. De tels points peuvent diverger du reste. Avoir quelques cas distincts peut être déconcertant, mais mérite d’être longuement réfléchi avant d’être relégué au second plan. Il peut exister légitimement une interaction entre les prédicteurs ou le système peut adopter un comportement différent lorsque les valeurs des prédicteurs deviennent extrêmes. En outre, ils peuvent vous aider à démêler les effets des prédicteurs colinéaires. Les points d'influence pourraient être une bénédiction déguisée.

gung - Rétablir Monica
la source
6
+1 "La distance de Cook est probablement plus importante pour vous si vous faites de la modélisation prédictive, alors que dfbeta est plus important dans la modélisation explicative": c'est un conseil très utile.
Anne Z.
Salut - discussion intéressante. Mais ne pourrait-il pas être rationnel d’intégrer une variable muette pour mesurer l’effet de, par exemple, l’observation 16?
Pantera
@Pantera J'ai retiré 16 modèles et comparé les modèles antérieurs et postérieurs à la mise en service
Platypezid
Bonjour. Si vous supprimez des observations, vous devez vous assurer que vous disposez du "bon" argument pour le faire, par exemple, que l'observation est mal mesurée. Si nous rejetons l'observation parce qu'ils ne font que créer des problèmes statistiques, nous approchons de l'extraction de données.
Pantera