Quand peut-on parler de colinéarité

16

Dans les modèles linéaires, nous devons vérifier s'il existe une relation entre les variables explicatives. S'ils sont trop corrélés, il y a colinéarité (c'est-à-dire que les variables s'expliquent en partie). Je regarde actuellement la corrélation par paire entre chacune des variables explicatives.

Question 1: Qu'est - ce qui qualifie trop de corrélation? Par exemple, une corrélation de Pearson de 0,5 est-elle trop?

Question 2: Pouvons-nous déterminer pleinement s'il existe une colinéarité entre deux variables en fonction du coefficient de corrélation ou cela dépend-il d'autres facteurs?

Question 3: Une vérification graphique du nuage de points des deux variables ajoute-t-elle quelque chose à ce qu'indique le coefficient de corrélation?

Stefan
la source
2
La colinéarité (singularité) entre 3+ variables n'est pas réduite uniquement à des corrélations par paires élevées. Recherchez sur le site des questions marquées "multicollinéarité". Aussi, je vous recommande de lire ceci ma réponse: stats.stackexchange.com/a/70910/3277 .
ttnphns

Réponses:

3

Ma vision des trois questions est

Question 1 Qu'est-ce qui qualifie trop de corrélation? Par exemple: une corrélation Pearson de 0,5 est-ce trop?

De nombreux auteurs soutiennent que la (multi-) colinéarité n'est pas un problème. Jetez un œil ici et ici pour une opinion plutôt acide sur le sujet. L'essentiel est que la multicolinéarité n'a pas d'impact sur le test d'hypothèse autre que d'avoir une taille d'échantillon inférieure (efficace). Il vous sera difficile d'interpréter les coefficients de régression si vous effectuez une régression, par exemple, mais vous ne violez aucune hypothèse de base si vous choisissez de le faire.

Question 2 Peut-on déterminer pleinement s'il existe une colinéarité entre deux variables en fonction du coefficient de corrélation ou est-ce que cela dépend d'autres facteurs?

Je pense qu'il existe plusieurs façons de mesurer la corrélation entre deux variables, du calcul du coefficient de corrélation de Pearson (si vous supposez la linéarité, et apparemment vous l'avez fait), au rang de Spearman , à la corrélation de distance et même à la PCA sur votre jeu de données. Mais je laisserais la réponse à cette question à des gens mieux informés que moi.

Question 3 Une vérification graphique du diagramme de dispersion des deux variables ajoute-t-elle quelque chose à ce qu'indique le coefficient de corrélation?

OMI, la réponse est non.

pedrofigueira
la source
3
À mon humble avis, la réponse à (3) est au contraire un très fort oui: alors que le coefficient de corrélation ne peut donner qu'une seule évaluation numérique de la linéarité d'une relation, un rapide coup d'œil au nuage de points fournira une mine d'informations supplémentaires à ce sujet. relation, y compris les comportements qui n'étaient pas attendus à l'avance. Cependant, le véritable intérêt pour cet ensemble de questions réside dans la façon d'évaluer les relations entre trois variables ou plus (malgré la façon dont (3) a été formulé), et dans ce cas, même une matrice de nuage de points ne révèle pas tout, comme le note @ttnphns.
whuber
1
En ce qui concerne (1), j'ai lu votre référence (au blog de Dave Gile) différemment: il soutient que le test formel de la multicolinéarité est erroné. Je ne le vois pas affirmer que la multicolinéarité n'est pas un problème.
whuber
D'après ce que je comprends de la réponse de Dave Gile, la seule façon dont la multicolinéarité influe sur les résultats passe par une taille d'échantillon équivalente plus petite. Donc, tout comme il n'a aucun sens de tester la petite taille de l'échantillon, cela n'a aucun sens de tester l'impact de la multicolinéarité. Mais je serais heureux d'entendre votre avis à ce sujet, peut-être que je l'ai mal compris.
pedrofigueira
Eh bien, avoir besoin d'un plus grand échantillon peut avoir un impact énorme pour la plupart des études! Un effet plus subtil de la quasi-colinéarité concerne la création de modèles et la sélection de variables, comme discuté ( entre autres ) dans des threads tels que stats.stackexchange.com/questions/50537 et stats.stackexchange.com/a/28476/919 . Mais assurons-nous que nous parlons des mêmes choses: Giles discute des tests formels de multicolinéarité, comme si les variables indépendantes étaient échantillonnées au hasard. Ici, la préoccupation semble centrée sur l'utilisation de diagnostics de multicolinéarité pour comprendre les capacités et les limites d'un modèle.
whuber
1

Une manière courante d'évaluer la colinéarité consiste à utiliser les facteurs d'inflation de la variance (VIF). Cela peut être réalisé dans R en utilisant la fonction «vif» dans le package «voiture». Cela présente l'avantage de ne considérer que les corrélations entre deux variables, car il évalue simultanément la corrélation entre une variable et les autres variables du modèle. Il vous donne ensuite un score unique pour chaque prédicteur du modèle.

Comme indiqué ci-dessus, il n'y a pas de coupure stricte et rapide, mais les scores VIF sont souvent considérés comme problématiques lorsqu'ils se situent entre 5 et 10. J'utilise des règles empiriques spécifiques au champ pour cela. De plus, il n'y a rien de nécessairement invalide à utiliser des prédicteurs corrélés (tant qu'ils ne sont pas parfaitement corrélés). Vous aurez juste besoin de plus de données pour séparer les effets. Lorsque vous n'avez pas suffisamment de données, il y aura de grandes incertitudes dans les estimations des paramètres des prédicteurs corrélés, et ces estimations seront sensibles au rééchantillonnage.

Pour répondre spécifiquement à vos questions:

  1. N'utilisez pas de coefficients de corrélation. utiliser les VIF du modèle avec tous les prédicteurs et aucune interaction. Les VIF de 5 à 10 indiquent trop de corrélation, votre seuil spécifique dépend de ce que vous devez faire avec le modèle.

  2. Cela dépend des autres prédicteurs du modèle, c'est pourquoi il est avantageux d'utiliser les VIF.

  3. Nan! Les statistiques permettront de mieux quantifier ce que vous regardez avec le nuage de points. À moins qu'il n'y ait une super violation des hypothèses d'OLS lors de la régression de vos prédicteurs les uns contre les autres.

colin
la source