Dans les modèles linéaires, nous devons vérifier s'il existe une relation entre les variables explicatives. S'ils sont trop corrélés, il y a colinéarité (c'est-à-dire que les variables s'expliquent en partie). Je regarde actuellement la corrélation par paire entre chacune des variables explicatives.
Question 1: Qu'est - ce qui qualifie trop de corrélation? Par exemple, une corrélation de Pearson de 0,5 est-elle trop?
Question 2: Pouvons-nous déterminer pleinement s'il existe une colinéarité entre deux variables en fonction du coefficient de corrélation ou cela dépend-il d'autres facteurs?
Question 3: Une vérification graphique du nuage de points des deux variables ajoute-t-elle quelque chose à ce qu'indique le coefficient de corrélation?
Réponses:
Il est toujours intelligent de regarder vos données, et pas simplement des résumés numériques / résultats de test. La référence canonique ici est le quatuor d'Anscomb .
la source
Ma vision des trois questions est
De nombreux auteurs soutiennent que la (multi-) colinéarité n'est pas un problème. Jetez un œil ici et ici pour une opinion plutôt acide sur le sujet. L'essentiel est que la multicolinéarité n'a pas d'impact sur le test d'hypothèse autre que d'avoir une taille d'échantillon inférieure (efficace). Il vous sera difficile d'interpréter les coefficients de régression si vous effectuez une régression, par exemple, mais vous ne violez aucune hypothèse de base si vous choisissez de le faire.
Je pense qu'il existe plusieurs façons de mesurer la corrélation entre deux variables, du calcul du coefficient de corrélation de Pearson (si vous supposez la linéarité, et apparemment vous l'avez fait), au rang de Spearman , à la corrélation de distance et même à la PCA sur votre jeu de données. Mais je laisserais la réponse à cette question à des gens mieux informés que moi.
OMI, la réponse est non.
la source
Une manière courante d'évaluer la colinéarité consiste à utiliser les facteurs d'inflation de la variance (VIF). Cela peut être réalisé dans R en utilisant la fonction «vif» dans le package «voiture». Cela présente l'avantage de ne considérer que les corrélations entre deux variables, car il évalue simultanément la corrélation entre une variable et les autres variables du modèle. Il vous donne ensuite un score unique pour chaque prédicteur du modèle.
Comme indiqué ci-dessus, il n'y a pas de coupure stricte et rapide, mais les scores VIF sont souvent considérés comme problématiques lorsqu'ils se situent entre 5 et 10. J'utilise des règles empiriques spécifiques au champ pour cela. De plus, il n'y a rien de nécessairement invalide à utiliser des prédicteurs corrélés (tant qu'ils ne sont pas parfaitement corrélés). Vous aurez juste besoin de plus de données pour séparer les effets. Lorsque vous n'avez pas suffisamment de données, il y aura de grandes incertitudes dans les estimations des paramètres des prédicteurs corrélés, et ces estimations seront sensibles au rééchantillonnage.
Pour répondre spécifiquement à vos questions:
N'utilisez pas de coefficients de corrélation. utiliser les VIF du modèle avec tous les prédicteurs et aucune interaction. Les VIF de 5 à 10 indiquent trop de corrélation, votre seuil spécifique dépend de ce que vous devez faire avec le modèle.
Cela dépend des autres prédicteurs du modèle, c'est pourquoi il est avantageux d'utiliser les VIF.
Nan! Les statistiques permettront de mieux quantifier ce que vous regardez avec le nuage de points. À moins qu'il n'y ait une super violation des hypothèses d'OLS lors de la régression de vos prédicteurs les uns contre les autres.
la source