Dans quel ordre devez-vous effectuer des diagnostics de régression linéaire?

24

Dans l'analyse de régression linéaire, nous analysons les valeurs aberrantes, étudions la multicolinéarité, testons l'hétéroscédastictie.

La question est: existe-t-il un ordre pour les appliquer? Je veux dire, devons-nous analyser les valeurs aberrantes tout d'abord, puis examiner la multicolinéarité? Ou inversé?

Y a-t-il une règle d'or à ce sujet?

halil
la source
2
Quelques règles de base très approximatives: vous devez étudier la colinéarité avant de faire un ajustement. Si vous trouvez qu'il est présent, vous devez soit (a) utiliser une méthode qui gère la colinéarité, (b) supprimer des entités colinéaires, ou (c) transformer vos entités (par exemple en utilisant PCA). Une fois que vous avez ajusté un modèle, vous pouvez rechercher une hétéroscédasticité dans les résidus. En général, si vous créez un modèle prédictif, vous ne devez pas supprimer les valeurs aberrantes. Utilisez plutôt une méthode robuste à la présence de valeurs aberrantes.
Chris Taylor
1
Comment étudier au mieux la colinéarité? Vous examinez les éléments hors diagonale de la matrice de corrélation des prédicteurs?
miura
1
La meilleure façon d'étudier la colinéarité est les indices de condition et la proportion de variance expliquée par eux. Une corrélation élevée n'est ni une condition nécessaire ni suffisante pour la colinéarité.
Peter Flom - Réintègre Monica

Réponses:

28

Le processus est itératif, mais il existe un ordre naturel:

  1. Vous devez d'abord vous inquiéter des conditions qui provoquent des erreurs numériques absolues . La multicollinéarité en fait partie, car elle peut produire des systèmes d'équations instables pouvant entraîner des réponses carrément incorrectes (à 16 décimales ...) Tout problème ici signifie généralement que vous ne pouvez pas continuer tant qu'il n'est pas corrigé. La multicolinéarité est généralement diagnostiquée à l'aide des facteurs d'inflation de la variance et d'un examen similaire de la «matrice chapeau». Des vérifications supplémentaires à ce stade peuvent inclure l'évaluation de l'influence de toute valeur manquante dans l'ensemble de données et la vérification de l'identifiabilité des paramètres importants. (Les combinaisons manquantes de variables indépendantes discrètes peuvent parfois causer des problèmes ici.)

  2. Ensuite, vous devez vous demander si la sortie reflète la plupart des données ou est sensible à un petit sous-ensemble. Dans ce dernier cas, tout ce que vous ferez par la suite peut être trompeur, il faut donc l'éviter. Les procédures comprennent l'examen des valeurs aberrantes et de l' effet de levier . (Une donnée à fort effet de levier peut ne pas être une valeur aberrante, mais elle peut néanmoins influencer indûment tous les résultats.) S'il existe une alternative solide à la procédure de régression, c'est le bon moment pour l'appliquer: vérifiez qu'elle produit des résultats similaires et utilisez-le pour détecter les valeurs éloignées.

  3. Enfin, après avoir atteint une situation qui est numériquement stable (vous pouvez donc faire confiance aux calculs) et qui reflète l'ensemble de données complet, vous vous tournez vers un examen des hypothèses statistiques nécessaires pour une interprétation correcte de la sortie . Ces préoccupations se concentrent principalement - par ordre d'importance approximative - sur les distributions des résidus (y compris l'hétéroscédasticité, mais s'étendant également à la symétrie, à la forme distributionnelle, à la corrélation possible avec les valeurs prédites ou d'autres variables, et à l'autocorrélation), à la qualité de l'ajustement (y compris la besoin éventuel de termes d'interaction), s'il faut ré-exprimer la variable dépendante et s'il faut ré-exprimer les variables indépendantes.

À tout moment, si quelque chose doit être corrigé, il est sage de revenir au début. Répétez autant de fois que nécessaire.

whuber
la source
2
En fait, je préfère utiliser des indices de condition plutôt que des VIF. J'ai fait ma thèse là-dessus, il y a quelque temps.
Peter Flom - Réintègre Monica
1
@Peter Bon point. Je préfère également les indices de condition, mais il me semble que les VIF sont très populaires maintenant.
whuber
whuber, j'ai suivi ici de votre commentaire plus tôt aujourd'hui. J'ai consulté une fois un statisticien lors de mon postdoc au sujet de certaines préoccupations concernant la multicolinéarité. Il a émis l'avis que, selon la nature des IV dans une régression, la colinéarité pouvait être considérée comme faisant partie structurelle des phénomènes modélisés. Je modifie probablement sa langue précise, et je devrais fouiller pour même retrouver son nom, mais connaissez-vous des textes qui pourraient motiver un raisonnement nuancé sur la multicolinéarité dans ce sens? Juste une question fortuite. :)
Alexis
@Alexis Il semble que ce statisticien ait un concept nuancé et sophistiqué de la multicolinéarité. Je ne peux penser à aucun manuel qui l'exprime clairement.
whuber
Je vais juste devoir le retrouver et lui poser des questions à ce sujet. :)
Alexis
3

Je pense que ça dépend de la situation. Si vous ne vous attendez pas à des problèmes particuliers, vous pouvez probablement les vérifier dans n'importe quel ordre. Si vous vous attendez à des valeurs aberrantes et pourriez avoir une raison de les supprimer après les avoir détectées, vérifiez d'abord les valeurs aberrantes. Les autres problèmes avec le modèle pourraient changer après la suppression des observations. Après cela, l'ordre entre la multicollinarité et l'hétéroscédasticité n'a plus d'importance. Je suis d'accord avec Chris que les valeurs aberrantes ne devraient pas être supprimées arbitrairement. Vous devez avoir une raison de penser que les observations sont fausses.

Bien sûr, si vous observez la multicolinéarité ou l'hétéroscédasticité, vous devrez peut-être changer votre approche. Le problème de multicolinéarité est observé dans la matrice de covariance, mais il existe des tests de diagnostic spécifiques pour détecter la multicolinéarité et d'autres problèmes comme les points de levier, consultez le livre Regression Diagnostics de Belsley, Kuh et Welsch ou l'un des livres de régression de Dennis Cook .

Michael R. Chernick
la source
9
Michael, À l'avenir, pouvez-vous utiliser les options de formatage? (la clé correcte pour insérer des liens est ctrl-l, pas ctrl-c).
user603