Dans l'analyse de régression linéaire, nous analysons les valeurs aberrantes, étudions la multicolinéarité, testons l'hétéroscédastictie.
La question est: existe-t-il un ordre pour les appliquer? Je veux dire, devons-nous analyser les valeurs aberrantes tout d'abord, puis examiner la multicolinéarité? Ou inversé?
Y a-t-il une règle d'or à ce sujet?
Réponses:
Le processus est itératif, mais il existe un ordre naturel:
Vous devez d'abord vous inquiéter des conditions qui provoquent des erreurs numériques absolues . La multicollinéarité en fait partie, car elle peut produire des systèmes d'équations instables pouvant entraîner des réponses carrément incorrectes (à 16 décimales ...) Tout problème ici signifie généralement que vous ne pouvez pas continuer tant qu'il n'est pas corrigé. La multicolinéarité est généralement diagnostiquée à l'aide des facteurs d'inflation de la variance et d'un examen similaire de la «matrice chapeau». Des vérifications supplémentaires à ce stade peuvent inclure l'évaluation de l'influence de toute valeur manquante dans l'ensemble de données et la vérification de l'identifiabilité des paramètres importants. (Les combinaisons manquantes de variables indépendantes discrètes peuvent parfois causer des problèmes ici.)
Ensuite, vous devez vous demander si la sortie reflète la plupart des données ou est sensible à un petit sous-ensemble. Dans ce dernier cas, tout ce que vous ferez par la suite peut être trompeur, il faut donc l'éviter. Les procédures comprennent l'examen des valeurs aberrantes et de l' effet de levier . (Une donnée à fort effet de levier peut ne pas être une valeur aberrante, mais elle peut néanmoins influencer indûment tous les résultats.) S'il existe une alternative solide à la procédure de régression, c'est le bon moment pour l'appliquer: vérifiez qu'elle produit des résultats similaires et utilisez-le pour détecter les valeurs éloignées.
Enfin, après avoir atteint une situation qui est numériquement stable (vous pouvez donc faire confiance aux calculs) et qui reflète l'ensemble de données complet, vous vous tournez vers un examen des hypothèses statistiques nécessaires pour une interprétation correcte de la sortie . Ces préoccupations se concentrent principalement - par ordre d'importance approximative - sur les distributions des résidus (y compris l'hétéroscédasticité, mais s'étendant également à la symétrie, à la forme distributionnelle, à la corrélation possible avec les valeurs prédites ou d'autres variables, et à l'autocorrélation), à la qualité de l'ajustement (y compris la besoin éventuel de termes d'interaction), s'il faut ré-exprimer la variable dépendante et s'il faut ré-exprimer les variables indépendantes.
À tout moment, si quelque chose doit être corrigé, il est sage de revenir au début. Répétez autant de fois que nécessaire.
la source
Je pense que ça dépend de la situation. Si vous ne vous attendez pas à des problèmes particuliers, vous pouvez probablement les vérifier dans n'importe quel ordre. Si vous vous attendez à des valeurs aberrantes et pourriez avoir une raison de les supprimer après les avoir détectées, vérifiez d'abord les valeurs aberrantes. Les autres problèmes avec le modèle pourraient changer après la suppression des observations. Après cela, l'ordre entre la multicollinarité et l'hétéroscédasticité n'a plus d'importance. Je suis d'accord avec Chris que les valeurs aberrantes ne devraient pas être supprimées arbitrairement. Vous devez avoir une raison de penser que les observations sont fausses.
Bien sûr, si vous observez la multicolinéarité ou l'hétéroscédasticité, vous devrez peut-être changer votre approche. Le problème de multicolinéarité est observé dans la matrice de covariance, mais il existe des tests de diagnostic spécifiques pour détecter la multicolinéarité et d'autres problèmes comme les points de levier, consultez le livre Regression Diagnostics de Belsley, Kuh et Welsch ou l'un des livres de régression de Dennis Cook .
la source