La colinéarité peut poser certains problèmes dans différents types de problèmes de régression. En particulier, cela peut rendre les estimations des paramètres très variées et instables.
Diverses méthodes ont été proposées pour y remédier, notamment la régression des crêtes, la régression des moindres carrés partiels, la régression des composantes principales, la suppression des variables et l'obtention de plus de données.
Une méthode controversée est la standardisation ou la mise à l'échelle des variables indépendantes, divers experts disant que c'est une bonne (par exemple Garcia) ou mauvaise (par exemple Belsley) idée. Le problème de Belsley semble être (en termes non techniques) que le changement des IV ne fait que pousser le problème sous le tapis. Mais d'autres experts semblent ne pas être d'accord. Et les auteurs ont tendance à se chauffer plutôt à défendre leurs propres positions.
À l'époque où j'ai fait ma thèse (sur les diagnostics de colinéarité), j'ai trouvé les arguments de Belsley convaincants, mais c'était il y a longtemps (j'ai obtenu mon diplôme en 1999).
Je recherche des conseils d'experts ou tout article de revue actuel non biaisé.
la source
R
cadre, est représenté en secondes depuis le début de 1970. En tant que tel, il avait tendance à être de neuf ordres de grandeur supérieur à toutes les covariables. La simple standardisation du temps a résolu de graves problèmes de virgule flottante survenant dans l'optimiseur de vraisemblance.Réponses:
Pour moi, le type de normalisation n'était pas si clair et, tout en recherchant l'histoire, j'ai choisi deux références intéressantes.
Cet article récent a un aperçu historique dans l'introduction:
García, J., Salmerón, R., García, C., et López Martín, MDM (2016). Standardisation des variables et diagnostic de colinéarité dans la régression des crêtes. Revue statistique internationale, 84 (2), 245-266
J'ai trouvé un autre article intéressant qui prétend en quelque sorte montrer que la normalisation ou le centrage n'a aucun effet.
Echambadi, R. et Hess, JD (2007). Le centrage moyen n'atténue pas les problèmes de colinéarité dans les modèles de régression multiple modérée. Marketing Science, 26 (3), 438-445.
Cette critique me semble tout un peu comme manquer le point sur l'idée de centrage.
La seule chose qu'Echambadi et Hess montrent, c'est que les modèles sont équivalents et que vous pouvez exprimer les coefficients du modèle centré en termes de coefficients du modèle non centré, et vice versa (entraînant une variance / erreur similaire des coefficients ).
Le résultat d'Echambadi et Hess est un peu trivial et je crois que cela (ces relations et l'équivalence entre les coefficients) n'est prétendu être faux par personne. Personne n'a prétendu que ces relations entre les coefficients n'étaient pas vraies. Et ce n'est pas le point de centrer les variables.
Le point de centrage est que dans les modèles avec des termes linéaires et quadratiques, vous pouvez choisir différentes échelles de coordonnées de sorte que vous finissez par travailler dans un cadre qui n'a pas ou moins de corrélation entre les variables. Dites que vous souhaitez exprimer l'effet du tempst sur une variable Oui et vous souhaitez le faire sur une certaine période exprimée en termes d'années AD dire de 1998 à 2018. Dans ce cas, ce que la technique de centrage signifie pour résoudre est que
"Si vous exprimez la précision des coefficients pour les dépendances linéaires et quadratiques sur le temps, alors ils auront plus de variance lorsque vous utiliserez le tempst allant de 1998 à 2018 au lieu d'un temps centré t′ allant de -10 à 10 ".
contre
Bien sûr, ces deux modèles sont équivalents et au lieu de centrer vous pouvez obtenir exactement le même résultat (et donc la même erreur des coefficients estimés) en calculant les coefficients comme
aussi quand vous faites ANOVA ou utilisez des expressions commeR2 alors il n'y aura pas de différence.
Mais ce n'est pas du tout le point de recentrage moyen. Le point de centrage moyenne est que , parfois , on veut communiquer les coefficients et leurs intervalles variance / précision ou confiance estimés, et pour les cas , il ne importe comment le modèle est exprimé.
Exemple: un physicien souhaite exprimer une relation expérimentale pour un paramètre X en fonction quadratique de la température.
ne serait-il pas préférable de déclarer les intervalles de 95% pour des coefficients comme
au lieu de
Dans ce dernier cas, les coefficients seront exprimés par des marges d'erreur apparemment importantes (mais ne disant rien de l'erreur dans le modèle), et en outre la corrélation entre la distribution de l'erreur ne sera pas claire (dans le premier cas, l'erreur dans les coefficients ne seront pas corrélés).
Si l'on prétend, comme Echambadi et Hess, que les deux expressions sont juste équivalentes et que le centrage n'a pas d'importance, alors nous devrions (en conséquence en utilisant des arguments similaires) prétendre également que les expressions pour les coefficients du modèle (lorsqu'il n'y a pas d'interception naturelle et choix est arbitraire) en termes d'intervalles de confiance ou d'erreur standard n'ont jamais de sens.
Dans cette question / réponse, une image est présentée qui présente également cette idée comment les intervalles de confiance à 95% ne disent pas grand-chose sur la certitude des coefficients (du moins pas intuitivement) lorsque les erreurs dans les estimations des coefficients sont corrélées.
la source