Lors de l'ajustement d'un modèle de régression, que se passe-t-il si les hypothèses des résultats ne sont pas remplies, en particulier:
- Que se passe-t-il si les résidus ne sont pas homoscédastiques? Si les résidus montrent une tendance à la hausse ou à la baisse dans les résidus par rapport au tracé ajusté.
- Que se passe-t-il si les résidus ne sont pas normalement distribués et échouent au test de Shapiro-Wilk? Le test de normalité de Shapiro-Wilk est un test très strict, et parfois même si le tracé Normal-QQ semble quelque peu raisonnable, les données échouent au test.
- Que se passe-t-il si un ou plusieurs prédicteurs ne sont pas normalement distribués, ne semblent pas corrects sur le tracé Normal-QQ ou si les données échouent au test de Shapiro-Wilk?
Je comprends qu'il n'y a pas de division dure en noir et blanc, que 0,94 est vrai et 0,95 est faux, et dans la question, je veux savoir:
- Que signifie l'échec de la normalité pour un modèle qui correspond bien à la valeur R-Squared. Devient-il moins fiable ou complètement inutile?
- Dans quelle mesure, l'écart est acceptable, ou est-il acceptable du tout?
- Lors de l'application de transformations sur les données pour répondre aux critères de normalité, le modèle s'améliore-t-il si les données sont plus normales (valeur P plus élevée sur le test de Shapiro-Wilk, meilleure recherche sur un tracé QQ normal), ou inutile (tout aussi bon ou mauvais par rapport à l'original) jusqu'à ce que les données passent le test de normalité?
regression
multiple-regression
error
assumptions
normality-assumption
SpeedBirdNine
la source
la source
Réponses:
Si le terme d'erreur n'est pas homoscédastique (nous utilisons les résidus comme proxy pour le terme d'erreur non observable), l'estimateur OLS est toujours cohérent et non biaisé mais n'est plus le plus efficace dans la classe des estimateurs linéaires. C'est maintenant l'estimateur GLS qui bénéficie de cette propriété.
La normalité n'est pas requise par le théorème de Gauss-Markov. L'estimateur OLS est toujours BLEU mais sans normalité, vous aurez du mal à faire l'inférence, c'est-à-dire les tests d'hypothèse et les intervalles de confiance, au moins pour les tailles d'échantillon finies. Il reste cependant le bootstrap.
Asymptotiquement, cela pose moins de problème puisque l'estimateur OLS a une distribution normale limite dans des conditions de régularité modérées.
Autant que je sache, les prédicteurs sont soit considérés comme fixes, soit la régression est conditionnelle. Cela limite l'effet de la non-normalité.
Le R au carré est la proportion de la variance expliquée par le modèle. Cela ne nécessite pas l'hypothèse de normalité et c'est une mesure de la qualité de l'ajustement malgré tout. Si vous voulez l'utiliser pour un test F partiel, c'est une toute autre histoire.
Écart par rapport à la normalité, vous voulez dire, non? Cela dépend vraiment de vos objectifs car comme je l'ai dit, l'inférence devient difficile en l'absence de normalité mais n'est pas impossible (bootstrap!).
En bref, si vous avez toutes les hypothèses de Gauss-Markov plus la normalité, alors l'estimateur OLS est le meilleur sans biais (BUE), c'est-à-dire le plus efficace dans toutes les classes d'estimateurs - le Cramer-Rao Lower Bound est atteint. C'est souhaitable bien sûr mais ce n'est pas la fin du monde si cela ne se produit pas. Les remarques ci-dessus s'appliquent.
En ce qui concerne les transformations, gardez à l'esprit que si la distribution de la réponse pourrait être rapprochée de la normalité, l'interprétation pourrait ne pas être simple par la suite.
Ce ne sont que quelques réponses courtes à vos questions. Vous semblez particulièrement préoccupé par les implications de la non-normalité. Dans l'ensemble, je dirais que ce n'est pas aussi catastrophique que les gens le croient (ont été convaincus?) Et qu'il existe des solutions de contournement. Les deux références que j'ai incluses sont un bon point de départ pour une lecture plus approfondie, la première étant de nature théorique.
Références :
la source