J'utilise PROC GLM dans SAS pour ajuster une équation de régression de la forme suivante
Le tracé QQ des résidus rouges résultants indique un écart par rapport à la normalité. Toute transformation de n'est pas utile pour normaliser les résidus.
À ce stade, puis-je passer en toute sécurité à des méthodes non paramétriques telles que PROC LOESS.
J'ai déjà utilisé PROC LOESS, et l'ajustement est meilleur que PROC GLM. Mais je n'ai pas beaucoup de connaissances en régression non paramétrique. Je ne sais pas quand choisir la régression non paramétrique plutôt que la régression paramétrique.
Quelqu'un peut il m'aider avec ça?
Je vais continuer et ajouter une autre question. Voici la description de mes variables dans le modèle. Parfois, j'ai un coût prévisionnel négatif. Cela n'a pas de sens. Comment puis-je résoudre ce problème?
Réponses:
Avant de regarder sur QQplots de résidus, vous devez évaluer la qualité de l'ajustement, en comparant les résidus par rapport aux prédicteurs du modèle (et éventuellement, également par rapport à d'autres variables que vous avez que vous n'avez pas utilisées). La non-linéarité devrait apparaître dans ces graphiques. Si l'effet de la variable est vraiment linéaire, vous vous attendez à ce que le tracé des résidus par rapport à soit "horizontal", sans structure visible:X X
C'est-à-dire, un "blob" horizontal aléatoire de points, centré autour de la ligne resid = 0.
Si l'effet n'est pas linéaire, vous vous attendez à voir une certaine courbure dans ce tracé. (et, s'il vous plaît, ignorez les QQplots jusqu'à ce que vous ayez trié les non-linéarités, en utilisant les tracés comme ci-dessus!)
Vous devez également penser aux interactions possibles (modélisées généralement par des termes de produit), c'est-à-dire que l'effet d'une variable dépend des niveaux d'une autre Dans l'affirmative, des interactions pourraient être nécessaires).
Si vous optez pour un modèle non linéaire, après avoir essayé les interactions et les transformations (avez-vous essayé
log(Cost)
?) Avez-vous essayé des transformations box-cox? Puisque vous avez une régression multiple, je ne pense pas que celoess
soit ce dont vous avez besoin, vous devriez cherchergam
(les modèles additifs généralisés, SAS devrait avoir cela, dans R c'est dans le packagemgcv
).la source
Un LOESS donnera toujours un meilleur ajustement que la régression, à moins que les données ne se situent vraiment le long d'une ligne droite. LOESS est une approximation localement linéaire conçue pour passer à proximité des données. Ces méthodes sont essentiellement exploratoires. Et bien qu'il soit dangereux d'extrapoler un modèle linéaire au-delà des limites de l'ajustement, l'extrapolation serait imprudente dans le cas de LOESS.
Si votre modèle vous donne des coûts négatifs, c'est un assez bon signe qu'une régression linéaire n'est pas appropriée sur les variables dont vous disposez. Vous dites que vous avez essayé des transformations. Avez-vous comparé le journal des coûts à vos prédicteurs?
Dans la nature des choses, il est peu probable qu'il existe une relation simple entre le coût et les variables que vous mentionnez. Parfois, le but d'une régression linéaire est simplement de démontrer qu'il existe une sorte de corrélation, et peut-être de sélectionner un ensemble sensible de prédicteurs.
la source
Bravo pour avoir fait l'analyse résiduelle. Vous donne une longueur d'avance sur l'analyste type. (Cependant, votre description du modèle est insuffisante pour ne pas décrire la structure d'erreur.) Vous devriez considérer les transformations des X ainsi que les transformations des Y. Je me rends compte que SAS est derrière R dans la modélisation avec des ajustements splines mais je comprends que les versions récentes ont offert cette capacité. Envisagez d'ajouter des ajustements de spline cubique restreints pour les termes X. Comme référence, le texte de Frank Harrell "Stratégies de modélisation de la régression" est difficile à battre. Il a des arguments statistiques solides pour cette approche. Il s'agit d'une approche paramétrique qui permet de découvrir une structure dans les données qui autrement serait manquée.
la source
Je pense que kjetil vous a fait de bonnes suggestions. J'ajouterais que les résidus non normaux ne signifient pas que vous devez passer d'une régression linéaire ou non linéaire à une régression non paramétrique. En passant à la régression non paramétrique, vous abandonnez la structure d'une forme fonctionnelle. Il existe une alternative de régression robuste à la régression OLS que vous pouvez utiliser en premier. Ensuite, des modèles linéaires généralisés et des modèles additifs généralisés si les prochaines étapes sont nécessaires. À mon avis, LOESS devrait être votre dernier recours. Je pense que je suis d'accord avec kjetil à ce sujet.
la source