Quand utiliser la régression non paramétrique?

9

J'utilise PROC GLM dans SAS pour ajuster une équation de régression de la forme suivante

Oui = b_{0} + b_{1} X_{1} + b_{2} X_{2} + b_{3} X_{3} + b_{4} t

$Y = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t$

Le tracé QQ des résidus rouges résultants indique un écart par rapport à la normalité. Toute transformation de n'est pas utile pour normaliser les résidus. $Y$

À ce stade, puis-je passer en toute sécurité à des méthodes non paramétriques telles que PROC LOESS.

J'ai déjà utilisé PROC LOESS, et l'ajustement est meilleur que PROC GLM. Mais je n'ai pas beaucoup de connaissances en régression non paramétrique. Je ne sais pas quand choisir la régression non paramétrique plutôt que la régression paramétrique.

Quelqu'un peut il m'aider avec ça?

Je vais continuer et ajouter une autre question. Voici la description de mes variables dans le modèle. Parfois, j'ai un coût prévisionnel négatif. Cela n'a pas de sens. Comment puis-je résoudre ce problème?

Oui = coût des soins médicaux X_{1} = nombre d'injections X_{2} = nombre de chirurgies X_{3} = nombre de thérapies physiques t = temps

$Y =\text{cost of medical care}\\ X_1 =\text{number of injections}\\ X_2 =\text{number of surgeries}\\ X_3 =\text{number of physical therapies}\\ t =\text{time}$

regression multiple-regression nonparametric residuals sas ann
la source

2

Vous pouvez bien sûr éviter de prédire les coûts négatifs en modélisant le journal de celui-ci:

l o g (Y) = b_{0} + b_{1} X_{1} + b_{2} X_{2} + b_{3} X_{3} + b_{4} t

$log(Y) = b_0 + b_1X_1 + b_2X_2 + b_3X_3 + b_4t$

Dirk Horsten

10

Avant de regarder sur QQplots de résidus, vous devez évaluer la qualité de l'ajustement, en comparant les résidus par rapport aux prédicteurs du modèle (et éventuellement, également par rapport à d'autres variables que vous avez que vous n'avez pas utilisées). La non-linéarité devrait apparaître dans ces graphiques. Si l'effet de la variable est vraiment linéaire, vous vous attendez à ce que le tracé des résidus par rapport à soit "horizontal", sans structure visible: $x$ $x$

                                                                   *
*                 *
      *                               *
        *   
                                                  *
--------------------------------------*------------------------------x
   *     
           *

                                     *
       *                                                    *
                                *

C'est-à-dire, un "blob" horizontal aléatoire de points, centré autour de la ligne resid = 0.

Si l'effet n'est pas linéaire, vous vous attendez à voir une certaine courbure dans ce tracé. (et, s'il vous plaît, ignorez les QQplots jusqu'à ce que vous ayez trié les non-linéarités, en utilisant les tracés comme ci-dessus!)

Vous devez également penser aux interactions possibles (modélisées généralement par des termes de produit), c'est-à-dire que l'effet d'une variable dépend des niveaux d'une autre Dans l'affirmative, des interactions pourraient être nécessaires).

Si vous optez pour un modèle non linéaire, après avoir essayé les interactions et les transformations (avez-vous essayé log(Cost)?) Avez-vous essayé des transformations box-cox? Puisque vous avez une régression multiple, je ne pense pas que ce loesssoit ce dont vous avez besoin, vous devriez chercher gam(les modèles additifs généralisés, SAS devrait avoir cela, dans R c'est dans le package mgcv).

kjetil b halvorsen
la source

1

Merci pour cette information pertinente. J'ai essayé le log (coût) avec la régression linéaire, mais cela n'a pas beaucoup aidé. J'ajouterai les effets d'interaction et observerai ce qui se passe. Je vais également expérimenter à nouveau les transformations. Je tiendrai tout le monde au courant de mes développements et de mes découvertes.

ann

6

Un LOESS donnera toujours un meilleur ajustement que la régression, à moins que les données ne se situent vraiment le long d'une ligne droite. LOESS est une approximation localement linéaire conçue pour passer à proximité des données. Ces méthodes sont essentiellement exploratoires. Et bien qu'il soit dangereux d'extrapoler un modèle linéaire au-delà des limites de l'ajustement, l'extrapolation serait imprudente dans le cas de LOESS.

Si votre modèle vous donne des coûts négatifs, c'est un assez bon signe qu'une régression linéaire n'est pas appropriée sur les variables dont vous disposez. Vous dites que vous avez essayé des transformations. Avez-vous comparé le journal des coûts à vos prédicteurs?

Dans la nature des choses, il est peu probable qu'il existe une relation simple entre le coût et les variables que vous mentionnez. Parfois, le but d'une régression linéaire est simplement de démontrer qu'il existe une sorte de corrélation, et peut-être de sélectionner un ensemble sensible de prédicteurs.

Placidia
la source

1

Il est tellement logique quand u a mentionné que les coûts négatifs indiquent qu'une régression linéaire pourrait ne pas être appropriée. Je vais continuer mon analyse et ajouter quelques interactions. Je vous remercie.

2012 à

3

Bravo pour avoir fait l'analyse résiduelle. Vous donne une longueur d'avance sur l'analyste type. (Cependant, votre description du modèle est insuffisante pour ne pas décrire la structure d'erreur.) Vous devriez considérer les transformations des X ainsi que les transformations des Y. Je me rends compte que SAS est derrière R dans la modélisation avec des ajustements splines mais je comprends que les versions récentes ont offert cette capacité. Envisagez d'ajouter des ajustements de spline cubique restreints pour les termes X. Comme référence, le texte de Frank Harrell "Stratégies de modélisation de la régression" est difficile à battre. Il a des arguments statistiques solides pour cette approche. Il s'agit d'une approche paramétrique qui permet de découvrir une structure dans les données qui autrement serait manquée.

DWin
la source

Y

$Y$

X

$X$

l o g (Y) = b_{0} + b_{1} l o g (X_{1}) + b_{2} l o g (X_{2})

$log(Y) = b_0 + b_1log(X_1) + b_2log(X_2)$

X_{1}

$X_1$

X_{2}

$X_2$

Dirk Horsten

Votre commentaire semble plutôt tangentiel à ma réponse (et à la question puisque le partitionnement des injections par bras n'a jamais été mentionné) J'espère que vous ne pensez pas que les fonctions splines sont équivalentes aux transformations logarithmiques. La transformation logarithmique du Y crée un modèle où le modèle est multiplicatif dans les prédicteurs lorsqu'il est retransformé à l'échelle des coûts. C'est un changement assez important et dont vous n'avez pas suffisamment décrit les problèmes au questionneur.

DWin

2

Je pense que kjetil vous a fait de bonnes suggestions. J'ajouterais que les résidus non normaux ne signifient pas que vous devez passer d'une régression linéaire ou non linéaire à une régression non paramétrique. En passant à la régression non paramétrique, vous abandonnez la structure d'une forme fonctionnelle. Il existe une alternative de régression robuste à la régression OLS que vous pouvez utiliser en premier. Ensuite, des modèles linéaires généralisés et des modèles additifs généralisés si les prochaines étapes sont nécessaires. À mon avis, LOESS devrait être votre dernier recours. Je pense que je suis d'accord avec kjetil à ce sujet.

Michael R. Chernick
la source

Quand utiliser la régression non paramétrique?

Réponses: