Une façon de trouver la précision du modèle de régression logistique à l'aide de «glm» consiste à trouver le tracé AUC. Comment vérifier la même chose pour le modèle de régression trouvé avec la variable de réponse continue (famille = «gaussienne»)?
Quelles méthodes sont utilisées pour vérifier dans quelle mesure mon modèle de régression correspond aux données?
r
regression
generalized-linear-model
user1140126
la source
la source
r-squared
étiquette et à l'goodness-of-fit
étiquette ..Réponses:
Je suggérerais une brève recherche sur les " diagnostics du modèle de régression linéaire " pour commencer. Mais voici quelques-unes que je vous suggère de vérifier:
Assurez-vous que les hypothèses sont satisfaites de manière satisfaisante
Utilisez le nuage de points ou la composante plus le graphique résiduel pour examiner la relation linéaire entre le ou les prédicteurs indépendants et la variable dépendante.
Composez un graphique avec une valeur résiduelle standardisée par rapport à la valeur prédite et assurez-vous qu'il n'y a pas de point extrême avec un résidu très élevé, et que la répartition du résidu est largement similaire le long de la valeur prédite, ainsi que la répartition largement égale au-dessus et en dessous de la moyenne du résidu, zéro.
Vous pouvez également changer l'axe des y en résiduel . Ce graphique permet d'identifier la variance inégale.2
Réexaminez la conception de l'étude pour vous assurer que l'hypothèse d'indépendance est raisonnable.
Récupérez le facteur d'inflation de la variance (VIF) ou les statistiques de tolérance pour examiner la colinéarité possible.
Examiner les points d'influence potentiels
Examiner le changement dans les statistiques et ajustéR2 R2
Vérifier l'interaction nécessaire
Appliquez votre modèle à un autre ensemble de données et vérifiez ses performances
la source
plot.lm
peut vous donner la plupart des graphiques de diagnostic mentionnés par Penguin_Knight.J'aime effectuer une validation croisée de mes modèles de régression pour voir dans quelle mesure ils se généralisent aux nouvelles données. Ma métrique de choix est l'erreur absolue moyenne sur les données de validation croisée, mais l' erreur quadratique moyenne est plus courante et tout aussi utile.
Je ne trouve pas que R2 soit une bonne mesure de l'adéquation de votre modèle avec les données d'entraînement, car presque toutes les mesures d'erreur calculées sur les données d'entraînement seront sujettes à un ajustement excessif. Si vous devez calculer R2 sur l'ensemble d'entraînement, je vous suggère d'utiliser R2 ajusté .
la source
Vous pouvez utiliser pour examiner dans quelle mesure votre modèle correspond aux données d'entraînement. Cela vous indiquera quel pourcentage de la variance des données est expliqué par le modèle.R2
Je suggère d'utiliser RMSE (racine quadratique moyenne) de vos prédictions sur votre ensemble de test par rapport à la valeur réelle. Il s'agit d'une méthode standard pour signaler l'erreur de prédiction d'une variable continue.
la source
J'ai l'habitude de vérifier la forme fonctionnelle de mon estimateur de paramètres en traçant une estimation non paramétrique (par exemple une régression du noyau) ou semi-paramétrique et en la comparant à la courbe ajustée paramétrique. Je pense que c'est dans la première étape souvent plus rapide (et peut-être plus perspicace) que d'inclure des termes d'interaction ou des termes d'ordre supérieur.
Le package R np fournit de nombreuses fonctions non paramétriques et semi-paramétriques, et sa vignette est bien écrite: http://cran.r-project.org/web/packages/np/vignettes/np.pdf
la source