Je ne sais pas si je peux vous donner une réponse complète, mais je peux vous donner quelques réflexions qui pourraient être utiles. Premièrement, tous les modèles / tests statistiques ont des hypothèses. Cependant, la régression logistique ne suppose pas beaucoup que les résidus soient normalement distribués ni que la variance est constante. On suppose plutôt que les données sont distribuées sous la forme d'un binôme, , c'est-à-dire avec un nombre d'essais de Bernoulli égal au nombre d'observations à cet ensemble exact de valeurs de covariable et avec le probabilité associée à cet ensemble de valeurs de covariable. Rappelez-vous que la variance d'un binôme est n p (B(nxi,pxi) . Ainsi, si les n varient à différents niveaux de la covariable, les variances le seront également. De plus, si l'une des covariables est liée à la variable de réponse, les probabilités varieront, et donc les variances aussi. Ce sont des faits importants sur la régression logistique. np(1−p)n
R2R2R2R2R2R2s et les distributions jackknifed, car vous avez sélectionné ces données à exclure en raison du fait qu'elles semblent extrêmes.
gung - Réintégrer Monica
la source
Je suis d'accord avec le commentaire d'AdamO ci-dessus en général - en supposant que 1 milliardaire représente 1 / 100e de la population est tout à fait bien. Cependant, si la présence du milliardaire fausse tellement les données que la prédiction pour les 99 autres personnes est affectée, je supprimerais le milliardaire. Je préfère avoir tort de prédire une valeur aberrante que tout le monde.
Cela dit, si vous supprimez des points de données en utilisant les valeurs D de Cook (c.-à-d., Tout ce qui est> 4 / df), vous pouvez utiliser l'aire sous les courbes ROC pour les deux modèles pour vérifier l'amélioration.
la source