Résidus de régression logistique et distance de Cook

10

Existe-t-il des hypothèses particulières concernant les erreurs de régression logistique telles que la variance constante des termes d'erreur et la normalité des résidus?
En règle générale, lorsque vous avez des points dont la distance du cuisinier est supérieure à 4 / n, les supprimez-vous? Si vous les supprimez, comment savoir si le modèle avec les points supprimés est meilleur?

regression logistic residuals diagnostic cooks-distance lord12
la source

12

Je ne sais pas si je peux vous donner une réponse complète, mais je peux vous donner quelques réflexions qui pourraient être utiles. Premièrement, tous les modèles / tests statistiques ont des hypothèses. Cependant, la régression logistique ne suppose pas beaucoup que les résidus soient normalement distribués ni que la variance est constante. On suppose plutôt que les données sont distribuées sous la forme d'un binôme, , c'est-à-dire avec un nombre d'essais de Bernoulli égal au nombre d'observations à cet ensemble exact de valeurs de covariable et avec le probabilité associée à cet ensemble de valeurs de covariable. Rappelez-vous que la variance d'un binôme est $\mathcal{B}(n_{x_i},p_{x_i})$ . Ainsi, si les varient à différents niveaux de la covariable, les variances le seront également. De plus, si l'une des covariables est liée à la variable de réponse, les probabilités varieront, et donc les variances aussi. Ce sont des faits importants sur la régression logistique. $np(1-p)$ $n$

$R^2$ $R^2$ $R^2$ $R^2$ $R^2$ $R^2$ s et les distributions jackknifed, car vous avez sélectionné ces données à exclure en raison du fait qu'elles semblent extrêmes.

gung - Réintégrer Monica
la source

8

1) Existe-t-il des hypothèses particulières concernant les erreurs de régression logistique telles que la variance constante des termes d'erreur et la normalité des résidus?

Les modèles de régression logistique ne comportent pas d '"erreurs" au sens traditionnel. Il est à la fois contre-intuitif et méthodologiquement incohérent. Les sorties du modèle sont des probabilités ou des risques ajustés tandis que les résultats observés sont des indicateurs d'événement 0/1. Méthodologiquement, vous auriez tendance à sous-estimer les domaines de probabilités ajustées très élevées ou très faibles (contribuant très peu à la distance résiduelle) alors que l'algorithme d'ajustement du modèle accorde une importance considérablement plus élevée à ces régions. La distance au carré est généralement une mauvaise façon d'étalonner un modèle de régression logistique.

Un autre test de qualité de l'ajustement est le test de Hosmer-Lemeshow, dans lequel les valeurs ajustées sont utilisées pour créer des partitions combinées basées sur des déciles de risque ajusté. Vous pouvez lire ce test dans Alan Agresti's Categorical Data Analysis ou dans le livre Logistic Regression de Hosmer et Lemeshow. Un autre processus consiste à utiliser les résidus Studentized où la relation de variance moyenne est utilisée pour repondérer les résidus par leur variance inverse ajustée . Pour la régression logistique, c'est

r_{s t u d} = \frac{Y - μ}{\sqrt{μ (1 - μ)}}

$r_{stud} = \frac{Y - \mu}{\sqrt{\mu(1-\mu)}}$

2) En règle générale, lorsque vous avez des points dont la distance du cuisinier est supérieure à 4 / n, les supprimez-vous? Si vous les supprimez, comment savoir si le modèle avec les points supprimés est meilleur?

Je ne supprime jamais de points sur la base d'analyses de sensibilité. Si je fais un échantillon aléatoire de 100 personnes et que leur revenu et 1 personne se trouve être un milliardaire, alors mon hypothèse la plus sûre est que ce milliardaire représente 1 / 100e de la population.

AdamO
la source

Pourquoi supposeriez-vous que le milliardaire représente 1 / 100e de la population? Vous seriez probablement en mesure d'obtenir une estimation extérieure de la proportion de milliardaires dans la population!

kjetil b halvorsen

6

Je suis d'accord avec le commentaire d'AdamO ci-dessus en général - en supposant que 1 milliardaire représente 1 / 100e de la population est tout à fait bien. Cependant, si la présence du milliardaire fausse tellement les données que la prédiction pour les 99 autres personnes est affectée, je supprimerais le milliardaire. Je préfère avoir tort de prédire une valeur aberrante que tout le monde.

Cela dit, si vous supprimez des points de données en utilisant les valeurs D de Cook (c.-à-d., Tout ce qui est> 4 / df), vous pouvez utiliser l'aire sous les courbes ROC pour les deux modèles pour vérifier l'amélioration.

Sanjay Saravanan
la source

1

(+1) Modéliser la relation entre les log-cotes de réponse et de revenu avec une spline naturelle, peut-être transformer le revenu au préalable, est une autre façon d'éviter que les prévisions du milliardaire affectent trop les prévisions des autres. Le retirer suggère que vous êtes heureux de ne pas faire de prédictions pour les autres milliardaires (assez juste) plutôt que de faire de mauvaises prédictions à leur sujet.

Scortchi - Réintégrer Monica

Ironiquement, lorsqu'il s'agit de prédire des événements binaires, il est vrai que l'exclusion des observations influentes peut conduire à un meilleur étalonnage des prévisions de risque. Cependant, l'exclusion des observations influentes réduira la discrimination des prévisions de risque. Ce dernier est sans doute plus important. Lorsqu'il s'agit de prédire le risque d'un certain événement (qui est soit 0 soit 1, non évalué en continu), le meilleur type de prédiction rapproche les prédictions des cas de 1 et les prédictions des contrôles plus proches de 0. Les points d'influence élevés sont souvent efficaces à faire cela.

AdamO

Résidus de régression logistique et distance de Cook

Réponses: