Si j'ai un ensemble de données avec une classe positive très rare et que je sous-échantillonne la classe négative, puis effectuer une régression logistique, dois-je ajuster les coefficients de régression pour refléter le fait que j'ai modifié la prévalence de la classe positive?
Par exemple, supposons que j'ai un jeu de données avec 4 variables: Y, A, B et C. Y, A et B sont binaires, C est continu. Pour 11 100 observations, Y = 0 et pour 900, Y = 1:
set.seed(42)
n <- 12000
r <- 1/12
A <- sample(0:1, n, replace=TRUE)
B <- sample(0:1, n, replace=TRUE)
C <- rnorm(n)
Y <- ifelse(10 * A + 0.5 * B + 5 * C + rnorm(n)/10 > -5, 0, 1)
J'adapte une régression logistique pour prédire Y, étant donné A, B et C.
dat1 <- data.frame(Y, A, B, C)
mod1 <- glm(Y~., dat1, family=binomial)
Cependant, pour gagner du temps, je pourrais supprimer 10 200 observations non-Y, soit 900 Y = 0 et 900 Y = 1:
require('caret')
dat2 <- downSample(data.frame(A, B, C), factor(Y), list=FALSE)
mod2 <- glm(Class~., dat2, family=binomial)
Les coefficients de régression des 2 modèles sont très similaires:
> coef(summary(mod1))
Estimate Std. Error z value Pr(>|z|)
(Intercept) -127.67782 20.619858 -6.191983 5.941186e-10
A -257.20668 41.650386 -6.175373 6.600728e-10
B -13.20966 2.231606 -5.919353 3.232109e-09
C -127.73597 20.630541 -6.191596 5.955818e-10
> coef(summary(mod2))
Estimate Std. Error z value Pr(>|z|)
(Intercept) -167.90178 59.126511 -2.83970391 0.004515542
A -246.59975 4059.733845 -0.06074284 0.951564016
B -16.93093 5.861286 -2.88860377 0.003869563
C -170.18735 59.516021 -2.85952165 0.004242805
Ce qui m'amène à penser que le sous-échantillonnage n'a pas affecté les coefficients. Cependant, il s’agit d’un exemple unique et artificiel, et je préférerais le savoir avec certitude.
mod2
),Pr(>|z|)
carA
est presque 1. Nous ne pouvons pas rejeter l'hypothèse nulle selon laquelle le coefficientA
est égal à 0, nous avons donc perdu une covariable qui est utilisée dansmod1
. N'est-ce pas une différence substantielle?Réponses:
Un sous-échantillonnage équivaut à la conception de cas-témoins dans les statistiques médicales: vous fixez le nombre de réponses et observez les modèles de covariables (prédicteurs). Prentice et Pyke (1979), "Modèles logistiques d'incidence des maladies et études cas-témoins", constituent probablement la référence clé, Biometrika , 66 , 3.
Ils ont utilisé le théorème de Bayes pour réécrire chaque terme de la probabilité pour qu'un modèle de covariable donné soit conditionnel à la présence d'un cas ou d'un contrôle à deux facteurs; l'un représentant une régression logistique ordinaire (probabilité d'être un cas ou un contrôle conditionnel à un modèle de covariable), l'autre représentant la probabilité marginale du modèle de covariable. Ils ont montré que maximiser la probabilité globale sous la contrainte que les probabilités marginales d’être un cas ou un contrôle soient fixés par le schéma d’échantillonnage donne les mêmes estimations de rapport de cotes que la maximisation du premier facteur sans contrainte (c’est-à-dire une régression logistique ordinaire). .
Bien sûr, en jetant les données que vous avez eu la peine de collecter, bien que ce soit la partie la moins utile, vous réduisez la précision de vos estimations. Les contraintes sur les ressources informatiques sont la seule bonne raison que je connaisse, mais je le mentionne car certaines personnes semblent penser qu’un "ensemble de données équilibré" est important pour une autre raison que je n’ai jamais pu déterminer.
la source
success
instances. En d'autres termes, TPR très bas. En modifiant le seuil, la TPR augmente, mais la précision est très mauvaise, ce qui signifie que plus de 70% des occurrences qualifiées de positives sont des négatives. J'ai lu que dans les rares événements, la régression logistique ne fonctionne pas bien, c'est là que la méthode de Firth vient à jouer, ou du moins un des rôles qu'elle peut assumer. Mais les résultats de la méthode de Firth se sont avérés très similaires à ceux de logit habituel. Je pensais que je pouvais avoir tort de faire Firth, mais apparemment tout va bien