Test de Wald pour la régression logistique

55

Autant que je sache, le test de Wald dans le contexte de la régression logistique est utilisé pour déterminer si une certaine variable prédictive est significative ou non. Il rejette l'hypothèse nulle du coefficient correspondant égal à zéro.X

Le test consiste à diviser la valeur du coefficient par l'erreur type .σ

Ce qui me rend confus, c'est que est également appelé score Z et indique la probabilité qu'une observation donnée vienne de la distribution normale (avec une moyenne nulle).X/σ

utilisateur695652
la source
2
Double possible du test
Firebug
2
Peut-être que cela pourrait être l'inverse, car la réponse dans celle-ci est plus développée.
Firebug

Réponses:

86

Les estimations des coefficients et les intersections dans la régression logistique (et tout GLM) sont obtenues via l' estimation du maximum de vraisemblance (MLE). Ces estimations sont indiquées avec un chapeau sur les paramètres, quelque chose comme θ . Notre paramètre d'intérêt est notée θ 0 et cela est généralement 0 que nous voulons vérifier si le coefficient est différent de 0 ou non. De la théorie asymptotique de MLE, nous savons que la différence entre θ et θ 0 sera approximativement normale de moyenne 0 (détails peuvent être trouvés dans les statistiques mathématiques livre comme Larry Wasserman Toutes les statistiques ). Rappelons que les erreurs types ne sont rien d’autre queθ^θ0θ^θ0Écarts types des statistiques (Sokal et Rohlf écrivent dans leur livre Biometry : "une statistique est l’une des nombreuses quantités statistiques calculées ou estimées", par exemple la moyenne, la médiane, l’écart type, le coefficient de corrélation, le coefficient de régression, ...). Diviser une distribution normale avec une moyenne 0 et un écart type par son écart type produira la distribution normale standard avec une moyenne 0 et un écart type 1. La statistique de Wald est définie comme (par exemple, Wasserman (2006): Statistics , pages 153, 214). -215): W = ( β - β 0 )σ ou W2=(β-β0)2

W=(β^β0)se^(β^)N(0,1)
La seconde forme résulte du fait que le carré d'une distribution normale standard est leχ21-distribution avec 1 degré de liberté (la somme des deux distributions standardcarré normales serait unχ22-distribution avec 2 degrés de liberté et ainsi de suite).
W2=(β^β0)2Var^(β^)χ12
χ12χ22

β0=0

W=β^se^(β^)N(0,1)

zt

ztzptzVar[β^|X]=σ2(XX)1σ2Xσ2σ^2=s2se^(βj^)=s2(XX)jj1tt

YBin(n,p)E(Y)=npVar(Y)=np(1p)ϕϕ=1ϕ<1ϕ>1ztp-valeurs. Dans R, regardez ces deux exemples:

Régression logistique

mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv")

mydata$rank <- factor(mydata$rank)

my.mod <- glm(admit ~ gre + gpa + rank, data = mydata, family = "binomial")

summary(my.mod)

Coefficients:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.989979   1.139951  -3.500 0.000465 ***
gre          0.002264   0.001094   2.070 0.038465 *  
gpa          0.804038   0.331819   2.423 0.015388 *  
rank2       -0.675443   0.316490  -2.134 0.032829 *  
rank3       -1.340204   0.345306  -3.881 0.000104 ***
rank4       -1.551464   0.417832  -3.713 0.000205 ***
   ---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

(Dispersion parameter for binomial family taken to be 1)

z


Régression linéaire normale (MCO)

summary(lm(Fertility~., data=swiss))

Coefficients:
                 Estimate Std. Error t value Pr(>|t|)    
(Intercept)      66.91518   10.70604   6.250 1.91e-07 ***
Agriculture      -0.17211    0.07030  -2.448  0.01873 *  
Examination      -0.25801    0.25388  -1.016  0.31546    
Education        -0.87094    0.18303  -4.758 2.43e-05 ***
Catholic          0.10412    0.03526   2.953  0.00519 ** 
Infant.Mortality  1.07705    0.38172   2.822  0.00734 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.165 on 41 degrees of freedom

tzt

Un autre article lié peut être trouvé ici .

COOLSerdash
la source
1
Merci beaucoup pour ce bel article qui répond à toutes mes questions.
user695652
1
Donc, pratiquement, en ce qui concerne la première partie de votre excellente réponse: Si pour une raison quelconque je voudrais avoir comme sortie le rapport de cotes et la statistique de Wald, je pourrais alors calculer l’erreur type à partir de ceux-ci comme suit: SE = (1 / Wald- statistique) * ln (OU) Est-ce correct? Merci!
Sander W. van der Laan
1
@ SanderW.vanderLaan Merci pour votre commentaire. Oui, je pense que c'est correct. Si vous effectuez une régression logistique, les statistiques de Wald seront la valeur z.
COOLSerdash
2
Une si bonne réponse !!. J'ai quelques suggestions de révision: je pense personnellement que cette réponse confond les détails avec les listes de perforations. Je mettrais les détails de la façon dont la régression linéaire utilise la variance des résidus dans un graphique séparé.
Haitao Du
1
Nous pouvons également ouvrir une autre section ou une ligne de séparation pour les paramètres de dispersion et la connexion au code R.
Haitao Du