Pouvez-vous donner une explication simple et intuitive de la méthode IRLS pour trouver le MLE d'un GLM?

13

Contexte:

J'essaie de suivre l'examen de Princeton de l'estimation MLE pour GLM .

Je comprends les bases de l' estimation MLE: likelihood, score, observée et attendue Fisher informationet la Fisher scoringtechnique. Et je sais comment justifier une régression linéaire simple avec une estimation MLE .


La question:

Je ne comprends même pas la première ligne de cette méthode :(

Quelle est l'intuition derrière les variables de travail définies comme:zi

zi=η^i+(yiμ^i)dηidμi

Pourquoi sont-ils utilisés au lieu de pour estimer ?yiβ

Et quelle est leur relation avec le response/link functionqui est le lien entre etημ

Si quelqu'un a une explication simple ou peut me diriger vers un texte plus basique à ce sujet, je lui en serais reconnaissant.

ihadanny
la source
1
Par ailleurs, pour moi, j'ai découvert l'IRRL dans le contexte d' une estimation robuste (M-) avant d'entendre parler de l'ensemble du cadre "GLM" (que je ne comprends toujours pas bien). Pour une perspective pratique de cette approche, en tant que simple généralisation des moindres carrés, je recommanderais la source que j'ai rencontrée pour la première fois: Annexe B du livre Computer Vision (E-) gratuit de Richard Szeliski (les 4 premières pages, vraiment, bien que ces liens vers quelques bons exemples aussi).
GeoMatt22

Réponses:

15

Il y a quelques années, j'ai écrit un article à ce sujet pour mes étudiants (en espagnol), afin que je puisse essayer de réécrire ces explications ici. Je vais regarder IRLS (moindres carrés itérativement repondérés) à travers une série d'exemples de complexité croissante. Pour le premier exemple, nous avons besoin du concept d'une famille à l'échelle de l'emplacement. Soit une fonction de densité centrée sur zéro dans un certain sens. On peut construire une famille de densités en définissant où est un paramètre d'échelle etf0

f(x)=f(x;μ,σ)=1σf0(xμσ)
σ>0μest un paramètre d'emplacement. Dans le modèle d'erreur de mesure, où le terme d'erreur est généralement modélisé comme une distribution normale, nous pouvons, à la place de cette distribution normale, utiliser une famille à l'échelle de l'emplacement telle que construite ci-dessus. Lorsque est la distribution normale standard, la construction ci-dessus donne la famille .f0N(μ,σ)

Nous allons maintenant utiliser IRLS sur quelques exemples simples. On trouvera d'abord les estimateurs ML (maximum de vraisemblance) dans le modèle avec la densité la distribution de Cauchy la famille d'emplacement (c'est donc une famille d'emplacement). Mais d'abord une notation. L'estimateur des moindres carrés pondérés de est donné par

Y1,Y2,,Yni.i.d
f(y)=1π11+(yμ)2,yR,
μμwiest un poids. Nous verrons que l'estimateur ML deμpeut être exprimée sous la même forme, avecwiune fonction des résidus ei=yi - μ . La fonction de vraisemblance est donnée par L(y;μ)=(1
μ=i=1nwiyii=1nwi.
wiμwi
ϵi=yiμ^.
et la fonction loglik vraisemblance est donnée par l(y)=-nlog(π)- n i=1log(1+(yi-μ)2). Sa dérivée par rapport àμest l ( y )
L(y;μ)=(1π)ni=1n11+(yiμ)2
l(y)=nlog(π)i=1nlog(1+(yiμ)2).
μϵi=yi-μ. Écrivezf0(ϵ)=1
l(y)μ=0μlog(1+(yiμ)2)=2(yiμ)1+(yiμ)2(1)=2ϵi1+ϵi2
ϵi=yiμ etf0 (ϵ)=1f0(ϵ)=1π11+ϵ2 , on obtient f0 (ϵ)f0(ϵ)=1π12ϵ(1+ϵ2)2 On trouve l ( y )
f0(ϵ)f0(ϵ)=12ϵ(1+ϵ2)211+ϵ2=2ϵ1+ϵ2.
où nous avons utilisé la définition wi= f 0 ( ϵ i )
l(y)μ=f0(ϵi)f0(ϵi)=f0(ϵi)f0(ϵi)(1ϵi)(ϵi)=wiϵi
En se souvenant que ϵi=yi-μon obtient l'équation wiyi=μwi, qui est l'équation d'estimation de l'IRLS. Notez que
wi=f0(ϵi)f0(ϵi)(1ϵi)=2ϵi1+ϵi2(1ϵi)=21+ϵi2.
ϵi=yiμ
wiyi=μwi,
  1. Les poids sont toujours positifs.wi
  2. Si le résidu est important, nous accordons moins de poids à l'observation correspondante.

μ^(0)

ϵi(0)=yiμ^(0)
wi(0)=21+ϵi(0).
μ^
μ^(1)=wi(0)yiwi(0).
ϵi(j)=yiμ^(j)
wi(j)=21+ϵi(j).
j+1
μ^(j+1)=wi(j)yiwi(j).
μ^(0),μ^(1),,μ^(j),

f(y)=1σf0(yμσ)Y1,Y2,,Ynϵi=yiμσ

l(y)=n2log(σ2)+log(f0(yiμσ)).
ν=σ2
ϵiμ=1σ
ϵiν=(yiμ)(1ν)=(yiμ)12σ3.
l(y)μ=f0(ϵi)f0(ϵi)ϵiμ=f0(ϵi)f0(ϵi)(1σ)=1σfo(ϵi)f0(ϵi)(1ϵi)(ϵi)=1σwiϵi
σ2
l(y)ν=n21ν+f0(ϵi)f0(ϵi)ϵiν=n21ν+f0(ϵi)f0(ϵi)((yiμ)2σ3)=n21ν121σ2f0(ϵi)f0(ϵi)ϵi=n21ν121νf0(ϵi)f0(ϵi)(1ϵi)(ϵi)ϵi=n21ν+121νwiϵi2=!0.
σ2^=1nwi(yiμ^)2.

Dans ce qui suit, nous donnons un exemple numérique en utilisant R, pour le modèle exponentiel double (avec une échelle connue) et avec des données y <- c(-5,-1,0,1,5). Pour ces données, la vraie valeur de l'estimateur ML est 0. La valeur initiale sera mu <- 0.5. Un passage de l'algorithme est

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

avec cette fonction, vous pouvez expérimenter avec faire les itérations "à la main" Ensuite, l'algorithme itératif peut être fait par

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

tkσ

wi=k+1k+ϵi2.
w(ϵ)=1eϵ1+eϵ1ϵ.

Pour le moment je vais le laisser ici, je vais continuer ce post.

kjetil b halvorsen
la source
uui
1
J'ajouterai plus à cela, juste hors du temps maintenant! Les idées restent les mêmes, mais les détails s'impliquent davantage.
kjetil b halvorsen
2
viendra à cela!
kjetil b halvorsen
1
tk
2
ça vous dérange d'écrire un article de blog quelque part en continuant cette explication? vraiment utile pour moi et je suis sûr que ce sera pour les autres ...
ihadanny