Pouvez-vous donner une explication simple et intuitive de la méthode IRLS pour trouver le MLE d'un GLM?

Il y a quelques années, j'ai écrit un article à ce sujet pour mes étudiants (en espagnol), afin que je puisse essayer de réécrire ces explications ici. Je vais regarder IRLS (moindres carrés itérativement repondérés) à travers une série d'exemples de complexité croissante. Pour le premier exemple, nous avons besoin du concept d'une famille à l'échelle de l'emplacement. Soit une fonction de densité centrée sur zéro dans un certain sens. On peut construire une famille de densités en définissant où est un paramètre d'échelle et $f_0$

f (x) = f (x; μ, σ) = \frac{1}{σ} f_{0} (\frac{x - μ}{σ})

$f(x)= f(x;\mu,\sigma)= \frac{1}{\sigma} f_0\left(\frac{x-\mu}{\sigma}\right)$

σ > 0

$\sigma > 0$

μ

$\mu$ est un paramètre d'emplacement. Dans le modèle d'erreur de mesure, où le terme d'erreur est généralement modélisé comme une distribution normale, nous pouvons, à la place de cette distribution normale, utiliser une famille à l'échelle de l'emplacement telle que construite ci-dessus. Lorsque est la distribution normale standard, la construction ci-dessus donne la famille .

f_{0}

$f_0$

N (μ, σ)

$\text{N}(\mu, \sigma)$

Nous allons maintenant utiliser IRLS sur quelques exemples simples. On trouvera d'abord les estimateurs ML (maximum de vraisemblance) dans le modèle avec la densité la distribution de Cauchy la famille d'emplacement (c'est donc une famille d'emplacement). Mais d'abord une notation. L'estimateur des moindres carrés pondérés de est donné par

Y_{1}, Y_{2}, \dots, Y_{n} i.i.d

$Y_1,Y_2,\ldots,Y_n \hspace{1em} \text{i.i.d}$

f (y) = \frac{1}{π} \frac{1}{1 + (y - μ)^{2}}, y \in R,

$f(y)= \frac{1}{\pi} \frac{1}{1+(y-\mu)^2},\hspace{1em} y\in{\mathbb R},$

μ

$\mu$

μ

$\mu$

où

est un poids. Nous verrons que l'estimateur ML de

peut être exprimée sous la même forme, avec

une fonction des résidus

La fonction de vraisemblance est donnée par

μ^{*} = \frac{\sum_{i = 1}^{n} w_{i} y_{i}}{\sum_{i = 1}^{n} w_{i}} .

$\mu^{\ast} = \frac{\sum_{i=1}^n w_i y_i} {\sum_{i=1}^n w_i}.$

w_{i}

$w_i$

μ

$\mu$

w_{i}

$w_i$

ϵ_{i} = y_{i} - \hat{μ} .

$\epsilon_i = y_i-\hat{\mu}.$

et la fonction loglik vraisemblance est donnée par

Sa dérivée par rapport à

est

L (y; μ) = {(\frac{1}{π})}^{n} \prod_{i = 1}^{n} \frac{1}{1 + (y_{i} - μ)^{2}}

$L(y;\mu)= \left(\frac{1}{\pi}\right)^n \prod_{i=1}^n \frac{1}{1+(y_i-\mu)^2}$

l (y) = - n \log (π) - \sum_{i = 1}^{n} \log (1 + (y_{i} - μ)^{2}) .

$l(y)= -n \log(\pi) - \sum_{i=1}^n \log\left(1+(y_i-\mu)^2\right).$

μ

$\mu$

où

. Écrivez

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & 0 - \sum \frac{\partial}{\partial μ} \log (1 + (y_{i} - μ)^{2}) \\ = & - \sum \frac{2 (y_{i} - μ)}{1 + (y_{i} - μ)^{2}} \cdot (- 1) \\ = & \sum \frac{2 ϵ_{i}}{1 + ϵ_{i}^{2}} \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \mu}&=& 0-\sum \frac{\partial}{\partial \mu} \log\left(1+(y_i-\mu)^2\right) \nonumber \\ &=& -\sum \frac{2(y_i-\mu)}{1+(y_i-\mu)^2}\cdot (-1) \nonumber \\ &=& \sum \frac{2 \epsilon_i}{1+\epsilon_i^2} \nonumber \end{eqnarray}$

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

f_{0} (ϵ) = \frac{1}{π} \frac{1}{1 + ϵ^{2}}

$f_0(\epsilon)= \frac{1}{\pi} \frac{1}{1+\epsilon^2}$

, on obtient

f_{0}^{'} (ϵ) = \frac{1}{π} \frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}

$f_0'(\epsilon)=\frac{1}{\pi} \frac{-1\cdot 2 \epsilon}{(1+\epsilon^2)^2}$

On trouve

\frac{f_{0}^{'} (ϵ)}{f_{0} (ϵ)} = \frac{\frac{- 1 \cdot 2 ϵ}{(1 + ϵ^{2})^{2}}}{\frac{1}{1 + ϵ^{2}}} = - \frac{2 ϵ}{1 + ϵ^{2}} .

$\frac{f_0'(\epsilon)}{f_0(\epsilon)} = \frac{\frac{-1 \cdot2\epsilon}{(1+\epsilon^2)^2}} {\frac{1}{1+\epsilon^2}} = -\frac{2\epsilon}{1+\epsilon^2}.$

où nous avons utilisé la définition

\begin{array}{rcl} \frac{\partial l (y)}{\partial μ} & = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \\ = & - \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) \cdot (- ϵ_{i}) \\ = & \sum w_{i} ϵ_{i} \end{array}

$\begin{eqnarray} \frac {\partial l(y)} {\partial \mu} & =& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \nonumber \\ &=& -\sum \frac {f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) \cdot (-\epsilon_i) \nonumber \\ &=& \sum w_i \epsilon_i \nonumber \end{eqnarray}$

En se souvenant que

on obtient l'équation

qui est l'équation d'estimation de l'IRLS. Notez que

w_{i} = \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) = \frac{- 2 ϵ_{i}}{1 + ϵ_{i}^{2}} \cdot (- \frac{1}{ϵ_{i}}) = \frac{2}{1 + ϵ_{i}^{2}} .

$w_i= \frac{f_0'(\epsilon_i)} {f_0(\epsilon_i)} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{-2 \epsilon_i} {1+\epsilon_i^2} \cdot \left(-\frac{1}{\epsilon_i}\right) = \frac{2}{1+\epsilon_i^2}.$

ϵ_{i} = y_{i} - μ

$\epsilon_i=y_i-\mu$

\sum w_{i} y_{i} = μ \sum w_{i},

$\sum w_i y_i = \mu \sum w_i,$

Les poids sont toujours positifs. $w_i$
Si le résidu est important, nous accordons moins de poids à l'observation correspondante.

$\hat{\mu}^{(0)}$

ϵ_{i}^{(0)} = y_{i} - {\hat{μ}}^{(0)}

$\epsilon_i^{(0)} = y_i - \hat{\mu}^{(0)}$

w_{i}^{(0)} = \frac{2}{1 + ϵ_{i}^{(0)}} .

$w_i^{(0)} = \frac{2}{1+\epsilon_i^{(0)} }.$

\hat{μ}

$\hat{\mu}$

{\hat{μ}}^{(1)} = \frac{\sum w_{i}^{(0)} y_{i}}{\sum w_{i}^{(0)}} .

$\hat{\mu}^{(1)} = \frac{\sum w_i^{(0)} y_i} {\sum w_i^{(0)} }.$

ϵ_{i}^{(j)} = y_{i} - {\hat{μ}}^{(j)}

$\epsilon_i^{(j)} = y_i- \hat{\mu}^{(j)}$

w_{i}^{(j)} = \frac{2}{1 + ϵ_{i}^{(j)}} .

$w_i^{(j)} = \frac{2}{1+\epsilon_i^{(j)} }.$

j + 1

$j+1$

{\hat{μ}}^{(j + 1)} = \frac{\sum w_{i}^{(j)} y_{i}}{\sum w_{i}^{(j)}} .

$\hat{\mu}^{(j+1)} = \frac{\sum w_i^{(j)} y_i} {\sum w_i^{(j)} }.$

{\hat{μ}}^{(0)}, {\hat{μ}}^{(1)}, \dots, {\hat{μ}}^{(j)}, \dots

$\hat{\mu}^{(0)}, \hat{\mu}^{(1)}, \ldots, \hat{\mu}^{(j)}, \ldots$

$f(y)= \frac{1}{\sigma} f_0(\frac{y-\mu}{\sigma})$ $Y_1,Y_2,\ldots,Y_n$ $\epsilon_i=\frac{y_i-\mu}{\sigma}$

l (y) = - \frac{n}{2} \log (σ^{2}) + \sum \log (f_{0} (\frac{y_{i} - μ}{σ})) .

$l(y)= -\frac{n}{2}\log(\sigma^2) + \sum \log(f_0\left(\frac{y_i-\mu}{\sigma}\right)).$

ν = σ^{2}

$\nu=\sigma^2$

\frac{\partial ϵ_{i}}{\partial μ} = - \frac{1}{σ}

$\frac{\partial \epsilon_i}{\partial \mu} = -\frac{1}{\sigma}$

\frac{\partial ϵ_{i}}{\partial ν} = (y_{i} - μ) {(\frac{1}{\sqrt{ν}})}^{'} = (y_{i} - μ) \cdot \frac{- 1}{2 σ^{3}} .

$\frac{\partial \epsilon_i}{\partial \nu} = (y_i-\mu)\left(\frac{1}{\sqrt{\nu}}\right)' = (y_i-\mu)\cdot \frac{-1}{2 \sigma^3}.$

\frac{\partial l (y)}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial μ} = \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{σ}) = - \frac{1}{σ} \sum \frac{f_{o}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) = \frac{1}{σ} \sum w_{i} ϵ_{i}

$\frac{\partial l(y)}{\partial \mu} = \sum \frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial \mu} = \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot\left(-\frac{1}{\sigma}\right)= -\frac{1}{\sigma}\sum\frac{f_o'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right)(-\epsilon_i) = \frac{1}{\sigma}\sum w_i \epsilon_i$

σ^{2}

$\sigma^2$

\begin{array}{rcl} \frac{\partial l (y)}{\partial ν} & = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot \frac{\partial ϵ_{i}}{\partial ν} \\ = & - \frac{n}{2} \frac{1}{ν} + \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{(y_{i} - μ)}{2 σ^{3}}) \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{σ^{2}} \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot ϵ_{i} \\ = & - \frac{n}{2} \frac{1}{ν} - \frac{1}{2} \frac{1}{ν} \sum \frac{f_{0}^{'} (ϵ_{i})}{f_{0} (ϵ_{i})} \cdot (- \frac{1}{ϵ_{i}}) (- ϵ_{i}) \cdot ϵ_{i} \\ = & - \frac{n}{2} \frac{1}{ν} + \frac{1}{2} \frac{1}{ν} \sum w_{i} ϵ_{i}^{2} \overset{!}{=} 0. \end{array}

$\begin{eqnarray} \frac{\partial l(y)}{\partial \nu} &=& -\frac{n}{2}\frac{1}{\nu} + \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \frac{\partial \epsilon_i}{\partial\nu} \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)} \cdot \left(-\frac{(y_i-\mu)}{2\sigma^3}\right) \nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu} - \frac{1}{2}\frac{1}{\sigma^2} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}-\frac{1}{2}\frac{1}{\nu} \sum\frac{f_0'(\epsilon_i)}{f_0(\epsilon_i)}\cdot \left(-\frac{1}{\epsilon_i}\right) (-\epsilon_i)\cdot\epsilon_i\nonumber \\ &=& -\frac{n}{2}\frac{1}{\nu}+\frac{1}{2}\frac{1}{\nu}\sum w_i \epsilon_i^2 \stackrel{!}{=} 0. \nonumber \end{eqnarray}$

\hat{σ^{2}} = \frac{1}{n} \sum w_{i} (y_{i} - \hat{μ})^{2} .

$\hat{\sigma^2} = \frac{1}{n}\sum w_i (y_i-\hat{\mu})^2.$

Dans ce qui suit, nous donnons un exemple numérique en utilisant R, pour le modèle exponentiel double (avec une échelle connue) et avec des données y <- c(-5,-1,0,1,5). Pour ces données, la vraie valeur de l'estimateur ML est 0. La valeur initiale sera mu <- 0.5. Un passage de l'algorithme est

  iterest <- function(y, mu) {
               w <- 1/abs(y-mu)
               weighted.mean(y,w)
               }

avec cette fonction, vous pouvez expérimenter avec faire les itérations "à la main" Ensuite, l'algorithme itératif peut être fait par

mu_0 <- 0.5
repeat {mu <- iterest(y,mu_0)
        if (abs(mu_0 - mu) < 0.000001) break
        mu_0 <- mu }

$t_k$ $\sigma$

w_{i} = \frac{k + 1}{k + ϵ_{i}^{2}} .

$w_i = \frac{k+1}{k+\epsilon_i^2}.$

w (ϵ) = \frac{1 - e^{ϵ}}{1 + e^{ϵ}} \cdot - \frac{1}{ϵ} .

$w(\epsilon) = \frac{ 1-e^\epsilon}{1+e^\epsilon} \cdot - \frac{1}{\epsilon}.$

Pour le moment je vais le laisser ici, je vais continuer ce post.

kjetil b halvorsen
la source

u

$u$

u_{i}

$u_i$

J'ajouterai plus à cela, juste hors du temps maintenant! Les idées restent les mêmes, mais les détails s'impliquent davantage.

kjetil b halvorsen

viendra à cela!

kjetil b halvorsen

t_{k}

$t_k$

ça vous dérange d'écrire un article de blog quelque part en continuant cette explication? vraiment utile pour moi et je suis sûr que ce sera pour les autres ...

ihadanny

Pouvez-vous donner une explication simple et intuitive de la méthode IRLS pour trouver le MLE d'un GLM?

Réponses: