Laquelle est la meilleure probabilité maximale ou la probabilité marginale et pourquoi?

Lors de la régression, si nous nous appuyons sur la définition de: Quelle est la différence entre une vraisemblance partielle, une vraisemblance de profil et une vraisemblance marginale?

cela, Maximum de vraisemblance
Trouvez β et θ qui maximise L (données β, θ |).

Tandis que, vraisemblance marginale
Nous intégrons θ de l'équation de vraisemblance en exploitant le fait que nous pouvons identifier la distribution de probabilité de θ conditionnelle à β.

Quelle est la meilleure méthodologie pour maximiser et pourquoi?

regression maximum-likelihood Ankit Chiplunkar
la source

Réponses:

Chacun d'eux donnera des résultats différents avec une interprétation différente. Le premier trouve le couple , qui est le plus probable, tandis que le second trouve le qui est (marginalement) le plus probable. Imaginez que votre distribution ressemble à ceci: $\beta$ $\theta$ $\beta$

$\beta=1$ $\beta=2$
$\theta=1$ 0.0 0.2
$\theta=2$ 0.1 0.2
$\theta=3$ 0.3 0.2

Alors la réponse de vraisemblance maximale est ( ), tandis que la réponse de vraisemblance marginale maximale est (puisque, en marginalisant sur , $\beta=1$ $\theta=3$ $\beta=2$ $\theta$ $P(\beta=2)=0.6$ ).

Je dirais qu'en général, la probabilité marginale est souvent ce que vous voulez - si vous ne vous souciez vraiment pas des valeurs des paramètres , alors vous devez simplement les réduire. Mais probablement dans la pratique, ces méthodes ne donneront pas de résultats très différents - si elles le font, cela peut indiquer une certaine instabilité sous-jacente dans votre solution, par exemple plusieurs modes avec différentes combinaisons de , qui donnent toutes des prédictions similaires. $\theta$ $\beta$ $\theta$

Chris
la source

J'ai trouvé des résultats différents pour les méthodes de vraisemblance maximale / marginale et donc la question. Je dirais que les deux résultats dans mon cas donnent des interprétations différentes mais des résultats possibles.

Ankit Chiplunkar

Je suis moi-même aux prises avec cette question en ce moment. Voici un résultat qui peut être utile. Considérons le modèle linéaire

y = X β + ϵ, ϵ \sim N (0, σ^{2})

$y = X\beta + \epsilon, \quad \epsilon \sim N(0,\sigma^2)$

où et et sont les paramètres d'intérêt. La probabilité conjointe est $y \in \mathbb{R}^n, \beta \in \mathbb{R}^p,$ $\beta$ $\sigma^2$

L (β, σ^{2}) = (2 π σ^{2})^{- n / 2} e x p (- \frac{| | y - X β | |^{2}}{2 σ^{2}})

$L(\beta,\sigma^2) = (2 \pi \sigma^2)^{-n/2} exp\left(-\frac{||y-X\beta||^2}{2\sigma^2}\right)$

Optimiser les rendements de vraisemblance conjointe

\hat{β} = X^{+} y

$\hat{\beta} = X^+ y$

{\hat{σ}}^{2} = \frac{1}{n} | | r | |^{2}

$\hat{\sigma}^2 = \frac{1}{n}||r||^2$

où est la pseudo -inverse de et est le vecteur en forme résiduelle. Notez que dans nous avons au lieu des degrés de liberté familiers corrigée rapport $X^+$ $X$ $r=y-X\hat{\beta}$ $\hat{\sigma}^2$ $1/n$ $1/(n-p)$ . Cet estimateur est connu pour être biaisé dans le cas de l'échantillon fini.

Now suppose instead of optimizing over both $\beta$ and $\sigma^2$ , we integrate $\beta$ out and estimate $\sigma^2$ from the resulting integrated likelihood:

{\hat{σ}}^{2} = {max}_{σ^{2}} \int_{R^{p}} L (β, σ^{2}) d β

$\hat{\sigma}^2 = \text{max}_{\sigma^2} \int_{\mathbb{R}^p} L(\beta,\sigma^2) d\beta$

Using elementary linear algebra and the Gaussian integral formula, you can show that

{\hat{σ}}^{2} = \frac{1}{n - p} | | r | |^{2}

$\hat{\sigma}^2 = \frac{1}{n-p} ||r||^2$

This has the degrees-of-freedom correction which makes it unbiased and generally favored over the joint ML estimate.

D'après ce résultat, on pourrait se demander s'il y a quelque chose de fondamentalement avantageux dans la probabilité intégrée, mais je ne connais aucun résultat général qui réponde à cette question. Le consensus semble être que le BC intégré est plus efficace pour rendre compte de l'incertitude dans la plupart des problèmes d'estimation. En particulier, si vous estimez une quantité qui dépend d'autres estimations de paramètres (même implicitement), l'intégration sur les autres paramètres rendra mieux compte de leurs incertitudes.

Paul
la source

C'est intéressant. Je suis cependant un peu troublé par le fait que "l'intégration

β

$\beta$ " uses an invalid marginal distribution, as well as by the absence of any apparent justification for using this (improper) marginal compared to any other. What thoughts do you have about these issues?

whuber

@whuber I share your concerns and don't have a ready answer, but note that the likelihood being marginalized is just a posterior with a uniform improper prior on

β

$\beta$ , so I think this is related to the "objective Bayesian" approach. There one does not care when a parameter like

β

$\beta$ has an improper prior distribution, so long as the posterior is integrable.

Paul

Actually, based on this post and comments therein, I think integrated ML, not marginal ML, is the right term for what we're doing here. Edited accordingly.

Paul

+1 I know i'm pretty late to this party but isn't integrating out fixed effects by putting an improper uniform prior on them exactly what REML does, so you've actually just obtained the REML estimate and this df correction is exactly the reason here that REML is better for smaller samples?

jld

@Chaconne yes, this post was motivated by trying to understand REML! I have (almost) no formal statistics education, so deriving this was all new to me.

Paul

This is usually not a matter of choice. If we are interested in the estimation of $\beta$ (e.g. when $\beta$ is a model hyperparameter and $\theta$ is a latent variable) and there is not a single value for $\theta$ and instead the distribution of $\theta$ in known, we need to integrate out $\theta$ . You can think of marginal likelihood as the weighted average of the likelihood for different values of $\theta_i$ weighted by their probability density $p(\theta_i)$ . Now that $\theta$ has disappeared, using training samples as $data$ , you can optimize the marginal likelihood w.r.t. $\beta$ .

Seeda
la source