Lors de la régression, si nous nous appuyons sur la définition de: Quelle est la différence entre une vraisemblance partielle, une vraisemblance de profil et une vraisemblance marginale?
cela, Maximum de vraisemblance
Trouvez β et θ qui maximise L (données β, θ |).
Tandis que, vraisemblance marginale
Nous intégrons θ de l'équation de vraisemblance en exploitant le fait que nous pouvons identifier la distribution de probabilité de θ conditionnelle à β.
Quelle est la meilleure méthodologie pour maximiser et pourquoi?
la source
Je suis moi-même aux prises avec cette question en ce moment. Voici un résultat qui peut être utile. Considérons le modèle linéaire
où et β et σ 2 sont les paramètres d'intérêt. La probabilité conjointe esty∈Rn,β∈Rp, β σ2
Optimiser les rendements de vraisemblance conjointe
où est la pseudo -inverse de X et r = y - X β est le vecteur en forme résiduelle. Notez que dans σ 2 nous avons 1 / n au lieu des degrés de liberté familiers corrigée rapport 1 / ( n - p )X+ X r=y−Xβ^ σ^2 1/n 1/(n−p) . Cet estimateur est connu pour être biaisé dans le cas de l'échantillon fini.
Now suppose instead of optimizing over bothβ and σ2 , we integrate β out and estimate σ2 from the resulting integrated likelihood:
Using elementary linear algebra and the Gaussian integral formula, you can show that
This has the degrees-of-freedom correction which makes it unbiased and generally favored over the joint ML estimate.
D'après ce résultat, on pourrait se demander s'il y a quelque chose de fondamentalement avantageux dans la probabilité intégrée, mais je ne connais aucun résultat général qui réponde à cette question. Le consensus semble être que le BC intégré est plus efficace pour rendre compte de l'incertitude dans la plupart des problèmes d'estimation. En particulier, si vous estimez une quantité qui dépend d'autres estimations de paramètres (même implicitement), l'intégration sur les autres paramètres rendra mieux compte de leurs incertitudes.
la source
This is usually not a matter of choice. If we are interested in the estimation ofβ (e.g. when β is a model hyperparameter and θ is a latent variable) and there is not a single value for θ and instead the distribution of θ in known, we need to integrate out θ . You can think of marginal likelihood as the weighted average of the likelihood for different values of θi weighted by their probability density p(θi) . Now that θ has disappeared, using training samples as data , you can optimize the marginal likelihood w.r.t. β .
la source