Le fait est que parfois, des modèles différents (pour les mêmes données) peuvent conduire à des fonctions de vraisemblance qui diffèrent par une constante multiplicative, mais le contenu de l'information doit clairement être le même. Un exemple:
Nous modélisons expériences de Bernoulli indépendantes, conduisant à des données , chacune avec une distribution de Bernoulli avec le paramètre (probabilité) . Cela conduit à la fonction de vraisemblance
Ou nous pouvons résumer les données par la variable binomiale distribuée , qui a une distribution binomiale, conduisant à la fonction de vraisemblance
qui, en fonction du paramètre inconnu , est proportionnelle à l'ancienne fonction de vraisemblance . Les deux fonctions de vraisemblance contiennent clairement les mêmes informations et devraient conduire aux mêmes inférences!nX1,…,Xnp∏i = 1npXje( 1 - p )1 - xje
Oui= X1+ X2+ ⋯ + Xn( ny) py( 1 - p )n - y
p
Et en effet, par définition, ils sont considérés comme la même fonction de vraisemblance.
Autre point de vue: observez que lorsque les fonctions de vraisemblance sont utilisées dans le théorème de Bayes, comme cela est nécessaire pour l'analyse bayésienne, de telles constantes multiplicatives s'annulent tout simplement! ils sont donc manifestement sans rapport avec l'inférence bayésienne. De même, il s'annulera lors du calcul des rapports de vraisemblance, tels qu'ils sont utilisés dans les tests d'hypothèse optimaux (lemme de Neyman-Pearson.) Et il n'aura aucune influence sur la valeur des estimateurs du maximum de vraisemblance. Nous pouvons donc voir que dans une grande partie de l'inférence fréquentiste, il ne peut pas jouer un rôle.
Nous pouvons discuter d'un point de vue encore différent. La fonction de probabilité de Bernoulli (ci-après nous utilisons le terme "densité") ci-dessus est vraiment une densité par rapport à la mesure de comptage, c'est-à-dire la mesure sur les entiers non négatifs avec la masse un pour chaque entier non négatif. Mais nous aurions pu définir une densité par rapport à une autre mesure dominante. Dans cet exemple, cela semblera (et est) artificiel, mais dans les grands espaces (espaces fonctionnels), c'est vraiment fondamental! Utilisons à des fins d'illustration la distribution géométrique spécifique, écrite , avec , , et bientôt. Alors la densité de la distribution de Bernoulli par rapport àλλ ( 0 ) = une / deuxλ(1)=1/4λ(2)=1/8λf λ ( x ) = p x ( 1 - p ) 1 - x ⋅ 2 x + 1 P ( X = x ) = f λ ( x ) ⋅ λest donné par
ce qui signifie que
Avec cette nouvelle mesure dominante, la fonction de vraisemblance devient (avec la notation ci-dessus)
notez le facteur supplémentaire . Ainsi, lors du changement de la mesure dominante utilisée dans la définition de la fonction de vraisemblance, une nouvelle constante multiplicative apparaît, qui ne dépend pas du paramètre inconnufλ(x)=px(1−p)1−x⋅2x+1
P( X= x ) = fλ( x ) ⋅ λ ( x )
∏i = 1npXje( 1 - p )1 - xje2Xje+ 1= py( 1 - p )n - y2y+ n
2y+ np, et est clairement hors de propos. C'est une autre façon de voir comment les constantes multiplicatives doivent être sans importance. Cet argument peut être généralisé en utilisant des dérivés de Radon-Nikodym (comme l'argument ci-dessus en est un exemple.)
Cela signifie essentiellement que seule la valeur relative du PDF est importante. Par exemple, le PDF normal (gaussien) standard est: , votre livre dit qu'ils pourraient utiliser place, car ils ne se soucient pas de l'échelle, c'est-à-dire .g(x)=e-x2/2c=1F( x ) = 12 π√e- x2/ 2 g( x ) = e- x2/ 2 c = 12 π√
Cela se produit car ils maximisent la fonction de vraisemblance, et et auront le même maximum. Par conséquent, le maximum de sera le même que de . Donc, ils ne se soucient pas de l'échelle.g ( x ) e - x deux / deux f ( x )c ⋅ g( x ) g( x ) e- x2/ 2 F( x )
la source
Je ne peux pas expliquer le sens de la citation, mais pour l' estimation du maximum de vraisemblance , peu importe que nous choisissions de trouver le maximum de la fonction de vraisemblance (considérée comme une fonction de θ ou le maximum d' un L ( x ; θ ) où a est une constante. C'est parce que nous ne sommes pas intéressés par la valeur maximale de mais plutôt par la valeur où ce maximum se produit, et à la fois etL ( x ; θ ) θ a L ( x ; θ ) une θ ML L ( x ; θ ) a L ( x ; θ )L ( x ; θ ) θML L ( x ; θ ) a L ( x ; θ ) atteindre leur valeur maximale dans le même
. Ainsi, les constantes multiplicatives peuvent être ignorées. De même, nous pourrions choisir de considérer toute fonction monotone
(comme le logarithme) de la fonction de vraisemblance g ( ⋅ ) L ( x ; θ ) , déterminez le maximum de g ( L ( x ; θ ) ) et en déduisez la valeur de
θ ML . Pour le logarithme, la constante multipliative
a devient la constante additive ln ( a ) et cela aussi peut être ignoré dans le processus de recherche de l'emplacement du maximum:
ln ( a ) + ln ( L ( x ; θθML g( ⋅ ) L ( x ; θ ) g( L ( x ; θ ) ) θML une ln( A )
est maximisée au même point que ln ( L ( x ; θ ) .ln( a ) + ln( L ( x ; θ ) ln( L ( x ; θ )
En ce qui concerne l' estimation de la probabilité maximale a posteriori (MAP), est considéré comme une réalisation d'une variable aléatoire Θ avec une fonction de densité a priori f Θ ( θ ) , les données x sont considérées comme une réalisation d'une variable aléatoire X , et la probabilité est considérée comme la valeur de la densité conditionnelle f X ∣ Θ ( x ∣ Θ = θ ) de X conditionnée à Θ = θθ Θ FΘ( θ ) X X FX ∣Θ( x ∣ Θ = θ ) X Θ = θ ; ladite fonction de densité conditionnelle étant évaluée à . La densité a posteriori de Θ est
f Θ ∣ X ( θ ∣ x ) = f X ∣ Θ ( x ∣ Θ = θ ) f Θ ( θ )X Θ
dans laquelle on reconnaît le numérateur comme ladensité conjointefX,Θ(x,θ)des données et du paramètre à estimer. Le pointθMAPoù
fΘ∣X(θ∣x)atteint sa valeur maximale est l'estimation MAP deθ, et, en utilisant les mêmes arguments que dans le paragraphe, nous voyons que nous pouvons ignorer[fX(x)]-1sur le côté droit de
la source
la source
Il peut y avoir des circonstances inhabituelles où vous devrez maximiser la probabilité soumise à un plafond - et alors vous devez vous «souvenir» d'inclure toutes les constantes dans le calcul de sa valeur.
En outre, vous pouvez effectuer des tests de sélection de modèle pour les modèles non imbriqués, en utilisant la valeur de la vraisemblance dans le processus - et puisque les modèles ne sont pas imbriqués, les deux probabilités auront des constantes différentes.
En dehors de cela, la phrase
est faux , parce que la probabilité est d' abord une fonction de densité de probabilité conjointe , et pas seulement "n'importe quelle" fonction objective à maximiser.
la source