Fonction de vraisemblance maximale pour la distribution de types mixtes

11

En général, nous maximisons une fonction

L(θ;x1,,xn)=i=1nf(xiθ)

où est la fonction de densité de probabilité si la distribution sous-jacente est continue, et une fonction de masse de probabilité (avec sommation au lieu du produit) si la distribution est discrète.f

Comment spécifier la fonction de vraisemblance si la distribution sous-jacente est un mélange entre une distribution continue et une distribution discrète, les poids de chacun dépendant de ?θ

bonifaz
la source
2
Qu'est-ce qui ne s'applique pas exactement à votre avis ..?
Tim
@Tim, ma confusion résulte du fait de ne pas savoir que la fonction de vraisemblance avait une définition plus générale que la définition standard des probabilités continues et discrètes. Autrement dit, ma pensée était la suivante. La distribution n'est ni continue, ni discrète, elle ne peut donc pas avoir de fonction de vraisemblance. Depuis, il n'y a pas de fonction de vraisemblance donc MLE ne s'applique pas.
gregorias
1
La distribution ne peut être ni discrète ni continue, comme par exemple, la distribution de Cantor et comme noté par Xi'an, la probabilité est définie en termes de fonctions de densité de probabilité, vous n'avez donc besoin que du pdf de votre distribution pour définir la probabilité.
Tim
@Tim, je suis tout à fait conscient qu'il existe différentes distributions. C'est le point que j'essayais de faire valoir. Notez que la probabilité est un concept plus général qu'un pdf. En particulier, seules les variables continues ont un pdf (exactement ces distributions l'ont). Par exemple, la distribution Cantor que vous mentionnez n'a pas de pdf.
gregorias
Cela dépend de la façon dont vous définissez les pdf, pmf peut être considéré comme un cas spécial de pdf. Vous pouvez définir des pdf de distributions discrètes en termes de delta dirac, etc., donc ce n'est pas un problème que la distribution soit de type discret ou mixte.
Tim

Réponses:

7

La fonction de vraisemblance est la densité des données à la valeur observée exprimée en fonction de Cette densité est définie pour chaque valeur (acceptable) de presque partout sur le support de , , contre une mesure particulière sur qui ne dépend pas de . Pour toute famille paramétrique, il devrait exister une telle mesure dominante à travers tous les , donc une densité, donc une vraisemblance.(θ|x)xθ

(θ|x)=f(x|θ)
θxXXθθ

Voici un extrait pertinent de l'article de Wikipedia sur les fonctions de vraisemblance (le stress est le mien):

Dans la théorie des probabilités théorique, la fonction de densité est définie comme la dérivée de Radon-Nikodym de la distribution de probabilité par rapport à une mesure dominante. Cela fournit une fonction de vraisemblance pour tout modèle de probabilité avec toutes les distributions, qu'elles soient discrètes, absolument continues, un mélange ou autre chose. (Les probabilités ne seront comparables, par exemple, pour l'estimation des paramètres, que si elles sont des dérivés de Radon – Nikodym par rapport à la même mesure dominante.)

Xi'an
la source
7

J'avoue avoir posé cette question pendant un certain temps un peu plus tôt dans ma carrière. Une façon dont je me suis convaincu de la réponse était de prendre une vue extrêmement pratique et appliquée de la situation, une vue qui reconnaît qu'aucune mesure n'est parfaite. Voyons où cela pourrait mener.

Le but de cet exercice est d'exposer les hypothèses qui pourraient être nécessaires pour justifier le mélange quelque peu désinvolte des densités et des probabilités dans les expressions de vraisemblances. Je soulignerai donc ces hypothèses partout où elles seront introduites. Il s'avère que quelques-uns sont nécessaires, mais ils sont assez doux et couvrent toutes les applications que j'ai rencontrées (qui seront évidemment limitées, mais en incluent encore quelques-unes).

Le problème concerne une distribution mixte qui n'est ni absolument continue ni singulière. Le théorème de décomposition de Lebesgue nous permet de considérer une telle distribution comme un mélange d'une distribution absolument continue (qui par définition a une fonction de densité ) et d'une singulière ("discrète"), qui a une fonction de masse de probabilité (Je vais ignorer la possibilité qu'un troisième composant, continu mais pas absolument continu, soit présent. Ceux qui utilisent de tels modèles ont tendance à savoir ce qu'ils font et ont généralement toutes les compétences techniques pour les justifier.)F,fafd.

Lorsque est membre d'une famille paramétrique de distributions, nous pouvons écrireF=Fθ

Fθ(x)=Faθ(x)+Fdθ(x)=xfa(t;θ)dt+txfd(t;θ).

(La somme est tout au plus dénombrable, bien sûr.) Ici, est une fonction de densité de probabilité multipliée par un certain coefficient de mélange et est une probabilité fonction de masse multipliée parfa(;θ)λ(θ)fd(;θ)1λ(θ).

Interprétons toute observation dans un ensemble de données iid comme "vraiment", ce qui signifie que nous avons une certaine connaissance qu'une vraie valeur sous-jacente réelle se situe dans un intervalle entourant mais sans informations sur En supposant que nous connaissons tous les deltas et epsilons, cela ne pose plus de problème pour construire une vraisemblance car tout peut être exprimé en termes de probabilités:xiX=(x1,x2,,xn)yi(Xje-δje,Xje+ϵje]Xje,yje.

L(X;θ)=je(Fθ(Xje+ϵje)-Fθ(Xje-δje)).

Si le support de n'a pas de points de condensation à n'importe quelFθXje, sa contribution à la probabilité se réduira au maximum à un seul terme à condition que les epsilons et les deltas soient rendus suffisamment petits: il n'y aura pas de contribution lorsque n'est pas dans son soutien.Xje

Si nous supposons que est Lipschitz continu à toutes les valeurs de données,Fune(;θ) alors uniformément dans les tailles des epsilons et deltas, nous pouvons approximer la partie absolument continue de commeFθ(Xje)

Funeθ(Xje+ϵje)-Funeθ(Xje-δje)=Fune(Xje;θ)(ϵje+δje)+o(|ϵje+δje|).

L'uniformité de cette approximation signifie que lorsque nous prenons tous les epsilons et deltas pour devenir petits, tous les termes deviennent également petits. Par conséquent, il existe une valeur infiniment petite régie par les contributions de tous ces termes d'erreur, pour laquelleo()ϵ(θ)>0,

L(X;θ)=i(fa(xi;θ)(ϵi+δi)+o(|ϵi+δi|)+fd(xi;θ))=i(fa(xi;θ)(ϵi+δi)+fd(xi;θ)) + o(ϵ(θ)).

C'est encore un peu compliqué, mais cela montre où nous allons. Dans le cas de données censurées, généralement une seule partie de chaque terme dans le produit sera différente de zéro, car ces modèles supposent généralement que le support de la partie singulière de la distribution est dissocié du support de la partie continue, quel que soit le le paramètre pourrait être. θ(Plus précisément: implique ) Cela nous permet de diviser le produit en deux parties et nous pouvons factoriser les contributions de tous les intervalles hors de la partie continue:F(X)0Fune(X+ϵ)-Fune(X-ϵ)=o(ϵ).

L(X;θ)=(je=1k(ϵje+δje))je=1kFune(Xje;θ) je=k+1nF(Xje;θ).

(Sans aucune perte de généralité, j'ai indexé les données de sorte que contribuent à la partie continue et sinon contribue à la partie singulière de la probabilité.)Xje,je=1,2,,kXje,je=k+1,k+2,,n

Cette expression montre maintenant clairement que

Étant donné que les largeurs d'intervalle sont fixes, elles ne contribuent pas à la vraisemblance (qui n'est définie que jusqu'à un multiple constant positif).ϵje+δje

En conséquence, nous pouvons travailler avec l'expression

L(X;θ)=je=1kFune(Xje;θ) je=k+1nF(Xje;θ)

lors de la construction des rapports de vraisemblance ou de la maximisation de la probabilité. La beauté de ce résultat est que nous n'avons jamais besoin de connaître les tailles des intervalles finis qui sont utilisés dans cette dérivation: les epsilons et les deltas tombent immédiatement. Nous avons seulement besoin de savoir que nous pouvons les rendre suffisamment petits pour que l'expression de vraisemblance avec laquelle nous travaillons soit une approximation adéquate de l'expression de vraisemblance que nous utiliserions si nous connaissions les tailles d'intervalle.

whuber
la source
1
Excellente réponse (+1). Une suggestion d'amélioration - dans le cas où il y a un support commun à un point (de sorte que vous ne pouvez pas séparer les termes discrets et continus dans la somme), alors le terme discret domine totalement le terme continu, donc la probabilité ignorera le continu partie à ce point (le mettre effectivement à zéro). Cela signifie que même s'il existe un point avec un support commun, il sera traité comme étant simplement la partie discrète, et vous obtiendrez la même décomposition du produit que vous obtenez ici. (Sauf si je manque quelque chose.)
Ben - Réintègre Monica
1
@Ben Merci pour ce commentaire perspicace. Je préférerais cependant esquiver cette question, car je suis un peu préoccupé par certains cas «marginaux» qui pourraient survenir. Que ferait-on, par exemple, lorsque devient infini à l'un des points d'appui de ? FuneF
whuber
1
Oui, cela deviendrait épineux. Dodge a compris!
Ben - Réintègre Monica
1
J'ai ajouté une réponse en notant un aspect supplémentaire de ce problème, où il s'avère être résolu le plus facilement en ignorant la densité continue dans le support de la partie discrète. Veuillez lire ma réponse et voir si cela ajoute une motivation supplémentaire à traiter cet aspect du problème. (Mon intuition est que même si devient infini à un point dans le support de il serait toujours considéré comme infiniment plus petit que la partie discrète.)FuneF
Ben - Rétablir Monica
6

Cette question est un problème fondamental extrêmement important dans l'analyse de vraisemblance, et aussi très subtil et difficile, donc je suis assez surpris de certaines des réponses superficielles qu'il reçoit dans les commentaires.

En tout cas, dans cette réponse, je vais juste ajouter un petit point à l' excellente réponse de whuber (qui, je pense, est la bonne approche de ce problème). Ce point est que les fonctions de vraisemblance dans ce contexte proviennent de fonctions de densité sur une mesure dominante mixte, ce qui conduit à la propriété intéressante que nous pouvons mettre à l'échelle arbitrairement les tailles relatives de la fonction de vraisemblance sur les parties continues et discrètes et nous avons encore une valeur valide fonction de vraisemblance . Cela soulève une question évidente de savoir comment mettre en œuvre des techniques de vraisemblance lorsqu'il n'y a pas de fonction de vraisemblance unique.

Pour illustrer ce point, il faut une présentation préliminaire de la densité d'échantillonnage en tant que dérivé de Radon-Nikodym de la mesure de probabilité. Je vais d'abord montrer comment obtenir une fonction de densité pour une mesure dominante mixte, puis je montrerai pourquoi cela conduit à la possibilité de mettre à l'échelle les parties continues et discrètes de la probabilité à volonté. Enfin, je discuterai des implications de cette question pour l'analyse basée sur les probabilités et donnerai mon avis sur sa résolution. Je pense que cela est essentiellement résolu par la méthode whuber présente dans sa réponse, mais il devrait être étendu dans la direction que j'ai discuté dans les commentaires à cette réponse, de manière à assurer que chaque point dans le support de la partie discrète ignores la partie continue à ce point.


Exprimer la densité à l'aide d'une mesure dominante: l'approche standard pour traiter les densités mixtes pour des variables aléatoires réelles consiste à utiliser la mesure de Lebesgue comme mesure dominante pour la partie continue et la mesure de comptage (sur un ensemble dénombrable spécifié ) comme mesure dominante pour la partie discrète. Cela conduit au dérivé Radon-Nikodym défini par:λLEB λCOMPTERR

P(XUNE|θ)=UNEF(X|θ) λLEB(X)+UNEp(X|θ) λCOMPTER(X).

(Notez que cette dernière intégrale dégénère jusqu'à une somme sur les éléments . Nous l'écrivons ici comme une intégrale pour rendre la similitude entre les deux termes plus claire.) On peut utilisez une densité unique en prenant la mesure et en définissant:XUNEλλLEB+λCOMPTER

F(X|θ)je(X)F(X|θ)+je(X)p(X|θ).

En utilisant comme mesure dominante, nous avons alors l'expression suivante pour la probabilité d'intérêt:λ

P(XUNE|θ)=UNEF(X|θ) λ(X).

Cela montre que la fonction est un dérivé de Radon-Nikodym valide de la mesure de probabilité sur , c'est donc une densité valide pour cette variable aléatoire. Puisqu'il dépend de et nous pouvons alors définir une fonction de vraisemblance valide en maintenant fixe et en la traitant comme une fonction de .FXXθLX(θ)F(X|θ)Xθ


Effet de la mise à l'échelle des mesures dominantes: Maintenant que nous comprenons l'extraction d'une densité à partir d'une mesure dominante, cela conduit à une propriété étrange où nous pouvons mettre à l'échelle les tailles relatives de la vraisemblance sur les parties continues et discrètes et nous avons encore une vraisemblance valide une fonction. Si nous utilisons maintenant la mesure dominante pour certaines constantes positives et alors nous obtenons maintenant la densité Radon-Nikodym correspondante:λαλLEB+βλCOMPTERα>0β>0

F(X|θ)je(X)αF(X|θ)+je(X)βp(X|θ).

En utilisant comme mesure dominante, nous avons alors l'expression suivante pour la probabilité d'intérêt:λ

P(XUNE|θ)=UNEF(X|θ) λ(X).

Comme dans le cas ci-dessus, nous pouvons définir une fonction de vraisemblance valide en maintenant fixe et en la traitant comme une fonction de . Vous pouvez voir que la liberté de varier et nous donne maintenant la liberté de mettre à l'échelle les tailles relatives des parties continues et discrètes dans la fonction de vraisemblance autant que nous le voulons, tout en ayant une fonction de vraisemblance valide (quoique par rapport à une mesure dominante différente, avec une mise à l'échelle correspondante des parties).LX(θ)F(X|θ)Xθαβ

Ce résultat particulier n'est qu'une partie du résultat plus général selon lequel chaque fonction de probabilité est définie par rapport à une mesure dominante sous-jacente (implicite), et aucune fonction de probabilité unique ne peut être définie indépendamment de cette mesure sous-jacente. Néanmoins, dans ce cas particulier, nous voyons qu'il est toujours basé sur une mesure dominante qui est une combinaison de mesure de Lebesgue et de mesure de comptage, donc nous n'avons pas vraiment beaucoup de singe avec la mesure. Puisqu'il n'y a pas de justification objective pour former la mesure dominante à partir de pondérations égales de la mesure de Lebesgue et de la mesure de comptage, cela implique qu'il n'y a pas de justification objective pour la mise à l'échelle relative des parties continues et discrètes de la fonction de vraisemblance.


Implications pour l'analyse de vraisemblance: Cela pourrait nous mettre dans une sorte de dilemme. Nous pouvons arbitrairement augmenter ou diminuer la taille relative des parties discrètes et continues de la fonction de vraisemblance et nous pouvons toujours prétendre que cette fonction de vraisemblance est valide. Heureusement, ce problème peut être résolu en reconnaissant que les constantes de mise à l'échelle sortiront de la fonction de vraisemblance de la même manière que l'illustre la réponse de whuber . Autrement dit, si nous avons et nous obtiendrons:X1,...,XkXk+1,...,Xn

LX(θ)=je=1nLXje(θ)=je=1nF(Xje|θ)=(je=1k1αF(Xje|θ))(je=k+1n1βp(Xje|θ))=1αkβn-k(je=1kF(Xje|θ))(je=k+1np(Xje|θ))=1αkβn-kje=1nF(Xje|θ)je=1nF(Xje|θ)=je=1nLXje(θ)=LX(θ).

Cela montre que les propriétés de mise à l'échelle de la mesure dominante n'affectent la fonction de vraisemblance qu'à travers une constante de mise à l'échelle qui peut être ignorée dans les problèmes MLE standard. Notez que dans mon traitement de ce problème, cette propriété utile s'est produite en conséquence directe du fait que la densité d'échantillonnage est définie d'une manière qui ignore la densité continue lorsque nous sommes à l'appui de la partie discrète. (Cela diffère de la réponse de Whuber , où il autorise une combinaison de ces parties. Je pense que cela pourrait en fait entraîner des problèmes difficiles; voir mes commentaires sur cette réponse.)


Ce résultat n'est pas limité aux cas mixtes. Même dans des cas simples avec des variables aléatoires continues ou discrètes, si vous modifiez la mesure dominante sous-jacente, cela donnera une variation correspondante de la dérivée de Radon-Nikodym, ce qui conduit alors à une fonction de vraisemblance différente.

Ben - Réintègre Monica
la source
3
+1. Je pense que vous avez fait du bon travail en reliant mon explication élémentaire à la réponse théorique originale de @ Xi'an, nous faisant ainsi (très informativement) boucler la boucle.
whuber
3

Un exemple où cela se produit, c'est-à-dire la probabilité donnée par un modèle de probabilité de type mixte continu / discret, concerne les données censurées. Pour un exemple, voir Régression des erreurs normales pondérées avec censure .

En général, cela peut être formulé en utilisant la théorie des mesures. Supposons ensuite un modèle statistique avec une fonction de modèle qui est un dérivé de Radon-Nikodym par rapport à une mesure commune (qui ne devrait pas dépendre du paramètre ). La fonction de vraisemblance basée sur un échantillon indépendant est alors . C'est vraiment la même chose dans les cas continus, discrets et mixtes.F(X;θ)λθX1,X2,,XnjeF(Xje;θ)

Un exemple simple pourrait être la modélisation des précipitations quotidiennes. Cela pourrait être zéro, avec une probabilité positive, ou positif. Ainsi, pour la mesure dominante nous pourrions utiliser la somme de la mesure de Lebesgue sur et un atome à zéro. λ(0,)

kjetil b halvorsen
la source