La fonction de vraisemblance est définie comme la probabilité d'un événement E (ensemble de données x ) en fonction des paramètres du modèle θ
L(θ;x)∝P(Event E;θ)=P(observing x;θ).
Par conséquent, il n'y a aucune hypothèse d'indépendance des observations. Dans l'approche classique, il n'y a pas de définition de l' indépendance des paramètres car ce ne sont pas des variables aléatoires; certains concepts connexes pourraient être l' identifiabilité , l' orthogonalité des paramètres et l'indépendance des estimateurs du maximum de vraisemblance (qui sont des variables aléatoires).
Quelques exemples,
(1). Affaire discrète . est un échantillon d'observations discrètes (indépendant) avec P ( observation x j ; θ ) > 0 , alorsx=(x1,...,xn)P(observing xj;θ)>0
L (θ;x)∝ ∏j = 1nP(observing xj;θ).
En particulier, si , avec N connu, nous avons quexj∼Binomial(N,θ)N
L (θ;x)∝ ∏j = 1nθXj( 1 - θ )N- xj.
(2). Approximation continue . Soit soit un échantillon à partir d' une variable aléatoire continue X , avec une distribution F et de la densité f , avec une erreur de mesure ε , ceci est, on observe les ensembles ( x j - ε , x j + ϵ ) . alorsx=(x1,...,xn)XFfϵ(xj−ϵ,xj+ϵ)
L(θ;x)∝∏j=1nP[observing (xj−ϵ,xj+ϵ);θ]=∏j=1n[F(xj+ϵ;θ)−F(xj−ϵ;θ)]
Lorsque est petit, cela peut être approximé (en utilisant le théorème de la valeur moyenne) parϵ
L(θ;x)∝∏j=1nf(xj;θ)
Pour un exemple avec le cas normal, jetez un œil à ceci .
(3). Modèle dépendant et Markov . Supposons que est un ensemble d'observations éventuellement dépendantes et laisser f est la densité conjointe de x , puisx=(x1,...,xn)fx
L(θ;x)∝f(x;θ).
Si en plus la propriété Markov est satisfaite, alors
L(θ;x)∝f(x;θ)=f(x1;θ)∏j=1n−1f(xj+1|xj;θ).
Jetez également un œil à cela .
(+1) Très bonne question.
Petite chose, MLE signifie estimation de vraisemblance maximale (non multiple), ce qui signifie que vous maximisez simplement la probabilité. Cela ne spécifie pas que la probabilité doit être produite par l'échantillonnage IID.
Si la dépendance de l'échantillonnage peut être écrite dans le modèle statistique, il vous suffit d'écrire la probabilité en conséquence et de la maximiser comme d'habitude.
Le seul cas qui mérite d'être mentionné lorsque vous ne supposez pas de dépendance est celui de l'échantillonnage gaussien multivarié (dans l'analyse des séries temporelles par exemple). La dépendance entre deux variables gaussiennes peut être modélisée par leur terme de covariance, que vous incorporez dans la vraisemblance.
wherez is
This is not the product of the individual likelihoods. Still, you would maximize this with parameters(μ,σ,ρ) to get their MLE.
la source
Of course, Gaussian ARMA models possess a likelihood, as their covariance function can be derived explicitly. This is basically an extension of gui11ame's answer to more than 2 observations. Minimal googling produces papers like this one where the likelihood is given in the general form.
Another, to an extent, more intriguing, class of examples is given by multilevel random effect models. If you have data of the form
la source