MLE nécessite-t-il des données iid? Ou simplement des paramètres indépendants?

16

L'estimation des paramètres à l'aide de l'estimation du maximum de vraisemblance (MLE) implique l'évaluation de la fonction de vraisemblance, qui met en correspondance la probabilité que l'échantillon (X) se produise avec les valeurs (x) sur l'espace des paramètres (θ) étant donné une famille de distribution (P (X = x | θ ) sur les valeurs possibles de θ (note: ai-je raison?). Tous les exemples que j'ai vus impliquent de calculer P (X = x | θ) en prenant le produit de F (X) où F est la distribution avec le local la valeur de θ et X est l'échantillon (un vecteur).

Puisque nous multiplions simplement les données, cela signifie-t-il que les données sont indépendantes? Par exemple, ne pourrions-nous pas utiliser MLE pour ajuster les données de séries chronologiques? Ou les paramètres doivent-ils simplement être indépendants?

Felix
la source

Réponses:

14

La fonction de vraisemblance est définie comme la probabilité d'un événement E (ensemble de données x ) en fonction des paramètres du modèle θ

L(θ;x)P(Event E;θ)=P(observing x;θ).

Par conséquent, il n'y a aucune hypothèse d'indépendance des observations. Dans l'approche classique, il n'y a pas de définition de l' indépendance des paramètres car ce ne sont pas des variables aléatoires; certains concepts connexes pourraient être l' identifiabilité , l' orthogonalité des paramètres et l'indépendance des estimateurs du maximum de vraisemblance (qui sont des variables aléatoires).

Quelques exemples,

(1). Affaire discrète . est un échantillon d'observations discrètes (indépendant) avec P ( observation  x j ; θ ) > 0 , alorsx=(x1,...,xn)P(observing xj;θ)>0

L(θ;x)j=1nP(observing xj;θ).

En particulier, si , avec N connu, nous avons quexjBinomial(N,θ)N

L(θ;X)j=1nθXj(1-θ)N-Xj.

(2). Approximation continue . Soit soit un échantillon à partir d' une variable aléatoire continue X , avec une distribution F et de la densité f , avec une erreur de mesure ε , ceci est, on observe les ensembles ( x j - ε , x j + ϵ ) . alorsx=(x1,...,xn)XFfϵ(xjϵ,xj+ϵ)

L(θ;x)j=1nP[observing (xjϵ,xj+ϵ);θ]=j=1n[F(xj+ϵ;θ)F(xjϵ;θ)]

Lorsque est petit, cela peut être approximé (en utilisant le théorème de la valeur moyenne) parϵ

L(θ;x)j=1nf(xj;θ)

Pour un exemple avec le cas normal, jetez un œil à ceci .

(3). Modèle dépendant et Markov . Supposons que est un ensemble d'observations éventuellement dépendantes et laisser f est la densité conjointe de x , puisx=(x1,...,xn)fx

L(θ;x)f(x;θ).

Si en plus la propriété Markov est satisfaite, alors

L(θ;x)f(x;θ)=f(x1;θ)j=1n1f(xj+1|xj;θ).

Jetez également un œil à cela .

Communauté
la source
3
À partir du moment où vous écrivez la fonction de vraisemblance en tant que produit, vous supposez implicitement une structure de dépendance parmi les observations. Ainsi, pour le MLE, il faut deux hypothèses (a) une sur la distribution de chaque résultat individuel et (b) une sur la dépendance entre les résultats.
10

(+1) Très bonne question.

Petite chose, MLE signifie estimation de vraisemblance maximale (non multiple), ce qui signifie que vous maximisez simplement la probabilité. Cela ne spécifie pas que la probabilité doit être produite par l'échantillonnage IID.

Si la dépendance de l'échantillonnage peut être écrite dans le modèle statistique, il vous suffit d'écrire la probabilité en conséquence et de la maximiser comme d'habitude.

Le seul cas qui mérite d'être mentionné lorsque vous ne supposez pas de dépendance est celui de l'échantillonnage gaussien multivarié (dans l'analyse des séries temporelles par exemple). La dépendance entre deux variables gaussiennes peut être modélisée par leur terme de covariance, que vous incorporez dans la vraisemblance.

2

12πσ21ρ2exp(z2σ2(1ρ2)),

where z is

z=(x1μ)22ρ(x1μ)(x2μ)+(x2μ)2.

This is not the product of the individual likelihoods. Still, you would maximize this with parameters (μ,σ,ρ) to get their MLE.

gui11aume
la source
2
These are good answers and examples. The only thing I would add to see this in simple terms is that likelihood estimation only requires that a model for the generation of the data be specified in terms of some unknown parameters be described in functional form.
Michael R. Chernick
(+1) Absolutely true! Do you have an example of model that cannot be specified in those terms?
gui11aume
@gu11aume I think you are referring to my remark. I would say that I was not giving a direct answer to the question. The answwer to the question is yes because there are examples that can be shown where the likelihood function can be expressed when the data are genersted by dependent random variables.
Michael R. Chernick
2
Examples where this cannot be done would be where the data are given without any description of the data generating mechanism or the model is not presented in a parametric form such as when you are given two iid data sets and are asked to test whether they come from the same distribution where you only specify that the distributions are absolutely continuous.
Michael R. Chernick
4

Of course, Gaussian ARMA models possess a likelihood, as their covariance function can be derived explicitly. This is basically an extension of gui11ame's answer to more than 2 observations. Minimal googling produces papers like this one where the likelihood is given in the general form.

Another, to an extent, more intriguing, class of examples is given by multilevel random effect models. If you have data of the form

yij=xijβ+ui+ϵij,
where indices j are nested in i (think of students j in classrooms i, say, for a classic application of multilevel models), then, assuming ϵijui, the likelihood is
lnLilnjf(yij|β,ui)dF(ui)
and is a sum over the likelihood contributions defined at the level of clusters, not individual observations. (Of course, in the Gaussian case, you can push the integrals around to produce an analytic ANOVA-like solution. However, if you have say a logit model for your response yij, then there is no way out of numerical integration.)
StasK
la source
2
Stask and @gui11aume, these three answers are nice but I think they miss a point: what about the consistency of the MLE for dependent data ?
Stéphane Laurent