Mise à jour récursive du MLE en tant que nouveau flux d'observations dans

15

Question générale

Supposons que nous ayons des données iid X1 , X2 , ... streaming. Nous voulons calculer récursivement l'estimation de la probabilité maximale de . Autrement dit, avoir calculé nous observons un nouveau x_n et souhaitons en quelque sorte mettre à jour progressivement notre estimation \ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n} sans avoir à recommencer à zéro. Existe-t-il des algorithmes génériques pour cela?F(X|θ)θ& thetav n - 1 = arg max & thetav R p n - 1 Π i = 1 f ( x i

θ^n-1=argmaxθRpje=1n-1F(Xje|θ),
Xnθ n - 1 ,
θ^n-1,Xnθ^n

Exemple de jouet

Si X1 , X2 , ... N(X|μ,1) , alors

μ^n-1=1n-1je=1n-1Xjeetμ^n=1nje=1nXje,
donc
μ^n=1n[(n-1)μ^n-1+Xn].

jcz
la source
6
N'oubliez pas l'inverse de ce problème: la mise à jour de l'estimateur au fur et à mesure que les anciennes observations sont supprimées.
Hong Ooi
Les moindres carrés récursifs (RLS) sont une solution (très célèbre) à une instance particulière de ce problème, n'est-ce pas? En général, je pense que la littérature sur le filtrage stochastique pourrait être utile à examiner.
jhin

Réponses:

13

Voir le concept de suffisance et en particulier, les statistiques minimales suffisantes . Dans de nombreux cas, vous avez besoin de l'échantillon entier pour calculer l'estimation à une taille d'échantillon donnée, sans moyen trivial de mettre à jour à partir d'un échantillon d'une taille plus petite (c'est-à-dire qu'il n'y a pas de résultat général pratique).

Si la distribution est une famille exponentielle (et dans certains autres cas d'ailleurs; l'uniforme est un bon exemple), il y a une belle statistique suffisante qui peut dans de nombreux cas être mise à jour de la manière que vous recherchez (c'est-à-dire avec un certain nombre de distributions couramment utilisées, il y aurait une mise à jour rapide).

Un exemple que je ne connais pas de moyen direct de calculer ou de mettre à jour est l'estimation de l'emplacement de la distribution de Cauchy (par exemple avec l'échelle de l'unité, pour faire du problème un problème simple à un paramètre). Il peut y avoir une mise à jour plus rapide, cependant, que je n'ai tout simplement pas remarqué - je ne peux pas dire que j'ai vraiment fait plus que le regarder pour examiner le cas de mise à jour.

D'un autre côté, avec des MLE obtenus par des méthodes d'optimisation numérique, l'estimation précédente serait dans de nombreux cas un excellent point de départ, car généralement l'estimation précédente serait très proche de l'estimation mise à jour; en ce sens au moins, une mise à jour rapide devrait souvent être possible. Même si ce n'est pas le cas général, cependant - avec les fonctions de vraisemblance multimodales (encore une fois, voir le Cauchy pour un exemple), une nouvelle observation pourrait conduire à ce que le mode le plus élevé soit à une certaine distance du précédent (même si les emplacements de chaque des modes les plus importants n'ont pas beaucoup changé, celui qui est le plus élevé pourrait bien changer).

Glen_b -Reinstate Monica
la source
1
Merci! Le point concernant les modes de commutation MLE en cours de route est particulièrement utile pour comprendre pourquoi cela serait difficile en général.
jcz
1
Vous pouvez le constater par vous-même avec le modèle de Cauchy à l'échelle unitaire ci-dessus et les données (0.1,0.11,0.12,2.91,2.921,2.933). La log-vraisemblance pour l'emplacement des modes est proche de 0,5 et 2,5, et le pic (légèrement) plus élevé est celui proche de 0,5. Faites maintenant l'observation suivante 10 et le mode de chacun des deux pics se déplace à peine mais le deuxième pic est maintenant sensiblement plus élevé. La descente en pente ne vous aidera pas lorsque cela se produit, c'est presque comme recommencer. Si votre population est un mélange de deux sous-groupes de taille similaire avec des emplacements différents, de telles circonstances pourraient se produire -. ... ctd
Glen_b -Reinstate Monica
ctd ... même dans un échantillon relativement important. Dans la bonne situation, le changement de mode peut se produire assez souvent.
Glen_b -Reinstate Monica
Une condition empêchant la multimodalité est que la probabilité soit log-concave par rapport au vecteur de paramètre pour tout . Cela implique toutefois des limites sur le modèle. n
Yves
Oui correct; J'ai débattu avec moi-même de l'opportunité d'en discuter dans la réponse.
Glen_b -Reinstate Monica
4

Dans l'apprentissage automatique, on parle d' apprentissage en ligne .

Comme l'a souligné @Glen_b, il existe des cas particuliers dans lesquels le MLE peut être mis à jour sans avoir besoin d'accéder à toutes les données précédentes. Comme il le souligne également, je ne pense pas qu'il existe une solution générique pour trouver le MLE.

Une approche assez générique pour trouver la solution approximative consiste à utiliser quelque chose comme la descente de gradient stochastique. Dans ce cas, au fur et à mesure que chaque observation arrive, nous calculons le gradient par rapport à cette observation individuelle et déplaçons les valeurs des paramètres d'une très petite quantité dans cette direction. Dans certaines conditions, nous pouvons montrer que cela convergera vers un voisinage du MLE avec une forte probabilité; le voisinage est de plus en plus serré lorsque nous réduisons la taille des pas, mais davantage de données sont nécessaires pour la convergence. Cependant, ces méthodes stochastiques nécessitent en général beaucoup plus de manipulations pour obtenir de bonnes performances que, disons, les mises à jour de formulaires fermés.

Cliff AB
la source