Question générale
Supposons que nous ayons des données iid , , ... streaming. Nous voulons calculer récursivement l'estimation de la probabilité maximale de . Autrement dit, avoir calculé
nous observons un nouveau x_n et souhaitons en quelque sorte mettre à jour progressivement notre estimation
\ hat {\ boldsymbol {\ theta}} _ {n-1}, \, x_n \ to \ hat {\ boldsymbol {\ theta}} _ {n}
sans avoir à recommencer à zéro. Existe-t-il des algorithmes génériques pour cela?& thetav n - 1 = arg max & thetav ∈ R p n - 1 Π i = 1 f ( x iθ n - 1 ,
Exemple de jouet
Si , , ... , alors
donc
Réponses:
Voir le concept de suffisance et en particulier, les statistiques minimales suffisantes . Dans de nombreux cas, vous avez besoin de l'échantillon entier pour calculer l'estimation à une taille d'échantillon donnée, sans moyen trivial de mettre à jour à partir d'un échantillon d'une taille plus petite (c'est-à-dire qu'il n'y a pas de résultat général pratique).
Si la distribution est une famille exponentielle (et dans certains autres cas d'ailleurs; l'uniforme est un bon exemple), il y a une belle statistique suffisante qui peut dans de nombreux cas être mise à jour de la manière que vous recherchez (c'est-à-dire avec un certain nombre de distributions couramment utilisées, il y aurait une mise à jour rapide).
Un exemple que je ne connais pas de moyen direct de calculer ou de mettre à jour est l'estimation de l'emplacement de la distribution de Cauchy (par exemple avec l'échelle de l'unité, pour faire du problème un problème simple à un paramètre). Il peut y avoir une mise à jour plus rapide, cependant, que je n'ai tout simplement pas remarqué - je ne peux pas dire que j'ai vraiment fait plus que le regarder pour examiner le cas de mise à jour.
D'un autre côté, avec des MLE obtenus par des méthodes d'optimisation numérique, l'estimation précédente serait dans de nombreux cas un excellent point de départ, car généralement l'estimation précédente serait très proche de l'estimation mise à jour; en ce sens au moins, une mise à jour rapide devrait souvent être possible. Même si ce n'est pas le cas général, cependant - avec les fonctions de vraisemblance multimodales (encore une fois, voir le Cauchy pour un exemple), une nouvelle observation pourrait conduire à ce que le mode le plus élevé soit à une certaine distance du précédent (même si les emplacements de chaque des modes les plus importants n'ont pas beaucoup changé, celui qui est le plus élevé pourrait bien changer).
la source
Dans l'apprentissage automatique, on parle d' apprentissage en ligne .
Comme l'a souligné @Glen_b, il existe des cas particuliers dans lesquels le MLE peut être mis à jour sans avoir besoin d'accéder à toutes les données précédentes. Comme il le souligne également, je ne pense pas qu'il existe une solution générique pour trouver le MLE.
Une approche assez générique pour trouver la solution approximative consiste à utiliser quelque chose comme la descente de gradient stochastique. Dans ce cas, au fur et à mesure que chaque observation arrive, nous calculons le gradient par rapport à cette observation individuelle et déplaçons les valeurs des paramètres d'une très petite quantité dans cette direction. Dans certaines conditions, nous pouvons montrer que cela convergera vers un voisinage du MLE avec une forte probabilité; le voisinage est de plus en plus serré lorsque nous réduisons la taille des pas, mais davantage de données sont nécessaires pour la convergence. Cependant, ces méthodes stochastiques nécessitent en général beaucoup plus de manipulations pour obtenir de bonnes performances que, disons, les mises à jour de formulaires fermés.
la source