Méthodes statistiques en ligne et évolutives

12

Cela a été inspiré par la régression linéaire en ligne efficace , que j'ai trouvée très intéressante. Existe-t-il des textes ou des ressources consacrés au calcul statistique à grande échelle, par lesquels le calcul avec des ensembles de données trop volumineux pour tenir dans la mémoire principale, et peut-être trop varié pour sous-échantillonner efficacement. Par exemple, est-il possible d'adapter des modèles d'effets mixtes en ligne? Quelqu'un a-t-il étudié les effets du remplacement des techniques standard d'optimisation du 2e ordre pour MLE par des techniques de premier ordre de type SGD?

grg s
la source
Je pense que la réponse est oui". Bien sûr, il y a un peu un problème de définitions ici. Ce qu'une personne considère comme «à grande échelle» est parfois très différent des autres. Mon impression est que, par exemple, de nombreux chercheurs universitaires considèrent l'ensemble de données Netflix "à grande échelle", alors que dans de nombreux contextes industriels, il serait considéré comme "chétif". En ce qui concerne les techniques d'estimation, généralement avec de très grandes données, l'efficacité du calcul l'emporte sur l'efficacité statistique. Par exemple, la méthode des moments, dans de nombreux cas, fonctionnera (presque) aussi bien que MLE dans ces paramètres et peut être beaucoup plus facile à calculer.
Cardinal
2
vous pouvez également consulter l'atelier sur les algorithmes pour les ensembles de données massives modernes (MMDS). Il est jeune, mais attire un ensemble assez impressionnant de conférenciers aux interfaces de la statistique, de l'ingénierie et de l'informatique ainsi qu'entre le monde universitaire et l'industrie.
Cardinal
Cela ne fait que quelques décennies que la plupart des ensembles de données étaient trop volumineux pour tenir dans la mémoire principale, et le choix des algorithmes utilisés dans les premiers programmes statistiques en témoignait. Cependant, ces programmes ne disposaient pas d'installations pour les modèles à effets mixtes.
onestop
Pouvez-vous calculer des statistiques pour l'ensemble de données? dites par exemple la somme ou les moyennes des éléments de données?
probabilitéislogic

Réponses:

5

Vous pourriez vous pencher sur le projet Vowpal Wabbit , de John Langford à Yahoo! Recherche . C'est un apprenant en ligne qui fait une descente de gradient spécialisée sur quelques fonctions de perte. VW a quelques fonctionnalités tueuses:

  • Installe trivialement sur Ubuntu, avec "sudo apt-get install vowpal-wabbit".
  • Utilise l' astuce de hachage pour les espaces de fonctionnalité vraiment énormes.
  • Poids adaptatifs spécifiques aux fonctionnalités.
  • Plus important encore, il existe une liste de diffusion active et une communauté se connectant au projet.

Le livre Bianchi & Lugosi Prediction, Learning and Games donne une base théorique solide à l'apprentissage en ligne. Une lecture lourde, mais ça vaut le coup!

someben
la source