J'ai joué avec la régression logistique avec divers algorithmes d'optimisation par lots (gradient conjugué, newton-raphson et diverses méthodes de quasinewton). Une chose que j'ai remarquée est que, parfois, l'ajout de données à un modèle peut en fait rendre la formation du modèle beaucoup moins longue. Chaque itération nécessite de regarder plus de points de données, mais le nombre total d'itérations nécessaires peut chuter considérablement lors de l'ajout de données. Bien sûr, cela ne se produit que sur certains ensembles de données, et à un moment donné, l'ajout de données entraînera un ralentissement de l'optimisation.
Est-ce un phénomène bien étudié? Où puis-je trouver plus d'informations sur pourquoi / quand cela pourrait se produire?
logistic
references
optimization
Mike Izbicki
la source
la source
Réponses:
Avec moins de données, la corrélation erronée entre les entrées de régression est souvent élevée, car vous ne disposez que d'un nombre limité de données. Lorsque les variables de régression sont corrélées, la surface de probabilité est relativement plate et il devient plus difficile pour un optimiseur, en particulier celui qui n'utilise pas l'intégralité de la Hesse (par exemple Newton Raphson), de trouver le minimum.
Il y a quelques bons graphiques ici et plus d'explications, avec la façon dont divers algorithmes fonctionnent avec des données avec différentes quantités de corrélation, ici: http://fa.bianp.net/blog/2013/numerical-optimizers-for-logistic-regression/
la source