Cela fait longtemps que je suis des compétitions Kaggle et je me rends compte que de nombreuses stratégies gagnantes impliquent l’utilisation d’au moins un des «trois grands»: l’ensachage, le boost et l’empilement.
Pour les régressions, plutôt que de se concentrer sur la construction d'un meilleur modèle de régression possible, la construction de modèles de régression multiples tels que la régression linéaire (généralisée), la régression aléatoire, les modèles de régression KNN, NN et SVM et la fusion des résultats en un semble raisonnable - effectuer chaque méthode individuellement un grand nombre de fois.
Bien sûr, la clé est une compréhension solide de chaque méthode et une histoire intuitive peut être racontée sur la base d'un modèle de régression linéaire, mais je me demande si cela est devenu la méthodologie de pointe pour obtenir les meilleurs résultats possibles.
Réponses:
Il est bien connu, au moins à partir de la fin des années 1960, que si vous prenez plusieurs prévisions † et que vous les calculez en moyenne , alors la prévision globale résultante surperformera dans de nombreux cas les prévisions individuelles. L'ensachage, le boosting et l'empilement sont tous basés sur cette idée. Donc oui, si votre objectif est purement de prédiction, alors dans la plupart des cas, c'est le mieux que vous puissiez faire. Ce qui est problématique avec cette méthode, c'est que c'est une approche de type boîte noire qui renvoie le résultat, mais ne vous aide pas à le comprendre ni à l'interpréter. De toute évidence, elle nécessite également plus de calculs que toute autre méthode, car vous devez calculer peu de prévisions au lieu d'une seule.
† Cela concerne les prévisions en général, mais cela est souvent décrit dans la littérature sur les prévisions.
Winkler, RL. et Makridakis, S. (1983). La combinaison des prévisions. JR Statis. Soc. A. 146 (2), 150-157.
Makridakis, S. et Winkler, RL (1983). Moyennes des prévisions: quelques résultats empiriques. Management Science, 29 (9) 987-996.
Clemen, RT (1989). Combinaison de prévisions: une bibliographie de synthèse et annotée. International Journal of Forecasting, 5, 559-583.
Bates, JM et Granger, CW (1969). La combinaison des prévisions. Ou, 451-468.
Makridakis, S. et Hibon, M. (2000). Le concours M3: résultats, conclusions et implications. Journal international de prévision, 16 (4), 451-476.
Reid, DJ (1968). Combinaison de trois estimations du produit intérieur brut. Economica, 431-444.
Makridakis, S., Spiliotis, E. et Assimakopoulos, V. (2018). Le concours M4: Résultats, conclusions, conclusion et voie à suivre. Journal international de prévision.
la source
Arthur (1994) a une belle expérience de réflexion et de réflexion qui est bien connue dans la littérature sur la complexité.
L'une des conclusions est que les agents ne peuvent pas sélectionner de meilleurs modèles prédictifs (même s'ils en ont une "forêt") dans des conditions de non-équilibre. Par exemple, si la question est appliquée à la performance du marché boursier, la définition d'Arthur (1994) pourrait être applicable.
la source