Est-ce la méthodologie de régression de l'état de l'art?

33

Cela fait longtemps que je suis des compétitions Kaggle et je me rends compte que de nombreuses stratégies gagnantes impliquent l’utilisation d’au moins un des «trois grands»: l’ensachage, le boost et l’empilement.

Pour les régressions, plutôt que de se concentrer sur la construction d'un meilleur modèle de régression possible, la construction de modèles de régression multiples tels que la régression linéaire (généralisée), la régression aléatoire, les modèles de régression KNN, NN et SVM et la fusion des résultats en un semble raisonnable - effectuer chaque méthode individuellement un grand nombre de fois.

Bien sûr, la clé est une compréhension solide de chaque méthode et une histoire intuitive peut être racontée sur la base d'un modèle de régression linéaire, mais je me demande si cela est devenu la méthodologie de pointe pour obtenir les meilleurs résultats possibles.

Maxareo
la source
Dans certains cas, le réseau de neurones définit bien la méthode de régression "classique". Par exemple, dans Combien de temps a-t-il plu II . Mais c'est vraiment une boîte noire.
YCR
@YCR Je conviens que c'est une boîte noire. Pendant que j'étais au travail, j'ai construit un modèle d'apprentissage automatique impressionnant et j'ai essayé d'expliquer aux gens d'affaires ou à quelqu'un qui n'est pas familier avec le modèle. La conversation finit généralement par être la suivante: Je ne peux pas vous raconter une histoire intéressante.
Maxareo

Réponses:

41

Il est bien connu, au moins à partir de la fin des années 1960, que si vous prenez plusieurs prévisions et que vous les calculez en moyenne , alors la prévision globale résultante surperformera dans de nombreux cas les prévisions individuelles. L'ensachage, le boosting et l'empilement sont tous basés sur cette idée. Donc oui, si votre objectif est purement de prédiction, alors dans la plupart des cas, c'est le mieux que vous puissiez faire. Ce qui est problématique avec cette méthode, c'est que c'est une approche de type boîte noire qui renvoie le résultat, mais ne vous aide pas à le comprendre ni à l'interpréter. De toute évidence, elle nécessite également plus de calculs que toute autre méthode, car vous devez calculer peu de prévisions au lieu d'une seule.

† Cela concerne les prévisions en général, mais cela est souvent décrit dans la littérature sur les prévisions.


Winkler, RL. et Makridakis, S. (1983). La combinaison des prévisions. JR Statis. Soc. A. 146 (2), 150-157.

Makridakis, S. et Winkler, RL (1983). Moyennes des prévisions: quelques résultats empiriques. Management Science, 29 (9) 987-996.

Clemen, RT (1989). Combinaison de prévisions: une bibliographie de synthèse et annotée. International Journal of Forecasting, 5, 559-583.

Bates, JM et Granger, CW (1969). La combinaison des prévisions. Ou, 451-468.

Makridakis, S. et Hibon, M. (2000). Le concours M3: résultats, conclusions et implications. Journal international de prévision, 16 (4), 451-476.

Reid, DJ (1968). Combinaison de trois estimations du produit intérieur brut. Economica, 431-444.

Makridakis, S., Spiliotis, E. et Assimakopoulos, V. (2018). Le concours M4: Résultats, conclusions, conclusion et voie à suivre. Journal international de prévision.

Tim
la source
1
Le lien dans la note de bas de page en dague ne semble pas fonctionner pour moi?
Silverfish
@ Silverfish merci, corrigé. Le lien avait une importance mineure mais néanmoins, si cela ne fonctionne pas, il est inutile.
Tim
0

Arthur (1994) a une belle expérience de réflexion et de réflexion qui est bien connue dans la littérature sur la complexité.

L'une des conclusions est que les agents ne peuvent pas sélectionner de meilleurs modèles prédictifs (même s'ils en ont une "forêt") dans des conditions de non-équilibre. Par exemple, si la question est appliquée à la performance du marché boursier, la définition d'Arthur (1994) pourrait être applicable.

Glenn Magerman
la source