Modèles prédictifs: les statistiques ne peuvent-elles pas battre l'apprentissage automatique? [fermé]

14

Je suis actuellement en train de suivre un programme de master axé sur les statistiques / économétrie. Dans mon master, tous les étudiants ont dû faire 3 mois de recherche. La semaine dernière, tous les groupes ont dû présenter leurs recherches au reste des étudiants en master.

Presque tous les groupes ont fait de la modélisation statistique et de la modélisation de l'apprentissage automatique pour leurs sujets de recherche et à chaque fois, les prédictions hors échantillon sont venues parler des modèles d'apprentissage machine simples battant les modèles statistiques très sophistiqués sur lesquels chacun a travaillé très dur au cours des 3 dernières années. mois. Peu importe la qualité des modèles statistiques de tout le monde, une simple forêt aléatoire a toujours des erreurs hors échantillon plus faibles.

Je me demandais si c'était une observation généralement acceptée? Que s'il s'agit de prévisions hors échantillon, il n'y a tout simplement aucun moyen de battre une simple forêt aléatoire ou un modèle de renforcement de gradient extrême? Ces deux méthodes sont super simples à implémenter en utilisant des packages R, alors que tous les modèles statistiques que tout le monde a élaborés nécessitent beaucoup de compétences, de connaissances et d'efforts pour estimer.

Qu'en pensez-vous? Est-ce le seul avantage des modèles statistiques / économétriques que vous obtenez une interprétation? Ou nos modèles n'étaient-ils tout simplement pas assez bons pour ne pas surpasser de manière significative les prévisions de forêt aléatoire simples? Existe-t-il des documents traitant de cette question?

dubvice
la source
5
Cela pourrait bien être considéré comme "trop ​​large". (Si tout va bien pas comme "basé sur l'opinion"!) Mon avis: Je ne pense pas qu'il existe une réponse universelle. D'après mon expérience, les modèles statistiques sont meilleurs s'il y a moins d'observations, car imposer une sorte de structure améliore une approche largement sans modèle. Inversement, les RF sont meilleures s'il y a beaucoup d'observations. ...
Stephan Kolassa
4
... L'autre question est de savoir exactement ce qui a été évalué et comment. Si les prévisions ponctuelles ont été évaluées de manière appropriée (les mesures de précision peuvent être étonnamment trompeuses), c'est une question différente que si les prévisions de densité l'étaient. Les modèles statistiques peuvent être meilleurs pour les prévisions de densité, encore une fois parce que vous avez besoin de beaucoup plus de données.
Stephan Kolassa
1
@StephanKolassa: Je pense qu'une bonne réponse (ou un ensemble de plusieurs réponses) à cette question comprendrait les raisons pour lesquelles il n'y a pas de réponse universelle - théoriquement et pratiquement -, comment les performances prédictives sont évaluées, comment faire une distinction entre statistique et machine méthodes d'apprentissage, quels objectifs il pourrait y avoir au-delà de la prédiction, et quelques choses auxquelles je n'ai pas pensé. Donc une large portée; mais pas trop large à mon avis, et essayer de le limiter pourrait simplement empêcher la formulation de remarques générales utiles.
Scortchi - Réintégrer Monica
5
Ce que nous ne voulons pas, c'est une collection d'anecdotes - j'exhorte les utilisateurs à signaler pour les réponses de suppression qui viennent à peine plus que par exemple "J'ai toujours trouvé que les forêts aléatoires battaient la régression logistique", cependant verbeux. Nous pouvons être un peu plus lents sur les commentaires, mais les longs fils seront déplacés vers le chat.
Scortchi - Réintégrer Monica
14
Je ne pense pas qu'il y ait une distinction significative entre les statistiques et l'apprentissage automatique. Par exemple, Leo Breiman, un éminent chercheur en forêt aléatoire, était professeur de statistique à UC Berkeley. Dans le contexte de votre anecdote, la RF s'est avérée meilleure que les autres modèles que les gens avaient adaptés, mais je ne vois aucune raison pour que cela soit vrai en général (voir aussi le théorème du déjeuner gratuit). Cela en dit peut-être plus sur l'ensemble de données (ou même sur les étudiants) que sur les méthodes.
Sycorax dit Réintégrer Monica

Réponses:

20

La modélisation statistique est différente de l'apprentissage automatique. Par exemple, une régression linéaire est à la fois un modèle statistique et un modèle d'apprentissage automatique. Donc, si vous comparez une régression linéaire à une forêt aléatoire, vous comparez simplement un modèle d'apprentissage automatique plus simple à un modèle plus compliqué. Tu n'es pas comparez un modèle statistique à un modèle d'apprentissage automatique.

La modélisation statistique fournit plus que l'interprétation; il donne en fait un modèle d'un paramètre de population. Cela dépend d'un large cadre de mathématiques et de théorie, qui permet des formules pour des choses comme la variance des coefficients, la variance des prédictions et les tests d'hypothèses. Le rendement potentiel de la modélisation statistique est beaucoup plus élevé que l'apprentissage automatique, car vous pouvez faire des déclarations solides sur les paramètres de la population au lieu de simplement mesurer l'erreur lors de l'arrêt, mais il est beaucoup plus difficile d'aborder un problème avec un modèle statistique.

user0
la source
1
Autant que je sache, vous dites qu'avec les statistiques, vous obtenez plus d'avantages comme la variance des coefficients, la variance des prédictions et les tests d'hypothèses. Mais quand il s'agit purement de modélisation prédictive, c'est-à-dire de faire des prévisions ponctuelles de certaines variables de réponse, pensez-vous que les modèles statistiques peuvent battre les modèles d'apprentissage automatique?
dubvice
5
Ceci est la réponse (+1!). À mon avis (et peut-être d'autres aussi), il existe plusieurs types d'analyses statistiques: descriptives, inférentielles, prédictives, exploratoires, etc. L'apprentissage automatique relèverait principalement de l'analyse prédictive, et la plupart ne vous permet pas de faire des inférences assertions sur les choses, donc tout se résume à "utiliser le bon outil pour le travail à accomplir" (étant donné l'exemple de régression linéaire, il peut être utilisé dans tous les domaines, par exemple l'estimation des attentes conditionnelles, qui est une tâche descriptive).
Firebug
2
Cela ressemble à l'affirmation selon laquelle la modélisation statistique standard peut être meilleure pour l'inférence (par opposition à la prédiction) que l'apprentissage automatique, ce qui peut aider à modéliser l'interprétabilité. Bien qu'il soit certainement vrai si nous comparons une régression des moindres carrés ordinaires à un réseau neuronal profond, étant donné que la question d'origine fait spécifiquement référence à la forêt aléatoire (un bon algorithme ML pour l'inférence), une telle affirmation est un peu floue.
Greenstick
2
Voici quelques preuves solides du domaine des séries chronologiques où les modèles statistiques battent constamment les approches d'apprentissage automatique: Makridakis "Méthodes de prévision statistiques et d'apprentissage automatique: préoccupations et voies à suivre" .
Richard Hardy
1
C'est juste la réponse parfaite. Voici un exemple: supposons que vous ayez une mesure qui prédit la survie des patients atteints d'une maladie donnée. Il existe des normes internationales sur la façon de définir si cette mesure est cliniquement valable (essentiellement si le coefficient est différent de 0 avec une valeur p inférieure à 5% dans un modèle univarié ou multivarié). Bien que je sois absolument sûr que 99% du temps, une forêt aléatoire avec suffisamment de données serait un meilleur modèle de prévision.
Rémy Nicolle
5

Il est faux d'énoncer la question de la façon dont vous l'avez formulée. Par exemple, une partie importante de l'apprentissage automatique peut être appelée apprentissage statistique . Donc, votre comparaison est comme les pommes et les tartes aux fruits.

Cependant, je vais suivre la façon dont vous l'avez formulée et affirmer ce qui suit: en matière de prédiction, rien ne peut être fait sans une certaine forme de statistiques, car la prédiction est intrinsèquement aléatoire (incertitude). Considérez ceci: malgré l'énorme succès de l'apprentissage automatique dans certaines applications, il n'a absolument rien à montrer dans la prévision du prix des actifs. Rien du tout. Pourquoi? Parce que sur la plupart des marchés liquides développés, les prix des actifs sont intrinsèquement stochastiques.

Vous pouvez exécuter le machine learning toute la journée pour observer et en savoir plus sur la désintégration radioactive des atomes, et il ne pourra jamais prédire le temps de désintégration du prochain atome, simplement parce qu'il est aléatoire.

En tant que statisticien en herbe, il serait insensé de votre part de ne pas maîtriser le machine learning, car c'est l'une des applications les plus en vogue de la statistique, à moins, bien sûr, que vous ne soyez certain que vous allez dans le monde universitaire. Quiconque est susceptible d'aller travailler dans l'industrie doit maîtriser le ML. Il n'y a aucune animosité ou compétition entre les statistiques et les foules ML. En fait, si vous aimez la programmation, vous vous sentirez chez vous dans le domaine ML

Aksakal presque sûrement binaire
la source
2

Généralement non, mais potentiellement oui en cas de mauvaise spécification. La question que vous recherchez est appelée recevabilité. Une décision est recevable s'il n'y a pas de moyen moins risqué de la calculer.

Toutes les solutions bayésiennes sont admissibles et les solutions non bayésiennes sont admissibles dans la mesure où elles correspondent à une solution bayésienne dans chaque échantillon ou à la limite. Une solution Frequentist ou Bayesian admissible battra toujours une solution ML sauf si elle est également admissible. Cela dit, il y a quelques remarques pratiques qui rendent cette déclaration vraie mais vide de sens.

Premièrement, le prieur pour l'option bayésienne doit être votre vrai prieur et non une distribution antérieure utilisée pour rendre un éditeur heureux dans un journal. Deuxièmement, de nombreuses solutions fréquentistes sont inadmissibles et un estimateur de retrait aurait dû être utilisé à la place de la solution standard. Beaucoup de gens ignorent le lemme de Stein et ses implications pour l'erreur hors échantillon. Enfin, ML peut être un peu plus robuste, dans de nombreux cas, aux erreurs de spécification erronée.

Lorsque vous vous déplacez dans les arbres de décision et leurs cousins ​​les forêts, vous n'utilisez pas une méthodologie similaire, sauf si vous utilisez également quelque chose de similaire à un filet Bayes. Une solution graphique contient une quantité importante d'informations implicites, en particulier un graphique dirigé. Chaque fois que vous ajoutez des informations à un processus probabiliste ou statistique, vous réduisez la variabilité du résultat et changez ce qui serait considéré comme admissible.

Si vous regardez l'apprentissage automatique dans une perspective de composition de fonctions, il devient simplement une solution statistique mais en utilisant des approximations pour rendre la solution traitable. Pour les solutions bayésiennes, MCMC économise des quantités incroyables de temps comme le fait la descente de gradient pour de nombreux problèmes ML. Si vous deviez construire un postérieur exact pour intégrer ou utiliser la force brute sur de nombreux problèmes de ML, le système solaire serait mort de sa chaleur avant que vous n'obteniez une réponse.

Je suppose que vous avez un modèle mal spécifié pour ceux qui utilisent des statistiques ou des statistiques inappropriées. J'ai enseigné une conférence où j'ai prouvé que les nouveau-nés flotteront par les fenêtres s'ils ne sont pas emmaillotés de manière appropriée et où une méthode bayésienne a si radicalement surclassé une méthode Frequentist sur un choix multinomial que la méthode Frequentist a même atteint son objectif, alors que la méthode Bayesian a doublé l'argent des participants . Maintenant, j'ai abusé des statistiques dans le premier et profité de l'inadmissibilité de l'estimateur Frequentist dans le second, mais un utilisateur naïf de statistiques pourrait facilement faire ce que j'ai fait. Je les ai juste rendus extrêmes pour rendre les exemples évidents, mais j'ai utilisé des données absolument réelles.

Les forêts aléatoires sont des estimateurs cohérents et semblent ressembler à certains processus bayésiens. En raison du lien avec les estimateurs du noyau, ils peuvent être assez proches. Si vous voyez une différence significative dans les performances entre les types de solutions, il y a quelque chose dans le problème sous-jacent que vous ne comprenez pas et si le problème revêt une importance, alors vous devez vraiment rechercher la source de la différence car il peut également être le cas où tous les modèles sont mal spécifiés.

Dave Harris
la source
1

Beaucoup de machine learning ne sont pas si différents du p-hacking, au moins pour certaines raisons.

Si vous testez tous les modèles possibles pour trouver celui qui a la plus grande précision de prédiction (prédiction historique ou prédiction hors groupe) sur la base de données historiques, cela ne signifie pas nécessairement que les résultats aideront à comprendre ce qui se passe. Cependant, il trouvera peut-être des relations possibles pouvant éclairer une hypothèse.

Motiver des hypothèses spécifiques puis les tester à l'aide de méthodes statistiques peut également être piraté de manière similaire (ou similaire).

Mais le fait est que si le critère est "la plus haute précision de prédiction basée sur des données historiques", alors il y a un risque élevé d'être trop confiant dans un modèle que l'on ne comprend pas, sans avoir réellement une idée de ce qui a conduit ces résultats historiques et / ou s'ils peuvent être instructifs pour l'avenir.

nathanwww
la source