Je suis actuellement en train de suivre un programme de master axé sur les statistiques / économétrie. Dans mon master, tous les étudiants ont dû faire 3 mois de recherche. La semaine dernière, tous les groupes ont dû présenter leurs recherches au reste des étudiants en master.
Presque tous les groupes ont fait de la modélisation statistique et de la modélisation de l'apprentissage automatique pour leurs sujets de recherche et à chaque fois, les prédictions hors échantillon sont venues parler des modèles d'apprentissage machine simples battant les modèles statistiques très sophistiqués sur lesquels chacun a travaillé très dur au cours des 3 dernières années. mois. Peu importe la qualité des modèles statistiques de tout le monde, une simple forêt aléatoire a toujours des erreurs hors échantillon plus faibles.
Je me demandais si c'était une observation généralement acceptée? Que s'il s'agit de prévisions hors échantillon, il n'y a tout simplement aucun moyen de battre une simple forêt aléatoire ou un modèle de renforcement de gradient extrême? Ces deux méthodes sont super simples à implémenter en utilisant des packages R, alors que tous les modèles statistiques que tout le monde a élaborés nécessitent beaucoup de compétences, de connaissances et d'efforts pour estimer.
Qu'en pensez-vous? Est-ce le seul avantage des modèles statistiques / économétriques que vous obtenez une interprétation? Ou nos modèles n'étaient-ils tout simplement pas assez bons pour ne pas surpasser de manière significative les prévisions de forêt aléatoire simples? Existe-t-il des documents traitant de cette question?
Réponses:
La modélisation statistique est différente de l'apprentissage automatique. Par exemple, une régression linéaire est à la fois un modèle statistique et un modèle d'apprentissage automatique. Donc, si vous comparez une régression linéaire à une forêt aléatoire, vous comparez simplement un modèle d'apprentissage automatique plus simple à un modèle plus compliqué. Tu n'es pas comparez un modèle statistique à un modèle d'apprentissage automatique.
La modélisation statistique fournit plus que l'interprétation; il donne en fait un modèle d'un paramètre de population. Cela dépend d'un large cadre de mathématiques et de théorie, qui permet des formules pour des choses comme la variance des coefficients, la variance des prédictions et les tests d'hypothèses. Le rendement potentiel de la modélisation statistique est beaucoup plus élevé que l'apprentissage automatique, car vous pouvez faire des déclarations solides sur les paramètres de la population au lieu de simplement mesurer l'erreur lors de l'arrêt, mais il est beaucoup plus difficile d'aborder un problème avec un modèle statistique.
la source
Il est faux d'énoncer la question de la façon dont vous l'avez formulée. Par exemple, une partie importante de l'apprentissage automatique peut être appelée apprentissage statistique . Donc, votre comparaison est comme les pommes et les tartes aux fruits.
Cependant, je vais suivre la façon dont vous l'avez formulée et affirmer ce qui suit: en matière de prédiction, rien ne peut être fait sans une certaine forme de statistiques, car la prédiction est intrinsèquement aléatoire (incertitude). Considérez ceci: malgré l'énorme succès de l'apprentissage automatique dans certaines applications, il n'a absolument rien à montrer dans la prévision du prix des actifs. Rien du tout. Pourquoi? Parce que sur la plupart des marchés liquides développés, les prix des actifs sont intrinsèquement stochastiques.
Vous pouvez exécuter le machine learning toute la journée pour observer et en savoir plus sur la désintégration radioactive des atomes, et il ne pourra jamais prédire le temps de désintégration du prochain atome, simplement parce qu'il est aléatoire.
En tant que statisticien en herbe, il serait insensé de votre part de ne pas maîtriser le machine learning, car c'est l'une des applications les plus en vogue de la statistique, à moins, bien sûr, que vous ne soyez certain que vous allez dans le monde universitaire. Quiconque est susceptible d'aller travailler dans l'industrie doit maîtriser le ML. Il n'y a aucune animosité ou compétition entre les statistiques et les foules ML. En fait, si vous aimez la programmation, vous vous sentirez chez vous dans le domaine ML
la source
Généralement non, mais potentiellement oui en cas de mauvaise spécification. La question que vous recherchez est appelée recevabilité. Une décision est recevable s'il n'y a pas de moyen moins risqué de la calculer.
Toutes les solutions bayésiennes sont admissibles et les solutions non bayésiennes sont admissibles dans la mesure où elles correspondent à une solution bayésienne dans chaque échantillon ou à la limite. Une solution Frequentist ou Bayesian admissible battra toujours une solution ML sauf si elle est également admissible. Cela dit, il y a quelques remarques pratiques qui rendent cette déclaration vraie mais vide de sens.
Premièrement, le prieur pour l'option bayésienne doit être votre vrai prieur et non une distribution antérieure utilisée pour rendre un éditeur heureux dans un journal. Deuxièmement, de nombreuses solutions fréquentistes sont inadmissibles et un estimateur de retrait aurait dû être utilisé à la place de la solution standard. Beaucoup de gens ignorent le lemme de Stein et ses implications pour l'erreur hors échantillon. Enfin, ML peut être un peu plus robuste, dans de nombreux cas, aux erreurs de spécification erronée.
Lorsque vous vous déplacez dans les arbres de décision et leurs cousins les forêts, vous n'utilisez pas une méthodologie similaire, sauf si vous utilisez également quelque chose de similaire à un filet Bayes. Une solution graphique contient une quantité importante d'informations implicites, en particulier un graphique dirigé. Chaque fois que vous ajoutez des informations à un processus probabiliste ou statistique, vous réduisez la variabilité du résultat et changez ce qui serait considéré comme admissible.
Si vous regardez l'apprentissage automatique dans une perspective de composition de fonctions, il devient simplement une solution statistique mais en utilisant des approximations pour rendre la solution traitable. Pour les solutions bayésiennes, MCMC économise des quantités incroyables de temps comme le fait la descente de gradient pour de nombreux problèmes ML. Si vous deviez construire un postérieur exact pour intégrer ou utiliser la force brute sur de nombreux problèmes de ML, le système solaire serait mort de sa chaleur avant que vous n'obteniez une réponse.
Je suppose que vous avez un modèle mal spécifié pour ceux qui utilisent des statistiques ou des statistiques inappropriées. J'ai enseigné une conférence où j'ai prouvé que les nouveau-nés flotteront par les fenêtres s'ils ne sont pas emmaillotés de manière appropriée et où une méthode bayésienne a si radicalement surclassé une méthode Frequentist sur un choix multinomial que la méthode Frequentist a même atteint son objectif, alors que la méthode Bayesian a doublé l'argent des participants . Maintenant, j'ai abusé des statistiques dans le premier et profité de l'inadmissibilité de l'estimateur Frequentist dans le second, mais un utilisateur naïf de statistiques pourrait facilement faire ce que j'ai fait. Je les ai juste rendus extrêmes pour rendre les exemples évidents, mais j'ai utilisé des données absolument réelles.
Les forêts aléatoires sont des estimateurs cohérents et semblent ressembler à certains processus bayésiens. En raison du lien avec les estimateurs du noyau, ils peuvent être assez proches. Si vous voyez une différence significative dans les performances entre les types de solutions, il y a quelque chose dans le problème sous-jacent que vous ne comprenez pas et si le problème revêt une importance, alors vous devez vraiment rechercher la source de la différence car il peut également être le cas où tous les modèles sont mal spécifiés.
la source
Beaucoup de machine learning ne sont pas si différents du p-hacking, au moins pour certaines raisons.
Si vous testez tous les modèles possibles pour trouver celui qui a la plus grande précision de prédiction (prédiction historique ou prédiction hors groupe) sur la base de données historiques, cela ne signifie pas nécessairement que les résultats aideront à comprendre ce qui se passe. Cependant, il trouvera peut-être des relations possibles pouvant éclairer une hypothèse.
Motiver des hypothèses spécifiques puis les tester à l'aide de méthodes statistiques peut également être piraté de manière similaire (ou similaire).
Mais le fait est que si le critère est "la plus haute précision de prédiction basée sur des données historiques", alors il y a un risque élevé d'être trop confiant dans un modèle que l'on ne comprend pas, sans avoir réellement une idée de ce qui a conduit ces résultats historiques et / ou s'ils peuvent être instructifs pour l'avenir.
la source