En général, est-il plus difficile de faire de l'inférence que de faire des prédictions?

Ma question vient du fait suivant. J'ai lu des articles, des blogs, des conférences ainsi que des livres sur l'apprentissage automatique. Mon impression est que les praticiens de l'apprentissage automatique semblent être indifférents à beaucoup de choses qui intéressent les statisticiens et l'économétrie. En particulier, les praticiens de l'apprentissage automatique mettent l'accent sur la précision des prédictions plutôt que sur l'inférence.

Un tel exemple s'est produit lorsque je suivais le Machine Learning d' Andrew Ng sur Coursera. Lorsqu'il discute du modèle linéaire simple, il ne mentionne rien sur la propriété BLUE des estimateurs ni sur la façon dont l'hétéroskédasticité «invaliderait» l'intervalle de confiance. Au lieu de cela, il se concentre sur la mise en œuvre de la descente de gradient et le concept de validation croisée / courbe ROC. Ces sujets n'étaient pas abordés dans mes cours d'économétrie / statistique.

Un autre exemple s'est produit lorsque j'ai participé à des compétitions Kaggle. Je lisais le code et les pensées des autres. Une grande partie des participants vient de tout jeter dans SVM / random forest / XGBoost.

Un autre exemple concerne la sélection de modèle pas à pas. Cette technique est largement utilisée, au moins en ligne et sur Kaggle. De nombreux manuels classiques d'apprentissage automatique le couvrent également, comme Introduction à l'apprentissage statistique. Cependant, selon cette réponse (qui est assez convaincante), la sélection pas à pas des modèles est confrontée à beaucoup de problèmes surtout quand il s'agit de "découvrir le vrai modèle". Il semble qu'il n'y ait que deux possibilités: soit les praticiens de l'apprentissage automatique ne connaissent pas le problème par étapes, soit ils le font mais ils s'en moquent.

Donc, voici mes questions:

Est-il vrai que (en général) les praticiens de l'apprentissage automatique se concentrent sur la prédiction et ne se soucient donc pas de beaucoup de choses qui intéressent les statisticiens / économistes?
Si c'est vrai, quelle en est la raison? Est-ce parce que l'inférence est plus difficile dans un certain sens?
Il existe des tonnes de documents sur l'apprentissage automatique (ou la prédiction) en ligne. Si je souhaite en savoir plus sur l'inférence, quelles sont les ressources en ligne que je peux consulter?

Mise à jour : Je viens de réaliser que le mot «inférence» pouvait potentiellement signifier beaucoup de choses. Ce que je voulais dire par «inférence» renvoie à des questions telles que

Est-ce que causé ou causé ? Ou plus généralement, quelles sont les relations causales entre ? $X$ $Y$ $Y$ $X$ $X_1,X_2,\cdots,X_n$
Puisque "tous les modèles sont faux", dans quelle mesure notre modèle est-il faux du vrai modèle?
Compte tenu des informations d'un échantillon, que pouvons-nous dire sur la population et dans quelle mesure pouvons-nous le dire?

En raison de ma connaissance très limitée des statistiques, je ne sais même pas si ces questions relèvent du domaine des statistiques ou non. Mais ce sont les types de questions auxquelles les praticiens de l'apprentissage automatique ne semblent pas se soucier. Peut-être que les statisticiens ne s'en soucient pas non plus? Je ne sais pas.

machine-learning self-study inference 3x89g2
la source

Brian D Ripley est cité sur useR! 2004 avec "Pour paraphraser de façon provocante, l'apprentissage automatique est une statistique sans vérification des modèles et des hypothèses." Cette phrase fait désormais partie du fortunespackage sur CRAN. Ceci juste pour dire que vous n'êtes pas seul avec l'impression, que la rigueur mathématique n'est pas toujours la principale préoccupation dans l'apprentissage automatique.

Bernhard

Leo Breiman aborde exactement cette question dans son article de 2001 "Modélisation statistique: les deux cultures" , qui est une excellente lecture.

skd

Réponses:

Tout d'abord, j'aurais une perspective différente pour l'apprentissage automatique. Ce que vous avez mentionné, la conférence Coursera d'Andrew Ng et le concours Kaggle ne sont pas 100% d'apprentissage automatique, mais certaines branches qui ciblaient des applications pratiques. La véritable recherche sur l'apprentissage automatique devrait être le travail qui invente le modèle de stimulation aléatoire forêt / SVM / gradient, qui est assez proche des statistiques / mathématiques.

Je conviens que les praticiens de l'apprentissage automatique se concentrent davantage sur la précision que les statisticiens / économistes. Il y a des raisons pour lesquelles les gens souhaitent obtenir une meilleure précision, plutôt que de «déduire la vraie distribution». La raison principale est la façon dont nous collectons et utilisons les données a changé au cours des dernières décennies.

Les statistiques ont été établies pendant des centaines d'années, mais dans le passé, personne ne penserait que vous disposiez de milliards de données pour la formation et d'autres milliards de données pour les tests. (Par exemple, nombre d'images sur Internet). Par conséquent, avec une quantité de données relativement faible, des hypothèses issues de la connaissance du domaine sont nécessaires pour effectuer le travail. Ou vous pouvez penser à «régulariser» le modèle. Une fois les hypothèses formulées, il y a des problèmes d'inférence sur la "vraie" distribution.

Cependant, si nous y réfléchissons attentivement, pouvons-nous nous assurer que ces hypothèses sont vraies et que les inférences sont valides? Je voudrais citer George Box:

Tous les modèles sont faux mais certains sont utiles

Maintenant, revenons à la réflexion sur l'approche pratique pour mettre davantage l'accent sur la précision que sur l'hypothèse / l'inférence. C'est une bonne approche, lorsque nous avons une énorme quantité de données.

Supposons que nous construisons un modèle pour toutes les images contenant des visages humains au niveau des pixels. Premièrement, il est très difficile de proposer des hypothèses sur le niveau de pixels pour des milliards d'images: personne n'a cette connaissance du domaine. Deuxièmement, nous pouvons réfléchir à toutes les façons possibles d'ajuster les données, et parce que les données sont énormes, tous les modèles que nous avons peuvent ne pas être suffisants (presque impossible à sur-ajuster).

C'est aussi pourquoi le «deep learning / neural network» est redevenu populaire. Dans la condition des mégadonnées, nous pouvons choisir un modèle vraiment complexe et l'adapter du mieux que nous pouvons, et nous pouvons toujours OK, car nos ressources de calcul sont limitées, par rapport à toutes les données réelles du mot.

Enfin, si le modèle que nous avons construit est bon dans un vaste ensemble de données de test, alors il est bon et précieux, bien que nous ne connaissions peut-être pas l'hypothèse sous-jacente ou la véritable distribution.

Je tiens à souligner que le mot «inférence» a différentes significations dans différentes communautés.

Dans la communauté des statistiques, cela signifie généralement obtenir des informations sur la vraie distribution de manière paramétrique ou non paramétrique.
Dans la communauté d'apprentissage automatique, cela signifie généralement calculer certaines probabilités à partir d'une distribution donnée. Voir le didacticiel sur les modèles graphiques de Murphy pour des exemples.
Dans l'apprentissage automatique, les gens utilisent le mot «apprentissage» pour représenter «obtenir les paramètres de la vraie distribution», qui est similaire à «l'inférence» dans la communauté des statistiques.

Donc, vous pouvez voir, essentiellement, qu'il y a beaucoup de gens dans le machine learning qui font aussi de la "déduction".

En outre, vous pouvez également penser à des personnes dans le monde universitaire qui aiment «re-marquer leur travail et revendre»: trouver de nouveaux termes peut être utile pour montrer la nouveauté de la recherche. En fait, il existe de nombreux chevauchements entre l'intelligence artificielle, l'exploration de données et l'apprentissage automatique. Et ils sont étroitement liés aux statistiques et à la conception d'algorithmes. Là encore, il n'y a pas de limites claires pour faire ou non une «inférence».

Haitao Du
la source

je peux voir d'où tu viens. Une prise alternative pourrait être: prédiction = se concentrer sur les variables observées, inférence = se concentrer sur les variables cachées. Donc, dans un sens, l'inférence tente de produire de nouveaux types de mesures, alors que la prédiction concerne davantage de nouvelles réalisations de mesures qui pourraient en principe être observées? (Ceci est compatible avec votre réponse, bien sûr)

GeoMatt22