Ma compréhension de la différence entre apprentissage automatique / autres techniques de prévision statistique et le type de statistiques utilisées par les spécialistes des sciences sociales (économistes, par exemple) est que les économistes semblent très intéressés par la compréhension de l'effet d'une ou de plusieurs variables - à la fois en termes de magnitude et détecter si la relation est causale. Pour cela, vous vous retrouvez avec des méthodes expérimentales et quasi expérimentales, etc.
L'apprentissage automatique ou la modélisation statistique prédictive néglige souvent entièrement cet aspect et, dans de nombreux cas, ne vous donne pas un degré spécifique d'influence d'une variable sur le résultat (logit et probit semblent faire les deux).
Une question connexe est de savoir dans quelle mesure les modèles économiques ou comportementaux inspirés théoriquement ont-ils un avantage sur les modèles athéoriques lors de la prédiction de nouveaux domaines? Qu'est-ce qu'un statisticien en apprentissage automatique ou orienté prédiction dirait à la critique selon laquelle, sans modèle économique, vous ne seriez pas en mesure de prédire correctement de nouveaux échantillons pour lesquels les covariables étaient très différentes.
Je serais vraiment heureux d'entendre les gens prendre cela à tous points de vue.
la source
Réponses:
À mon humble avis, aucune différence formelle ne distingue l’apprentissage automatique et les statistiques au niveau fondamental de l’adaptation des modèles aux données. Il peut exister des différences culturelles dans le choix des modèles, les objectifs de l'ajustement des modèles aux données et, dans certains cas, les interprétations.
Dans les exemples typiques auxquels je peux penser, nous avons toujours
Ce que l’on pourrait appeler la sélection de modèle statistique à l’ ancienne école repose sur des tests statistiques, éventuellement combinés à des stratégies de sélection par étapes, alors que la sélection de modèles d’apprentissage automatique se concentre généralement sur l’erreur de généralisation attendue, qui est souvent estimée par validation croisée. Les développements et les conceptions actuels en matière de sélection de modèle semblent toutefois converger vers un terrain plus commun, voir, par exemple, Sélection de modèle et Calcul de moyenne .
Inférer la causalité à partir de modèles
Le problème est de savoir comment interpréter un modèle. Si les données obtenues proviennent d'une expérience soigneusement conçue et que le modèle est adéquat, il est plausible de pouvoir interpréter l'effet d'un changement de variable dans le modèle comme un effet causal et, si nous répétons l'expérience et intervenons sur cette variable particulière on peut s'attendre à observer l'effet estimé. Si, toutefois, les données sont d'observation, nous ne pouvons pas nous attendre à ce que les effets estimés dans le modèle correspondent à des effets d'intervention observables. Cela nécessitera des hypothèses supplémentaires, que le modèle soit un "modèle d'apprentissage automatique" ou un "modèle statistique classique".
Il se peut que les personnes formées à l’utilisation de modèles statistiques classiques mettant l’accent sur des estimations paramétriques univariées et des interprétations de la taille des effets donnent l’impression qu’une interprétation causale est plus valable dans ce cadre que dans un cadre d’apprentissage automatique. Je dirais que non.
Le domaine de l'inférence causale dans les statistiques n'élimine pas vraiment le problème, mais il rend explicites les hypothèses sur lesquelles reposent les conclusions causales. Ils sont appelés des hypothèses non vérifiables . L'article Inférence causale en statistique: Un aperçu de Judea Pearl est un bon article à lire. Une contribution majeure de l'inférence causale est la collection de méthodes pour l'estimation des effets causaux sous des hypothèses où il existe en réalité des facteurs de confusion non observés, ce qui constitue par ailleurs une préoccupation majeure. Voir la section 3.3 dans le document Pearl ci-dessus. Un exemple plus avancé peut être trouvé dans l'article Modèles de structure marginale et inférence causale en épidémiologie .
La question de savoir si les hypothèses non vérifiables sont valables est une question de fond. Ils sont précisément non testables car nous ne pouvons pas les tester en utilisant les données. Pour justifier les hypothèses, d'autres arguments sont nécessaires.
Comme exemple de rencontre entre l’apprentissage automatique et l’inférence causale, les idées d’ estimation du maximum de vraisemblance ciblée, présentées dans Apprentissage ciblé du maximum de vraisemblance par Mark van der Laan et Daniel Rubin, exploitent généralement les techniques d’apprentissage automatique pour l’estimation non paramétrique suivies de la méthode de ciblage. "vers un paramètre d'intérêt. Ce dernier pourrait très bien être un paramètre avec une interprétation causale. L'idée dans Super apprenantest fortement tributaire des techniques d’apprentissage automatique pour l’estimation des paramètres d’intérêt. Mark van der Laan (communication personnelle) souligne que les modèles statistiques classiques, simples et "interprétables" sont souvent erronés, ce qui entraîne des estimateurs biaisés et une évaluation trop optimiste de l'incertitude des estimations.
la source
Il existe un ensemble (assez limité) d'outils statistiques pour la soi-disant "inférence causale". Celles-ci sont conçues pour évaluer réellement les relations de causalité et il est prouvé qu'elles le font correctement. Excellent, mais pas pour les doux de cœur (ni pour le cerveau, d'ailleurs).
En dehors de cela, dans de nombreux cas, la possibilité d'impliquer une causalité est beaucoup plus une conséquence de votre conception que des techniques actuelles: si vous avez le contrôle sur «toutes» les variables de votre expérience et que vous voyez quelque chose se produire à chaque fois ( seulement) changez une variable, il est raisonnable d'appeler la chose qui se produit une «conséquence» de la chose que vous changez (malheureusement, dans la vraie recherche, ces cas extrêmes se produisent rarement). Un autre raisonnement intuitif mais valable est basé sur le temps: si vous modifiez une variable de façon aléatoire (mais de manière contrôlée) et une autre le lendemain, la causalité est également imminente.
Tout mon deuxième paragraphe fonctionne essentiellement quelles que soient les méthodes que vous utilisez pour trouver les variables qui ont changé dans quelles conditions, donc au moins en théorie, il n’ya aucune raison pour que le Machine Learning (ML) soit pire que les méthodes basées sur les statistiques.
Clause de non - responsabilité : paragraphe très subjectif
Cependant, selon mon expérience, trop souvent, les techniques ML sont simplement relâchées sur une masse de données sans tenir compte de l'origine des données ni de la manière dont elles ont été collectées (c.-à-d. Sans tenir compte de la conception). Dans ces cas-là, le résultat est souvent dérisoire, mais il sera extrêmement difficile de dire quelque chose d'utile à propos de la causalité. Ce seraêtre exactement la même chose quand une méthode statistiquement valable est exécutée sur les mêmes données. Cependant, les personnes ayant de solides connaissances en statistiques sont formées à la critique et, si tout va bien, éviteront ces écueils. C’est peut-être tout simplement l’esprit d’adhérence des premiers utilisateurs (mais négligés) des techniques de ML (généralement pas les développeurs de nouvelles techniques mais ceux qui sont désireux de «prouver» certains résultats avec eux dans leur domaine d’intérêt) qui a donné à ML sa mauvaise réputation à cet égard. Compte. (Notez que je ne dis pas que les statistiques valent mieux que ML, ou que toutes les personnes qui font du ML sont négligentes et que les statistiques ne le sont pas)
la source
Mon point de vue est que les modèles utilisés en économie et dans les autres sciences sociales ne sont utiles que dans la mesure où ils ont un pouvoir prédictif dans le monde réel - un modèle qui ne prévoit pas le monde réel n’est qu’un calcul intelligent. Un de mes mots préférés à l’intention de mes collègues est que "les données sont le roi".
Il me semble que votre question soulève deux critiques d’une approche prédictive. Tout d’abord, vous indiquez que les modèles produits par les techniques d’apprentissage automatique peuvent ne pas être interprétables . Deuxièmement, vous suggérez que les méthodes utilisées par les spécialistes des sciences sociales sont plus utiles pour découvrir les relations de causalité que l’apprentissage par la machine.
Pour aborder le premier point, je proposerais le contre-argument suivant. La mode actuelle dans l'apprentissage automatique favorise les méthodes (comme les SVM et NN) qui sont difficiles à comprendre pour un profane. Cela ne signifie pas que toutes les techniques d'apprentissage automatique possèdent cette propriété. Par exemple, le vénérable arbre de décision C4.5 est toujours largement utilisé 20 ans après avoir atteint la phase finale de son développement et produit en sortie un certain nombre de règles de classification. Je dirais que de telles règles se prêtent mieux à l'interprétation que des concepts tels que le log odds ratio, mais c'est une affirmation subjective. Dans tous les cas, de tels modèles sont interprétables.
En abordant le deuxième point, je concède que si vous entraînez un modèle d’apprentissage automatique dans un environnement et que vous le testez dans un autre, il échouera probablement. Cependant, il n’ya aucune raison de supposer a priori que cela n’est pas aussi vrai dans le cas d’un modèle. Modèle plus conventionnel: si vous construisez votre modèle sous un ensemble d'hypothèses, puis évaluez-le sous un autre, vous obtiendrez de mauvais résultats. Pour reprendre une phrase de la programmation informatique: "garbage in, garbage out" s’applique aussi bien aux modèles d’apprentissage automatique qu’aux modèles conçus.
la source
Non. L'inférence causale est un domaine de recherche actif en apprentissage automatique. Voir, par exemple, les actes de cet atelier et de celui-ci . Je tiens cependant à souligner que même si votre intérêt principal est l’inférence causale ou l’interprétation du modèle, il est toujours judicieux d’essayer en parallèle une approche opaque purement prédictive, afin que vous sachiez si le fait d’insister sur une pénalité de performance est pénalisant. un modèle interprétable.
la source
Je ne reviendrai pas sur les très bons arguments déjà formulés dans d'autres réponses, mais je voudrais ajouter une perspective quelque peu différente. Ce que je dis ici est quelque peu philosophique, pas nécessairement tiré de l’expérience professionnelle, mais d’une expérience mixte des sciences physiques, de la théorie des systèmes complexes et de l’apprentissage automatique (et, je dois l’admettre, des statistiques essentiellement de premier cycle).
Une différence importante entre l'apprentissage automatique et les approches statistiques classiques (que je sache) réside dans l'ensemble des hypothèses qui ont été formulées. Dans les statistiques classiques, de nombreuses hypothèses sur les processus et les distributions sous-jacents sont fixes et tendent à être considérées comme allant de soi. En apprentissage machine, toutefois, ces hypothèses sont explicitement choisies pour chaque modèle, ce qui donne un ensemble de possibilités beaucoup plus large et peut-être une plus grande prise de conscience des hypothèses formulées.
Nous constatons de plus en plus que les systèmes du monde qui nous entoure se comportent de manière complexe et non linéaire, et que de nombreux processus n'obéissent pas aux hypothèses de normalité, etc. généralement présentes dans les statistiques classiques. Je dirais que, en raison de la flexibilité et de la diversité des hypothèses de modèle, les approches d’apprentissage automatique conduiront souvent à un modèle plus robuste dans de tels cas.
Il existe de fortes hypothèses de modèle intégrées dans des expressions telles que "ampleur de l'effet", "relation de cause à effet" et "degré auquel une variable affecte le résultat". Dans un système complexe (tel qu'une économie), ces hypothèses ne seront valables que dans une certaine fenêtre d'états possibles du système. Avec certains observables et processus, cette fenêtre peut être grande, conduisant à des modèles relativement robustes. Avec d'autres, il peut être petit ou même vide. Le plus grand danger est peut-être le juste milieu: un modèle peut sembler fonctionner, mais lorsque le système change, échouez de manière soudaine et surprenante.
L'apprentissage automatique n'est pas une panacée. Je vois plutôt cela comme une recherche de nouvelles manières de tirer un sens de nos observations, de rechercher de nouveaux paradigmes qui sont nécessaires si nous voulons traiter efficacement la complexité que nous commençons à percevoir dans le monde qui nous entoure.
la source