En avril, j'ai assisté à une conférence intitulée "Expliquer ou prédire?" Lors de la série de séminaires du groupe de statistiques du département de mathématiques de l'UMD. La conférence a été donnée par le professeur Galit Shmueli, qui enseigne à la Smith Business School de l'UMD. Son exposé s'appuyait sur des recherches qu'elle avait effectuées pour un article intitulé "Modélisation prédictive contre explicative dans la recherche sur les systèmes d'information" , suivi d'un document de travail intitulé "Expliquer ou prédire?" .
L'argument du Dr Shmueli est que les termes prédictif et explicatif dans un contexte de modélisation statistique ont été confondus et que la littérature statistique manque d'une analyse approfondie des différences. Dans le journal, elle oppose les deux et discute de leurs implications pratiques. Je vous encourage à lire les journaux.
Les questions que je voudrais poser à la communauté des praticiens sont les suivantes:
- Comment définissez-vous un exercice prédictif par rapport à un exercice explicatif / descriptif? Il serait utile que vous parliez de l'application spécifique.
- Êtes-vous déjà tombé dans le piège d'utiliser l'un alors que vous vouliez utiliser l'autre? J'ai certainement. Comment savez-vous lequel utiliser?
la source
Réponses:
En une phrase
La modélisation prédictive concerne uniquement "ce qui est susceptible de se produire?", Tandis que la modélisation explicative concerne "que pouvons-nous faire à ce sujet?"
En plusieurs phrases
Je pense que la principale différence réside dans le but recherché dans l'analyse. Je suggérerais que l'explication est beaucoup plus importante pour l' intervention que la prédiction. Si vous voulez faire quelque chose pour changer un résultat, vous feriez bien de chercher à expliquer pourquoi c'est comme ça. La modélisation explicative, si elle est bien faite, vous indiquera comment intervenir (quelle entrée doit être ajustée). Cependant, si vous voulez simplement comprendre ce que sera l’avenir, sans aucune intention (ni capacité) d’intervenir, la modélisation prédictive a plus de chances d’être appropriée.
Comme exemple incroyablement flou, utiliser "données sur le cancer".
Une modélisation prédictive utilisant des "données sur le cancer" serait appropriée (ou au moins utile) si vous finançiez les salles de cancérologie de différents hôpitaux. Vous n'avez pas vraiment besoin d'expliquer pourquoi les personnes ont le cancer, vous avez simplement besoin d'une estimation précise du nombre de services nécessaires. La modélisation explicative n’aiderait probablement pas beaucoup ici. Par exemple, le fait de savoir que le tabagisme entraîne un risque de cancer plus élevé ne vous dit pas, en soi, si vous devez accorder plus de fonds à la division A ou à la division B.
Une modélisation explicative des "données sur le cancer" serait appropriée si vous souhaitez réduire le taux national de cancer - la modélisation prédictive serait assez obsolète ici. La capacité de prédire avec précision les taux de cancer ne vous aidera probablement pas à décider comment le réduire. Cependant, savoir que fumer augmente le risque de cancer est une information précieuse, car si vous réduisez le taux de tabagisme (par exemple en rendant les cigarettes plus chères), cela conduit à un plus grand nombre de personnes avec moins de risque, ce qui conduit (espérons-le) à une diminution attendue du cancer. les taux.
En regardant le problème de cette façon, je penserais que la modélisation explicative serait principalement axée sur les variables qui contrôlent l'utilisateur, directement ou indirectement. Il peut être nécessaire de collecter d'autres variables, mais si vous ne pouvez modifier aucune des variables de l'analyse, je doute que la modélisation explicative soit utile, sauf peut-être pour vous donner le désir de contrôler ou d'influencer ces variables. qui sont importants. La modélisation prédictive recherche simplement des associations entre les variables, qu'elles soient contrôlées par l'utilisateur ou non. Vous devez seulement connaître les entrées / caractéristiques / variables indépendantes / etc .. pour faire une prédiction, mais vous devez pouvoir modifier ou influencer les entrées / caractéristiques / variables indépendantes / etc .. afin d'intervenir et de modifier un résultat. .
la source
À mon avis, les différences sont les suivantes:
Explicatif / descriptif
Lorsque vous recherchez une réponse explicative / descriptive, l’accent est mis sur les données dont nous disposons et nous cherchons à découvrir les relations sous-jacentes entre les données après la prise en compte du bruit.
Exemple: Est-il vrai que faire de l'exercice régulièrement (environ 30 minutes par jour) entraîne une baisse de la pression artérielle? Pour répondre à cette question, nous pouvons recueillir des données auprès de patients sur leur régime d'exercice et leurs valeurs de pression artérielle au fil du temps. Le but est de voir si nous pouvons expliquer les variations de la pression artérielle par des variations dans le schéma de l'exercice.
De nombreux autres facteurs, tels que la quantité de sodium ingérée, influent sur la tension artérielle pression artérielle.
Prédiction
Lors d'un exercice prédictif, nous extrapolons dans l'inconnu en utilisant les relations connues entre les données dont nous disposons. La relation connue peut découler d’une analyse explicative / descriptive ou d’une autre technique.
Exemple: Si je fais de l'exercice 1 heure par jour, dans quelle mesure ma pression artérielle risque-t-elle de baisser? Pour répondre à cette question, nous pouvons utiliser une relation précédemment découverte entre la pression artérielle et un programme d'exercices pour effectuer la prédiction.
Dans le contexte ci-dessus, l'accent n'est pas mis sur l'explication, bien qu'un modèle explicatif puisse aider au processus de prédiction. Il existe également des approches non explicatives (réseaux de neurones, par exemple) qui permettent de prédire l'inconnu sans nécessairement ajouter à notre connaissance de la nature de la relation sous-jacente entre les variables.
la source
Un problème pratique qui se pose ici est la sélection de variables dans la modélisation. Une variable peut être une variable explicative importante (par exemple, est statistiquement significative) mais peut ne pas être utile à des fins de prévision (c'est-à-dire que son inclusion dans le modèle entraîne une détérioration de la précision prédictive). Je vois cette erreur presque tous les jours dans des articles publiés.
Une autre différence réside dans la distinction entre l'analyse en composantes principales et l'analyse factorielle. La PCA est souvent utilisée dans la prédiction, mais n'est pas très utile pour l'explication. FA implique l'étape de rotation supplémentaire qui est effectuée pour améliorer l'interprétation (et donc l'explication). Il y a un beau post aujourd'hui sur le blog de Galit Shmueli à ce sujet .
Mise à jour: un troisième cas se présente dans la série chronologique lorsqu'une variable peut être une variable explicative importante mais qu'elle n'est tout simplement pas disponible pour le futur. Par exemple, les prêts au logement peuvent être fortement liés au PIB mais cela n’est pas très utile pour prédire les futurs prêts au logement, à moins que nous ayons également de bonnes prévisions du PIB.
la source
Bien que certaines personnes trouvent plus facile de penser à la distinction en termes de modèle / algorithme utilisé (par exemple, réseaux de neurones = prédictif), ce n’est qu’un aspect particulier de la distinction expliciter / prédire. Voici un jeu de diapositives que j’utilise dans mon cours d’exploration de données pour enseigner la régression linéaire sous les deux angles. Même avec la seule régression linéaire et avec cet exemple minuscule, divers problèmes émergent qui conduisent à différents modèles d'objectifs explicatifs par rapport aux objectifs prédictifs (choix des variables, sélection de variables, mesures de performance, etc.).
Galit
la source
Exemple: Un exemple classique que j'ai vu se situe dans le contexte de la prévision de la performance humaine. L'auto-efficacité (c.-à-d. Le degré avec lequel une personne pense pouvoir bien exécuter une tâche) est souvent un puissant prédicteur de la performance d'une tâche. Ainsi, si vous mettez l'auto-efficacité dans une régression multiple avec d'autres variables telles que l'intelligence et le degré d'expérience antérieure, vous constaterez souvent que l'auto-efficacité est un puissant prédicteur.
Cela a conduit certains chercheurs à suggérer que l'auto-efficacité est la cause de l'exécution de tâches. Et ces interventions efficaces sont celles qui visent à accroître le sentiment d'efficacité personnelle d'une personne.
Cependant, le modèle théorique alternatif considère l'efficacité personnelle essentiellement comme une conséquence de la performance d'une tâche. Si tu es bon, tu le sauras. Dans ce cadre, les interventions devraient viser à accroître les compétences réelles et non les compétences perçues.
Ainsi, l'inclusion d'une variable telle que l'auto-efficacité peut augmenter la prédiction, mais en supposant que vous adoptiez le modèle d'auto-efficacité en tant que conséquence, il ne devrait pas être inclus en tant que facteur de prédiction si l'objectif du modèle est d'élucider les processus de causalité influant sur la performance.
Cela pose bien sûr la question de savoir comment développer et valider un modèle théorique de causalité. Cela repose clairement sur plusieurs études, idéalement avec quelques manipulations expérimentales, et un argument cohérent sur les processus dynamiques.
Proximal versus distal : j'ai rencontré des problèmes similaires lorsque des chercheurs s'intéressent aux effets des causes distales et proximales. Les causes proximales tendent à prédire mieux que les causes distales. Toutefois, l’intérêt théorique peut être de comprendre le mode de fonctionnement des causes distale et proximale.
Question de la sélection des variables : Enfin, la recherche des sciences sociales pose un problème énorme en matière de sélection des variables. Dans toute étude, il existe un nombre infini de variables qui auraient pu être mesurées mais ne l’ont pas été. L’interprétation des modèles doit donc tenir compte de ses implications lors de l’interprétation théorique.
la source
La modélisation statistique: deux cultures (2001) de L. Breiman est peut-être le meilleur article sur ce point. Ses principales conclusions (voir également les réponses d'autres statisticiens renommés à la fin du document) sont les suivantes:
la source
Je n'ai pas lu son travail au-delà de l'abstrait du document lié, mais mon sentiment est que la distinction entre "explication" et "prédiction" devrait être abandonnée et remplacée par la distinction entre les objectifs du praticien, qui sont soit " causal "ou" prédictif ". En général, je pense que "explication" est un mot si vague qu'il ne veut presque rien dire. Par exemple, la loi de Hooke est-elle explicative ou prédictive? À l’autre bout du spectre, les systèmes de recommandation prédictifs-exacts sont-ils de bons modèles de causalité pour la notation explicite des éléments? Je pense que nous partageons tous l'intuition que l'objectif de la science est l'explication, tandis que l'objectif de la technologie est la prédiction. et cette intuition se perd en quelque sorte en considération des outils que nous utilisons, tels que les algorithmes d'apprentissage supervisé,
Cela dit, le seul mot que je pourrais appliquer à un modèle est peut-être interprétable. Les régressions sont généralement interprétables. les réseaux neuronaux à plusieurs couches ne le sont souvent pas. Je pense que les gens supposent parfois naïvement qu'un modèle interprétable fournit des informations causales, tandis que les modèles non interprétables ne fournissent que des informations prédictives. Cette attitude me semble simplement confuse.
la source
Je ne sais toujours pas quelle est la question. Cela dit, la différence fondamentale entre les modèles prédictifs et explicatifs est, à mon sens, la différence de leurs objectifs.
Modèles explicatifs
Modèles prédictifs
Le but des modèles prédictifs est de prédire quelque chose. Ainsi, ils ont tendance à se concentrer moins sur la parcimonie ou la simplicité, mais davantage sur leur capacité à prédire la variable dépendante.
Cependant, la distinction ci-dessus est quelque peu artificielle puisque des modèles explicatifs peuvent être utilisés pour la prédiction et que des modèles prédictifs peuvent expliquer quelque chose.
la source
comme d'autres l'ont déjà dit, la distinction n'a pas de sens, sauf en ce qui concerne les objectifs du chercheur.
Brad Efron, l'un des commentateurs du document sur les deux cultures , a formulé l'observation suivante (comme indiqué dans ma question précédente ):
Certains champs (par exemple, médecine) accordent une grande importance à l'ajustement du modèle en tant que processus explicatif (distribution, etc.), en tant que moyen de comprendre le processus sous-jacent qui génère les données. D'autres domaines sont moins concernés par cela et seront satisfaits d'un modèle de "boîte noire" qui a un succès prédictif très élevé. Cela peut également faire partie du processus de création de modèle.
la source
Avec égards, cette question pourrait être mieux ciblée. Les gens ont-ils déjà utilisé un terme alors que l'autre était plus approprié? Oui bien sûr. Parfois, cela est assez clair du contexte, ou vous ne voulez pas être pédant. Parfois, les gens sont juste négligents ou paresseux dans leur terminologie. Cela est vrai pour beaucoup de gens et je ne suis certainement pas meilleur.
L’intérêt potentiel ici (discuter des explications par rapport aux prévisions sur CV) est de clarifier la distinction entre les deux approches. En bref, la distinction est centrée sur le rôle de la causalité. Si vous voulez comprendre une dynamique du monde et expliquer pourquoi quelque chose se passe ainsi, vous devez identifier les relations de cause à effet entre les variables pertinentes. Pour prédire, vous pouvez ignorer la causalité. Par exemple, vous pouvez prédire un effet à partir de la connaissance de sa cause. vous pouvez prédire l'existence de la cause en sachant que l'effet s'est produit; et vous pouvez prédire le niveau approximatif d'un effet en connaissant un autre effet motivé par la même cause. Pourquoi quelqu'un voudrait-il pouvoir faire cela? Accroître leur connaissance de ce qui pourrait arriver dans l’avenir, afin qu’ils puissent planifier en conséquence. Par exemple, une commission des libérations conditionnelles voudra peut-être être en mesure de prédire la probabilité qu’un condamné récidive s’il est mis en liberté conditionnelle. Cependant, cela ne suffit pas pour l'explication. Bien sûr, estimer la relation de causalité réelle entre deux variables peut être extrêmement difficile. En outre, les modèles qui capturent (ce que l’on pense être) les véritables relations de cause à effet sont souvent pires pour faire des prédictions. Alors pourquoi le faire alors? Premièrement, la plupart de ces travaux sont effectués dans le domaine scientifique, où la compréhension est recherchée pour elle-même. Deuxièmement, si nous pouvons identifier de manière fiable les causes vraies et développer la capacité de les affecter, nous pouvons exercer une certaine influence sur les effets.
En ce qui concerne la stratégie de modélisation statistique, la différence n’est pas grande. La différence réside principalement dans la manière de mener l’étude. Si votre objectif est de pouvoir prédire, déterminez quelles informations seront disponibles pour les utilisateurs du modèle au moment où ils devront effectuer la prédiction. Les informations auxquelles ils n'auront pas accès sont sans valeur. S'ils veulent le plus probablement pouvoir prédire à un certain niveau (ou dans une plage étroite) des prédicteurs, essayez de centrer la plage échantillonnée du prédicteur sur ce niveau et d'y sur-échantillonner. Par exemple, si une commission des libérations conditionnelles veut surtout savoir sur les criminels condamnés pour deux infractions majeures, vous pouvez collecter des informations sur les criminels condamnés à une, deux ou trois condamnations. D'autre part, l'évaluation du statut causal d'une variable nécessite essentiellement une expérience. C'est, Les unités expérimentales doivent être attribuées de manière aléatoire à des niveaux prédéfinis de variables explicatives. Si l'on s'interroge sur la question de savoir si la nature de l'effet de causalité dépend ou non d'une autre variable, cette variable doit être incluse dans l'expérience. S'il n'est pas possible de mener une véritable expérience, vous vous trouvez alors dans une situation beaucoup plus difficile, trop complexe pour être abordée ici.
la source
La plupart des réponses ont permis de clarifier ce que sont la modélisation pour l'explication et la modélisation pour la prédiction et pourquoi elles diffèrent. Ce qui ne sait pas, à ce jour, est la façon dont ils diffèrent. J'ai donc pensé proposer un exemple qui pourrait être utile.
Supposons que nous participions à la modélisation de la GPA des collèges en fonction de la préparation académique. En tant que mesures de la préparation académique, nous avons:
Stratégie de prévision
Si l'objectif est la prédiction, je pourrais utiliser toutes ces variables simultanément dans un modèle linéaire et ma principale préoccupation serait la précision prédictive. La variable la plus utile pour prédire la moyenne pondérée cumulative des collèges sera incluse dans le modèle final.
Stratégie d'explication
Si l'objectif est d'explication, je pourrais être plus préoccupé par la réduction des données et réfléchir soigneusement aux corrélations entre les variables indépendantes. Ma principale préoccupation serait d'interpréter les coefficients.
Exemple
Dans un problème multivarié typique avec des prédicteurs corrélés, il ne serait pas rare d'observer des coefficients de régression "inattendus". Compte tenu des interrelations entre les variables indépendantes, il ne serait pas surprenant de voir des coefficients partiels pour certaines de ces variables qui ne vont pas dans le même sens que leurs relations d'ordre zéro et qui peuvent sembler contre-intuitifs et difficiles à expliquer.
Par exemple, supposons que le modèle suggère que (les scores de test d’aptitude et le nombre de tests de réussite ayant été terminés soient pris en compte), les MPC des lycées supérieurs sont associés à des MPPA de niveau inférieur . Ce n'est pas un problème de prédiction, mais cela pose un problème pour un modèle explicatif où une telle relation est difficile à interpréter . Ce modèle peut fournir le meilleur des prédictions d'échantillon, mais il ne nous aide pas beaucoup à comprendre la relation entre la préparation académique et la GPA des collèges.
Au lieu de cela, une stratégie explicative pourrait rechercher une forme de réduction variable, telle que composantes principales, analyse factorielle ou SEM pour:
De telles stratégies pourraient réduire le pouvoir prédictif du modèle, mais elles permettraient peut-être de mieux comprendre le lien qui existe entre la préparation à l’enseignement et la GPA des collèges.
la source
Je voudrais offrir un point de vue centré sur le modèle.
La modélisation prédictive est ce qui se passe dans la plupart des analyses. Par exemple, un chercheur met en place un modèle de régression avec un ensemble de prédicteurs. Les coefficients de régression représentent alors des comparaisons prédictives entre les groupes. L'aspect prédictif provient du modèle de probabilité: l'inférence est faite à l'aide d'un modèle de superpopulation qui aurait pu produire la population ou l'échantillon observé. Le but de ce modèle est de prévoir de nouveaux résultats pour les unités émergeant de cette superpopulation. Souvent, cet objectif est vain car les choses changent constamment, en particulier dans le monde social. Ou parce que votre modèle concerne des unités rares telles que des pays et que vous ne pouvez pas en tirer un nouvel échantillon. L'utilité du modèle dans ce cas est laissée à l'appréciation de l'analyste.
Lorsque vous essayez de généraliser les résultats à d'autres groupes ou à de futures unités, il s'agit toujours d'une prédiction, mais d'un type différent. Nous pouvons appeler cela des prévisions par exemple. Le point clé est que le pouvoir prédictif des modèles estimés est, par défaut, de nature descriptive . Vous comparez les résultats d'un groupe à l'autre et émettez l'hypothèse d'un modèle de probabilité pour ces comparaisons, mais vous ne pouvez pas conclure que ces comparaisons constituent des effets de causalité.
La raison en est que ces groupes peuvent souffrir de biais de sélection . C'est-à-dire qu'ils peuvent naturellement avoir un score plus élevé dans le résultat d'intérêt, quel que soit le traitement (l'intervention causale hypothétique). Ou bien ils peuvent être soumis à une taille d'effet de traitement différente de celle des autres groupes. C'est pourquoi, en particulier pour les données d'observation, les modèles estimés concernent généralement des comparaisons prédictives et non des explications. L'explication concerne l'identification et l'estimation de l'effet causal et nécessite des expériences bien conçues ou l'utilisation réfléchie de variables instrumentales. Dans ce cas, les comparaisons prédictives sont coupées de tout biais de sélection et représentent des effets de causalité. Le modèle peut donc être considéré comme explicatif.
J'ai trouvé que penser en ces termes avait souvent clarifié ce que je faisais réellement lors de la création d'un modèle pour certaines données.
la source
Nous pouvons en apprendre beaucoup plus que nous ne le pensons avec les modèles "prédictifs" de Black Box. La clé consiste à exécuter différents types d’analyses de sensibilité et de simulations pour bien comprendre comment le modèle OUTPUT est affecté par les modifications de l’espace INPUT. En ce sens, même un modèle purement prédictif peut fournir des informations explicatives. C'est un point qui est souvent négligé ou mal compris par le monde de la recherche. Le simple fait de ne pas comprendre pourquoi un algorithme fonctionne ne signifie pas qu'il manque de pouvoir explicatif ...
Dans l’ensemble, d’un point de vue général, la réponse succincte de Probistislic est tout à fait correcte ...
la source
Il y a une distinction entre ce qu'elle appelle des applications explicatives et prédictives en statistique. Elle dit que nous devrions savoir chaque fois que nous utilisons l’une ou l’autre laquelle est utilisée exactement. Elle dit que nous les mélangeons souvent, d'où la confusion .
Je conviens que dans les applications en sciences sociales , la distinction est judicieuse, mais en sciences naturelles, elles sont et devraient être identiques. De plus, je les appelle inférence ou prévision et conviens qu’il ne faut pas les mélanger en sciences sociales .
Je vais commencer par les sciences naturelles. En physique, nous nous concentrons sur l'explication, nous essayons de comprendre comment le monde fonctionne, quelles en sont les causes, etc. Ainsi, l'accent est mis sur la causalité, l'inférence et autres. D'autre part, l'aspect prédictif fait également partie du processus scientifique. En fait, pour prouver une théorie qui explique déjà bien les observations (pensez à l'échantillon), vous pouvez prédire de nouvelles observations, puis vérifier le fonctionnement de la prédiction. Toute théorie dépourvue de capacités prédictives aura de grandes difficultés à être acceptée en physique. C'est pourquoi des expériences telles que celle de Michelson-Morley sont si importantes.
Malheureusement, en sciences sociales, les phénomènes sous-jacents sont instables, irremplaçables, non reproductibles. Si vous regardez des noyaux se décomposer, vous obtiendrez les mêmes résultats à chaque fois que vous les observerez, et les mêmes résultats que ceux que j'ai obtenus ou que nous avons obtenus il y a cent ans. Pas en économie ou en finance. En outre, la capacité de mener des expériences est très limitée, presque inexistante pour des raisons pratiques, nous n'observons et ne réalisons que des échantillons aléatoires.d'observations. Je peux continuer, mais l'idée est que les phénomènes que nous traitons sont très instables, par conséquent nos théories ne sont pas de la même qualité qu'en physique. Par conséquent, l’une des façons de gérer la situation consiste à se concentrer sur l’inférence (lorsque vous essayez de comprendre ce qui cause quoi ou quel impact) ou sur la prévision (dites simplement ce que vous pensez qu’il arrivera à ceci ou à celui qui ignore la structure).
la source
Un modèle structurel donnerait une explication et un modèle prédictif donnerait une prédiction. Un modèle structurel aurait des variables latentes. Un modèle structurel est l’aboutissement simultané de la régression et de l’analyse factorielle
Les variables latentes se manifestent sous la forme de multi-colinéarité dans les modèles prédictifs (régression).
la source