Réflexions pratiques sur la modélisation explicative par rapport à la modélisation prédictive

70

En avril, j'ai assisté à une conférence intitulée "Expliquer ou prédire?" Lors de la série de séminaires du groupe de statistiques du département de mathématiques de l'UMD. La conférence a été donnée par le professeur Galit Shmueli, qui enseigne à la Smith Business School de l'UMD. Son exposé s'appuyait sur des recherches qu'elle avait effectuées pour un article intitulé "Modélisation prédictive contre explicative dans la recherche sur les systèmes d'information" , suivi d'un document de travail intitulé "Expliquer ou prédire?" .

L'argument du Dr Shmueli est que les termes prédictif et explicatif dans un contexte de modélisation statistique ont été confondus et que la littérature statistique manque d'une analyse approfondie des différences. Dans le journal, elle oppose les deux et discute de leurs implications pratiques. Je vous encourage à lire les journaux.

Les questions que je voudrais poser à la communauté des praticiens sont les suivantes:

  • Comment définissez-vous un exercice prédictif par rapport à un exercice explicatif / descriptif? Il serait utile que vous parliez de l'application spécifique.
  • Êtes-vous déjà tombé dans le piège d'utiliser l'un alors que vous vouliez utiliser l'autre? J'ai certainement. Comment savez-vous lequel utiliser?
wahalulu
la source
2
Cette question est proposé pour être fermé. Voir: meta.stats.stackexchange.com/questions/213/… Je vois qu'il a 2 votes. Est-ce que les votants ou le PO devraient expliquer pourquoi ils aimeraient que la question reste ouverte dans le méta-fil?
9
Plutôt que de dire "cela devrait être fermé. Quelqu'un devrait le défendre", pourquoi ne pas commencer par expliquer pourquoi vous voulez que ce soit fermé. Trop vague? Ensuite, demandez des éclaircissements. Cela me semble une question raisonnable. Le demandeur présente un document et demande quelle est la différence entre statistiques prédictives et statistiques explicatives. Le seul changement que je ferais à la question est de clarifier la question afin de faciliter le vote.
JD Long
2
J'ai déjà offert une raison sur le méta-fil. Je pense que les «méta discussions» sur la question encombreraient cette page en particulier.
2
@Srikant @JD Je vais renforcer la question. Merci pour les commentaires. Je pense que c'est un sujet qui mérite discussion.
wahalulu
4
Pourriez-vous ajouter des liens appropriés aux discours / articles mentionnés ci-dessus?
chl

Réponses:

39

En une phrase

La modélisation prédictive concerne uniquement "ce qui est susceptible de se produire?", Tandis que la modélisation explicative concerne "que pouvons-nous faire à ce sujet?"

En plusieurs phrases

Je pense que la principale différence réside dans le but recherché dans l'analyse. Je suggérerais que l'explication est beaucoup plus importante pour l' intervention que la prédiction. Si vous voulez faire quelque chose pour changer un résultat, vous feriez bien de chercher à expliquer pourquoi c'est comme ça. La modélisation explicative, si elle est bien faite, vous indiquera comment intervenir (quelle entrée doit être ajustée). Cependant, si vous voulez simplement comprendre ce que sera l’avenir, sans aucune intention (ni capacité) d’intervenir, la modélisation prédictive a plus de chances d’être appropriée.

Comme exemple incroyablement flou, utiliser "données sur le cancer".

Une modélisation prédictive utilisant des "données sur le cancer" serait appropriée (ou au moins utile) si vous finançiez les salles de cancérologie de différents hôpitaux. Vous n'avez pas vraiment besoin d'expliquer pourquoi les personnes ont le cancer, vous avez simplement besoin d'une estimation précise du nombre de services nécessaires. La modélisation explicative n’aiderait probablement pas beaucoup ici. Par exemple, le fait de savoir que le tabagisme entraîne un risque de cancer plus élevé ne vous dit pas, en soi, si vous devez accorder plus de fonds à la division A ou à la division B.

Une modélisation explicative des "données sur le cancer" serait appropriée si vous souhaitez réduire le taux national de cancer - la modélisation prédictive serait assez obsolète ici. La capacité de prédire avec précision les taux de cancer ne vous aidera probablement pas à décider comment le réduire. Cependant, savoir que fumer augmente le risque de cancer est une information précieuse, car si vous réduisez le taux de tabagisme (par exemple en rendant les cigarettes plus chères), cela conduit à un plus grand nombre de personnes avec moins de risque, ce qui conduit (espérons-le) à une diminution attendue du cancer. les taux.

En regardant le problème de cette façon, je penserais que la modélisation explicative serait principalement axée sur les variables qui contrôlent l'utilisateur, directement ou indirectement. Il peut être nécessaire de collecter d'autres variables, mais si vous ne pouvez modifier aucune des variables de l'analyse, je doute que la modélisation explicative soit utile, sauf peut-être pour vous donner le désir de contrôler ou d'influencer ces variables. qui sont importants. La modélisation prédictive recherche simplement des associations entre les variables, qu'elles soient contrôlées par l'utilisateur ou non. Vous devez seulement connaître les entrées / caractéristiques / variables indépendantes / etc .. pour faire une prédiction, mais vous devez pouvoir modifier ou influencer les entrées / caractéristiques / variables indépendantes / etc .. afin d'intervenir et de modifier un résultat. .

probabilislogic
la source
9
+1, bien fait! Je déteste faire du nitpick, mais je tiens à noter que la prédiction ne doit pas nécessairement porter sur l'avenir. Par exemple, un archéologue peut vouloir déterminer (c.-à-d. Prédire) le niveau de précipitations dans une région à un moment donné par la connaissance des traces (c.-à-d. Des effets des précipitations) qui restent.
Gay - Rétablir Monica
@gung - Je pensais avoir formulé ma réponse pour que cela ne se produise pas. De toute évidence, j'ai raté une place :-)
probabilislogic
Bonne réponse. Je pense que nous avons souvent besoin de savoir à quoi ressemble l'avenir et pourquoi. Supposons que, lorsque vous étudiez le taux de désabonnement des clients, vous souhaitiez savoir combien de clients (et exactement quel client) se désabonnent N mois prochain, puis pourquoi ils se désabonnent afin que le marketing puisse intervenir pour les fidéliser. Ensuite, nous avons besoin à la fois de prédictif (pour connaître le nombre et les clients futurs) et d’explicatif pour nous dire pourquoi, afin de pouvoir réduire le nombre de personnes qui chavirent. Alors, avons-nous un modèle hybride des deux ou un seul suffit? Varty y répond en disant "La relation connue peut émerger d'une analyse explicative / descriptive ou d'une autre technique"
Espanta
@gung I love to nitpick: l'archéologue souhaite prédire les expériences de son avenir (c'est-à-dire, prédire où elle trouvera à l'avenir des traces de fortes pluies dans le passé).
Alexis
@Alexis, c'est certainement possible, mais il est également possible que ce ne soit pas le principal intérêt de l'archéologue, et que ces données aient déjà été rassemblées par d'autres chercheurs (paléoclimatologues). L'archéologue souhaite simplement les utiliser pour tester des théories leur principal intérêt théorique ( Gill, 200 ).
gung - Rétablir Monica
30

À mon avis, les différences sont les suivantes:

Explicatif / descriptif

Lorsque vous recherchez une réponse explicative / descriptive, l’accent est mis sur les données dont nous disposons et nous cherchons à découvrir les relations sous-jacentes entre les données après la prise en compte du bruit.

Exemple: Est-il vrai que faire de l'exercice régulièrement (environ 30 minutes par jour) entraîne une baisse de la pression artérielle? Pour répondre à cette question, nous pouvons recueillir des données auprès de patients sur leur régime d'exercice et leurs valeurs de pression artérielle au fil du temps. Le but est de voir si nous pouvons expliquer les variations de la pression artérielle par des variations dans le schéma de l'exercice.

De nombreux autres facteurs, tels que la quantité de sodium ingérée, influent sur la tension artérielle pression artérielle.

Prédiction

Lors d'un exercice prédictif, nous extrapolons dans l'inconnu en utilisant les relations connues entre les données dont nous disposons. La relation connue peut découler d’une analyse explicative / descriptive ou d’une autre technique.

Exemple: Si je fais de l'exercice 1 heure par jour, dans quelle mesure ma pression artérielle risque-t-elle de baisser? Pour répondre à cette question, nous pouvons utiliser une relation précédemment découverte entre la pression artérielle et un programme d'exercices pour effectuer la prédiction.

Dans le contexte ci-dessus, l'accent n'est pas mis sur l'explication, bien qu'un modèle explicatif puisse aider au processus de prédiction. Il existe également des approches non explicatives (réseaux de neurones, par exemple) qui permettent de prédire l'inconnu sans nécessairement ajouter à notre connaissance de la nature de la relation sous-jacente entre les variables.

varty
la source
6
+1 Cette réponse évite dans une grande mesure les associations confuses avec la causalité en utilisant le langage de l'explication, de la description et des relations. Cela lui confère un degré de clarté souhaitable.
whuber
4
Sous Explication, vous écrivez que "nous nous concentrons principalement sur les données dont nous disposons" - je pense que vous essayez de dire que la tâche est rétrospective (par opposition à la nature prospective de la prédiction). Dans l'explication (lire "explication causale"), l'accent est mis sur la théorie et la connaissance du domaine, et les données sont utilisées pour tester ces hypothèses / théories. En revanche, dans la prédiction, il est davantage axé sur les données et vous êtes plus ouvert d’esprit sur les relations, car vous ne recherchez pas la causalité, mais plutôt la corrélation.
Galit Shmueli
@GalitShmueli Reg théorie / connaissance du domaine - oui, je suis d'accord avec ce point. J'essayais simplement de mettre en contraste prédiction et explication en mettant l'accent sur ce qui me semble être la principale distinction, à savoir l'extrapolation de la valeur d'une variable et la découverte de la relation entre les variables. Dans le processus, je suis bien sûr coupable d’avoir négligé les nuances subtiles entre les deux paradigmes.
Varty
1
@varty Je partage votre point de vue: dans l'explication / la description, vous êtes intéressé par une relation / effet global / moyen alors que dans la prédiction, vous êtes intéressé par la prédiction de valeurs individuelles (pas nécessairement une extrapolation)
Galit Shmueli
19

Un problème pratique qui se pose ici est la sélection de variables dans la modélisation. Une variable peut être une variable explicative importante (par exemple, est statistiquement significative) mais peut ne pas être utile à des fins de prévision (c'est-à-dire que son inclusion dans le modèle entraîne une détérioration de la précision prédictive). Je vois cette erreur presque tous les jours dans des articles publiés.

Une autre différence réside dans la distinction entre l'analyse en composantes principales et l'analyse factorielle. La PCA est souvent utilisée dans la prédiction, mais n'est pas très utile pour l'explication. FA implique l'étape de rotation supplémentaire qui est effectuée pour améliorer l'interprétation (et donc l'explication). Il y a un beau post aujourd'hui sur le blog de Galit Shmueli à ce sujet .

Mise à jour: un troisième cas se présente dans la série chronologique lorsqu'une variable peut être une variable explicative importante mais qu'elle n'est tout simplement pas disponible pour le futur. Par exemple, les prêts au logement peuvent être fortement liés au PIB mais cela n’est pas très utile pour prédire les futurs prêts au logement, à moins que nous ayons également de bonnes prévisions du PIB.

Rob Hyndman
la source
3
Pourquoi / comment une variable explicative importante pourrait-elle réduire la précision prédictive?
3
@Srikant. Cela peut se produire lorsque la variable explicative a une relation faible mais significative avec la variable de réponse. Le coefficient peut alors être statistiquement significatif mais difficile à estimer. Par conséquent, la MSE des prévisions peut augmenter lorsque la variable est incluse par rapport à quand elle est omise. (Le biais est réduit avec son inclusion, mais la variance est augmentée.)
Rob Hyndman
Le premier paragraphe est un très, très bon point. Parfois, c'est encore pire. PMID: 18052912 est un bon exemple de ce qu’il est parfois possible de créer un meilleur modèle pour la partie bruitale de l’ensemble que pour un modèle réel. .
1
pardonnez-moi, mais la rotation ne fait-elle pas normalement partie de la PCA et de la FA?
richiemorrisroe
3
Une statistique sig. mais un prédicteur faible est rarement efficace pour prédire ou expliquer. Par exemple, si une solution de régression linéaire a un QRQ de 0,40 sans inclure le prédicteur X1, et si l'inclusion de X1 ajoute 0,01 à ce RSQ, alors X1 n'est "important" ni pour la prédiction ni pour l'explication.
rolando2
17

Bien que certaines personnes trouvent plus facile de penser à la distinction en termes de modèle / algorithme utilisé (par exemple, réseaux de neurones = prédictif), ce n’est qu’un aspect particulier de la distinction expliciter / prédire. Voici un jeu de diapositives que j’utilise dans mon cours d’exploration de données pour enseigner la régression linéaire sous les deux angles. Même avec la seule régression linéaire et avec cet exemple minuscule, divers problèmes émergent qui conduisent à différents modèles d'objectifs explicatifs par rapport aux objectifs prédictifs (choix des variables, sélection de variables, mesures de performance, etc.).

Galit

Galit Shmueli
la source
5
Par curiosité, est-il intentionnel que, dans votre analyse de la régression pour la prévision (à partir de la page 33), vous choisissiez des prédicteurs (étape 1) avant de les partitionner en ensembles de données d'apprentissage et de validation (étape 3)? J'ai pensé que la procédure la plus objective et la plus honnête consisterait à partitionner dès le départ, avant même d'examiner les diagrammes de dispersion (étape 2). Si les régresseurs sont choisis en fonction de l'ensemble de données, cela ne gonflerait-il pas les niveaux de signification apparents dans de nombreux tests, même s'ils ont été appliqués par la suite aux données de validation?
whuber
Je pense que la question plus générale est de savoir si vous effectuez la visualisation de données avant de garder un hold-up. Lorsque le jeu de données est volumineux, peu importe alors. Avec un petit échantillon, utiliser la visualisation pour choisir des prédicteurs est en effet dangereux. Dans mes diapositives, je ne parle pas d’utiliser la visualisation pour la sélection de variables. Les "prédicteurs de sélection" consistent plus généralement en "sélection d'un ensemble potentiel de prédicteurs disponibles qui sont raisonnables". Il s’agit davantage d’intégrer la connaissance du domaine pour choisir un ensemble raisonnable.
Galit Shmueli
En continuant le sujet "Expliquer ou prédire", j'ai une question connexe ici . Je vous serais reconnaissant de bien vouloir jeter un coup d'œil car la question est principalement basée sur votre papier.
Richard Hardy
Professeur Shmueli, à la page 291 de votre document sur ce sujet, vous dites que vous envisagez uniquement la «prédiction non stochastique» telle que définie par Geisser, 1993. Où pourrais-je aller pour trouver la définition complète de la prédiction non stochastique? Heureux de commencer un nouveau post aussi, mais je pensais que je demanderais d'abord ici.
user0
11

Exemple: Un exemple classique que j'ai vu se situe dans le contexte de la prévision de la performance humaine. L'auto-efficacité (c.-à-d. Le degré avec lequel une personne pense pouvoir bien exécuter une tâche) est souvent un puissant prédicteur de la performance d'une tâche. Ainsi, si vous mettez l'auto-efficacité dans une régression multiple avec d'autres variables telles que l'intelligence et le degré d'expérience antérieure, vous constaterez souvent que l'auto-efficacité est un puissant prédicteur.

Cela a conduit certains chercheurs à suggérer que l'auto-efficacité est la cause de l'exécution de tâches. Et ces interventions efficaces sont celles qui visent à accroître le sentiment d'efficacité personnelle d'une personne.

Cependant, le modèle théorique alternatif considère l'efficacité personnelle essentiellement comme une conséquence de la performance d'une tâche. Si tu es bon, tu le sauras. Dans ce cadre, les interventions devraient viser à accroître les compétences réelles et non les compétences perçues.

Ainsi, l'inclusion d'une variable telle que l'auto-efficacité peut augmenter la prédiction, mais en supposant que vous adoptiez le modèle d'auto-efficacité en tant que conséquence, il ne devrait pas être inclus en tant que facteur de prédiction si l'objectif du modèle est d'élucider les processus de causalité influant sur la performance.

Cela pose bien sûr la question de savoir comment développer et valider un modèle théorique de causalité. Cela repose clairement sur plusieurs études, idéalement avec quelques manipulations expérimentales, et un argument cohérent sur les processus dynamiques.

Proximal versus distal : j'ai rencontré des problèmes similaires lorsque des chercheurs s'intéressent aux effets des causes distales et proximales. Les causes proximales tendent à prédire mieux que les causes distales. Toutefois, l’intérêt théorique peut être de comprendre le mode de fonctionnement des causes distale et proximale.

Question de la sélection des variables : Enfin, la recherche des sciences sociales pose un problème énorme en matière de sélection des variables. Dans toute étude, il existe un nombre infini de variables qui auraient pu être mesurées mais ne l’ont pas été. L’interprétation des modèles doit donc tenir compte de ses implications lors de l’interprétation théorique.

Jeromy Anglim
la source
En sciences sociales, il existe également un problème de "faible hypothèse" (par exemple, l’effet est positif vs négatif). Et dans cet exemple "d'auto-efficacité", vous pouvez voir cela comme un prédicteur interne de la performance que chaque personne a construite. Donc, cela ressemble probablement à utiliser une prédiction "boîte noire" comme variable explicative.
probabilitéislogique
9

La modélisation statistique: deux cultures (2001) de L. Breiman est peut-être le meilleur article sur ce point. Ses principales conclusions (voir également les réponses d'autres statisticiens renommés à la fin du document) sont les suivantes:

  • "Une précision prédictive plus élevée est associée à des informations plus fiables sur le mécanisme de données sous-jacent. Une faible précision prédictive peut conduire à des conclusions discutables."
  • "Les modèles algorithmiques peuvent donner une meilleure précision prédictive que les modèles de données et fournir de meilleures informations sur le mécanisme sous-jacent."
Nikita Zhiltsov
la source
3
Juste pour faire un lien avec une question précédente: Les deux cultures: statistiques vs apprentissage automatique?
chl
3
Le problème des modèles algorithmiques est qu’ils sont difficiles à comprendre. Cela rend difficile le diagnostic et la résolution des problèmes potentiels. Un modèle structurel est beaucoup plus facile à évaluer car vous savez à quoi devrait ressembler chaque composant.
probabilityislogic
8

Je n'ai pas lu son travail au-delà de l'abstrait du document lié, mais mon sentiment est que la distinction entre "explication" et "prédiction" devrait être abandonnée et remplacée par la distinction entre les objectifs du praticien, qui sont soit " causal "ou" prédictif ". En général, je pense que "explication" est un mot si vague qu'il ne veut presque rien dire. Par exemple, la loi de Hooke est-elle explicative ou prédictive? À l’autre bout du spectre, les systèmes de recommandation prédictifs-exacts sont-ils de bons modèles de causalité pour la notation explicite des éléments? Je pense que nous partageons tous l'intuition que l'objectif de la science est l'explication, tandis que l'objectif de la technologie est la prédiction. et cette intuition se perd en quelque sorte en considération des outils que nous utilisons, tels que les algorithmes d'apprentissage supervisé,

Cela dit, le seul mot que je pourrais appliquer à un modèle est peut-être interprétable. Les régressions sont généralement interprétables. les réseaux neuronaux à plusieurs couches ne le sont souvent pas. Je pense que les gens supposent parfois naïvement qu'un modèle interprétable fournit des informations causales, tandis que les modèles non interprétables ne fournissent que des informations prédictives. Cette attitude me semble simplement confuse.

John Myles White
la source
7

Je ne sais toujours pas quelle est la question. Cela dit, la différence fondamentale entre les modèles prédictifs et explicatifs est, à mon sens, la différence de leurs objectifs.

Modèles explicatifs

xyβ

Modèles prédictifs

Le but des modèles prédictifs est de prédire quelque chose. Ainsi, ils ont tendance à se concentrer moins sur la parcimonie ou la simplicité, mais davantage sur leur capacité à prédire la variable dépendante.

Cependant, la distinction ci-dessus est quelque peu artificielle puisque des modèles explicatifs peuvent être utilisés pour la prédiction et que des modèles prédictifs peuvent expliquer quelque chose.

utilisateur28
la source
+1 pour mentionner la complexité qui n'a pas été directement mentionnée par les réponses les plus fréquentes. Cependant, le défi se pose lorsque des modèles explicatifs sont utilisés pour des interventions. Comment s'assurer que les coefficients estimés ne sont pas biaisés, ce qui est un problème courant résultant de la parcimonie?
Thomas Speidel
5

comme d'autres l'ont déjà dit, la distinction n'a pas de sens, sauf en ce qui concerne les objectifs du chercheur.

Brad Efron, l'un des commentateurs du document sur les deux cultures , a formulé l'observation suivante (comme indiqué dans ma question précédente ):

La prédiction en elle-même ne suffit qu'occasionnellement. Le bureau de poste est satisfait de toute méthode qui prédit les adresses correctes à partir d’écraser à la main. Peter Gregory a entrepris son étude à des fins de prévision, mais également pour mieux comprendre les bases médicales de l'hépatite. La plupart des enquêtes statistiques ont pour objectif ultime l'identification des facteurs de causalité.

Certains champs (par exemple, médecine) accordent une grande importance à l'ajustement du modèle en tant que processus explicatif (distribution, etc.), en tant que moyen de comprendre le processus sous-jacent qui génère les données. D'autres domaines sont moins concernés par cela et seront satisfaits d'un modèle de "boîte noire" qui a un succès prédictif très élevé. Cela peut également faire partie du processus de création de modèle.

Shane
la source
5

Avec égards, cette question pourrait être mieux ciblée. Les gens ont-ils déjà utilisé un terme alors que l'autre était plus approprié? Oui bien sûr. Parfois, cela est assez clair du contexte, ou vous ne voulez pas être pédant. Parfois, les gens sont juste négligents ou paresseux dans leur terminologie. Cela est vrai pour beaucoup de gens et je ne suis certainement pas meilleur.

L’intérêt potentiel ici (discuter des explications par rapport aux prévisions sur CV) est de clarifier la distinction entre les deux approches. En bref, la distinction est centrée sur le rôle de la causalité. Si vous voulez comprendre une dynamique du monde et expliquer pourquoi quelque chose se passe ainsi, vous devez identifier les relations de cause à effet entre les variables pertinentes. Pour prédire, vous pouvez ignorer la causalité. Par exemple, vous pouvez prédire un effet à partir de la connaissance de sa cause. vous pouvez prédire l'existence de la cause en sachant que l'effet s'est produit; et vous pouvez prédire le niveau approximatif d'un effet en connaissant un autre effet motivé par la même cause. Pourquoi quelqu'un voudrait-il pouvoir faire cela? Accroître leur connaissance de ce qui pourrait arriver dans l’avenir, afin qu’ils puissent planifier en conséquence. Par exemple, une commission des libérations conditionnelles voudra peut-être être en mesure de prédire la probabilité qu’un condamné récidive s’il est mis en liberté conditionnelle. Cependant, cela ne suffit pas pour l'explication. Bien sûr, estimer la relation de causalité réelle entre deux variables peut être extrêmement difficile. En outre, les modèles qui capturent (ce que l’on pense être) les véritables relations de cause à effet sont souvent pires pour faire des prédictions. Alors pourquoi le faire alors? Premièrement, la plupart de ces travaux sont effectués dans le domaine scientifique, où la compréhension est recherchée pour elle-même. Deuxièmement, si nous pouvons identifier de manière fiable les causes vraies et développer la capacité de les affecter, nous pouvons exercer une certaine influence sur les effets.

En ce qui concerne la stratégie de modélisation statistique, la différence n’est pas grande. La différence réside principalement dans la manière de mener l’étude. Si votre objectif est de pouvoir prédire, déterminez quelles informations seront disponibles pour les utilisateurs du modèle au moment où ils devront effectuer la prédiction. Les informations auxquelles ils n'auront pas accès sont sans valeur. S'ils veulent le plus probablement pouvoir prédire à un certain niveau (ou dans une plage étroite) des prédicteurs, essayez de centrer la plage échantillonnée du prédicteur sur ce niveau et d'y sur-échantillonner. Par exemple, si une commission des libérations conditionnelles veut surtout savoir sur les criminels condamnés pour deux infractions majeures, vous pouvez collecter des informations sur les criminels condamnés à une, deux ou trois condamnations. D'autre part, l'évaluation du statut causal d'une variable nécessite essentiellement une expérience. C'est, Les unités expérimentales doivent être attribuées de manière aléatoire à des niveaux prédéfinis de variables explicatives. Si l'on s'interroge sur la question de savoir si la nature de l'effet de causalité dépend ou non d'une autre variable, cette variable doit être incluse dans l'expérience. S'il n'est pas possible de mener une véritable expérience, vous vous trouvez alors dans une situation beaucoup plus difficile, trop complexe pour être abordée ici.

gung - Rétablir Monica
la source
1
(x,y,z,v)z(x,y,v)de l'analyse. Concernant votre dernier paragraphe, de nombreux comptes sur ce site témoignent de différences de stratégie nettes.
whuber
1
Vous avez raison, cela dépend du but de l'étude. Je suppose que je n’ai pas expliqué cela explicitement (j’ai seulement parlé de ce que vous voulez réaliser). Il est également vrai que l'explication ne doit pas nécessairement concerner la causalité - un élément analogue à la causalité convient également (par exemple, les dimensions - le cas d'un volume en est une implication logique / mathématique). Cependant, la plupart des modèles explicatifs sont centrés sur la causalité; Je suppose que je pensais pouvoir sauter ce genre de chose pour des raisons de simplicité. Enfin, la stratégie diffère lors de la conception de l’étude et de la collecte des données, mais la régression de y sur x est pratiquement la même.
Gay - Rétablir Monica
Merci pour la réponse. À partir d’autres échanges sur ce site, j’ai appris à comprendre des affirmations universelles telles que "la plupart des modèles de modélisation explicative sont axés sur la causalité" afin de refléter le passé et l’expérience de l’auteur, plutôt que comme étant littéralement vrais. Dans les sciences physiques et «dures», cette affirmation est peut-être correcte, mais dans le cas des sciences sociales et «douces», je doute que les praticiens fassent une telle affirmation. En fait, on pense souvent que les relations à l’étude ont des causes cachées communes, mais ne reflètent pas la causalité directe entre les régresseurs et le régressand.
whuber
@ whuber c'est certainement vrai que mes idées sont influencées par mes antécédents et mon expérience. Si cette réponse n'est pas utile (je remarque que cela n'a pas eu de vote), je peux la supprimer. Un certain nombre d’autres ont fourni des réponses qui couvrent les idées que je voulais exprimer.
Gay - Rétablir Monica
@whuber - un bon exemple de causalité douce est "fumer provoque le cancer" - bien que je suis sûr que vous pourriez trouver un fumeur de la chaîne qui n'a pas le cancer. La notion de causalité est liée au calendrier des événements. La cause doit être antérieure à l'effet, ce qui explique pourquoi l'exemple du cube n'a aucun sens.
probabilitéislogique
4

La plupart des réponses ont permis de clarifier ce que sont la modélisation pour l'explication et la modélisation pour la prédiction et pourquoi elles diffèrent. Ce qui ne sait pas, à ce jour, est la façon dont ils diffèrent. J'ai donc pensé proposer un exemple qui pourrait être utile.

Supposons que nous participions à la modélisation de la GPA des collèges en fonction de la préparation académique. En tant que mesures de la préparation académique, nous avons:

  1. Scores de test d'aptitude;
  2. HS GPA; et
  3. Nombre de tests AP passés.

Stratégie de prévision

Si l'objectif est la prédiction, je pourrais utiliser toutes ces variables simultanément dans un modèle linéaire et ma principale préoccupation serait la précision prédictive. La variable la plus utile pour prédire la moyenne pondérée cumulative des collèges sera incluse dans le modèle final.

Stratégie d'explication

Si l'objectif est d'explication, je pourrais être plus préoccupé par la réduction des données et réfléchir soigneusement aux corrélations entre les variables indépendantes. Ma principale préoccupation serait d'interpréter les coefficients.

Exemple

Dans un problème multivarié typique avec des prédicteurs corrélés, il ne serait pas rare d'observer des coefficients de régression "inattendus". Compte tenu des interrelations entre les variables indépendantes, il ne serait pas surprenant de voir des coefficients partiels pour certaines de ces variables qui ne vont pas dans le même sens que leurs relations d'ordre zéro et qui peuvent sembler contre-intuitifs et difficiles à expliquer.

Par exemple, supposons que le modèle suggère que (les scores de test d’aptitude et le nombre de tests de réussite ayant été terminés soient pris en compte), les MPC des lycées supérieurs sont associés à des MPPA de niveau inférieur . Ce n'est pas un problème de prédiction, mais cela pose un problème pour un modèle explicatif où une telle relation est difficile à interpréter . Ce modèle peut fournir le meilleur des prédictions d'échantillon, mais il ne nous aide pas beaucoup à comprendre la relation entre la préparation académique et la GPA des collèges.

Au lieu de cela, une stratégie explicative pourrait rechercher une forme de réduction variable, telle que composantes principales, analyse factorielle ou SEM pour:

  1. se concentrer sur la variable qui constitue la meilleure mesure du «rendement scolaire» et modéliser la moyenne pondérée cumulative du collège sur cette variable en particulier; ou
  2. utilisez les scores factoriels / variables latentes dérivés de la combinaison des trois mesures de la préparation académique plutôt que des variables originales.

De telles stratégies pourraient réduire le pouvoir prédictif du modèle, mais elles permettraient peut-être de mieux comprendre le lien qui existe entre la préparation à l’enseignement et la GPA des collèges.

Brett
la source
En ce qui concerne le signe contre-intuitif, je me demande si c'est parce que notre intuition interprète la mauvaise covariable - comme un effet principal comme s'il s'agissait d'un effet imbriqué ou d'interaction.
probabilitéislogique
3

Je voudrais offrir un point de vue centré sur le modèle.

La modélisation prédictive est ce qui se passe dans la plupart des analyses. Par exemple, un chercheur met en place un modèle de régression avec un ensemble de prédicteurs. Les coefficients de régression représentent alors des comparaisons prédictives entre les groupes. L'aspect prédictif provient du modèle de probabilité: l'inférence est faite à l'aide d'un modèle de superpopulation qui aurait pu produire la population ou l'échantillon observé. Le but de ce modèle est de prévoir de nouveaux résultats pour les unités émergeant de cette superpopulation. Souvent, cet objectif est vain car les choses changent constamment, en particulier dans le monde social. Ou parce que votre modèle concerne des unités rares telles que des pays et que vous ne pouvez pas en tirer un nouvel échantillon. L'utilité du modèle dans ce cas est laissée à l'appréciation de l'analyste.

Lorsque vous essayez de généraliser les résultats à d'autres groupes ou à de futures unités, il s'agit toujours d'une prédiction, mais d'un type différent. Nous pouvons appeler cela des prévisions par exemple. Le point clé est que le pouvoir prédictif des modèles estimés est, par défaut, de nature descriptive . Vous comparez les résultats d'un groupe à l'autre et émettez l'hypothèse d'un modèle de probabilité pour ces comparaisons, mais vous ne pouvez pas conclure que ces comparaisons constituent des effets de causalité.

La raison en est que ces groupes peuvent souffrir de biais de sélection . C'est-à-dire qu'ils peuvent naturellement avoir un score plus élevé dans le résultat d'intérêt, quel que soit le traitement (l'intervention causale hypothétique). Ou bien ils peuvent être soumis à une taille d'effet de traitement différente de celle des autres groupes. C'est pourquoi, en particulier pour les données d'observation, les modèles estimés concernent généralement des comparaisons prédictives et non des explications. L'explication concerne l'identification et l'estimation de l'effet causal et nécessite des expériences bien conçues ou l'utilisation réfléchie de variables instrumentales. Dans ce cas, les comparaisons prédictives sont coupées de tout biais de sélection et représentent des effets de causalité. Le modèle peut donc être considéré comme explicatif.

J'ai trouvé que penser en ces termes avait souvent clarifié ce que je faisais réellement lors de la création d'un modèle pour certaines données.

yoplait
la source
+1, il y a de bonnes informations ici. Je serais prudent quant à l’affirmation "La modélisation prédictive est ce qui se passe dans la plupart des analyses", cependant. Que la modélisation prédictive soit plus répandue ou non, varie d'une discipline à l'autre, etc. Mon hypothèse est que la plupart des modélisations dans les universités sont explicatives et que de nombreuses modélisations / fouilles de données sont effectuées dans le secteur privé (par exemple, l'identification de clients potentiels potentiels). est prédictif. Je pourrais facilement me tromper, mais il sera difficile de dire, a priori, ce qui se produit la plupart du temps.
gung - Réintégrer Monica
1
Eh bien, à mon avis, la modélisation des données d’observation est essentiellement prédictive, même si son objectif est explicatif. Si vous ne randomisez pas l'attribution du traitement et n'induisez en fait un changement dans un montage expérimental, vos coefficients de régression n'auront qu'une valeur descriptive, c'est-à-dire qu'ils ne fournissent que le moyen d'effectuer des comparaisons prédictives. Par exemple, vous pouvez prédire le succès à l’école en fonction de caractéristiques démographiques, mais cela ne signifie pas pour autant que ces données démographiques sont des effets causals explicatifs. La raison en est que les prédictions comparatives sont exposées à un biais de sélection.
Lionel Henry
1

Nous pouvons en apprendre beaucoup plus que nous ne le pensons avec les modèles "prédictifs" de Black Box. La clé consiste à exécuter différents types d’analyses de sensibilité et de simulations pour bien comprendre comment le modèle OUTPUT est affecté par les modifications de l’espace INPUT. En ce sens, même un modèle purement prédictif peut fournir des informations explicatives. C'est un point qui est souvent négligé ou mal compris par le monde de la recherche. Le simple fait de ne pas comprendre pourquoi un algorithme fonctionne ne signifie pas qu'il manque de pouvoir explicatif ...

Dans l’ensemble, d’un point de vue général, la réponse succincte de Probistislic est tout à fait correcte ...

Invité avec une pensée
la source
Il est difficile de savoir quelles "informations explicatives" peuvent être glanées de cette manière, si par cette phrase vous sous-entendez une causalité.
gung - Réintégrer Monica
1

Il y a une distinction entre ce qu'elle appelle des applications explicatives et prédictives en statistique. Elle dit que nous devrions savoir chaque fois que nous utilisons l’une ou l’autre laquelle est utilisée exactement. Elle dit que nous les mélangeons souvent, d'où la confusion .

Je conviens que dans les applications en sciences sociales , la distinction est judicieuse, mais en sciences naturelles, elles sont et devraient être identiques. De plus, je les appelle inférence ou prévision et conviens qu’il ne faut pas les mélanger en sciences sociales .

Je vais commencer par les sciences naturelles. En physique, nous nous concentrons sur l'explication, nous essayons de comprendre comment le monde fonctionne, quelles en sont les causes, etc. Ainsi, l'accent est mis sur la causalité, l'inférence et autres. D'autre part, l'aspect prédictif fait également partie du processus scientifique. En fait, pour prouver une théorie qui explique déjà bien les observations (pensez à l'échantillon), vous pouvez prédire de nouvelles observations, puis vérifier le fonctionnement de la prédiction. Toute théorie dépourvue de capacités prédictives aura de grandes difficultés à être acceptée en physique. C'est pourquoi des expériences telles que celle de Michelson-Morley sont si importantes.

Malheureusement, en sciences sociales, les phénomènes sous-jacents sont instables, irremplaçables, non reproductibles. Si vous regardez des noyaux se décomposer, vous obtiendrez les mêmes résultats à chaque fois que vous les observerez, et les mêmes résultats que ceux que j'ai obtenus ou que nous avons obtenus il y a cent ans. Pas en économie ou en finance. En outre, la capacité de mener des expériences est très limitée, presque inexistante pour des raisons pratiques, nous n'observons et ne réalisons que des échantillons aléatoires.d'observations. Je peux continuer, mais l'idée est que les phénomènes que nous traitons sont très instables, par conséquent nos théories ne sont pas de la même qualité qu'en physique. Par conséquent, l’une des façons de gérer la situation consiste à se concentrer sur l’inférence (lorsque vous essayez de comprendre ce qui cause quoi ou quel impact) ou sur la prévision (dites simplement ce que vous pensez qu’il arrivera à ceci ou à celui qui ignore la structure).

Aksakal
la source
0

Un modèle structurel donnerait une explication et un modèle prédictif donnerait une prédiction. Un modèle structurel aurait des variables latentes. Un modèle structurel est l’aboutissement simultané de la régression et de l’analyse factorielle

Les variables latentes se manifestent sous la forme de multi-colinéarité dans les modèles prédictifs (régression).

Brijesh
la source