Comment trouvez-vous les relations causales dans les données?

11

Disons que j'ai un tableau avec les colonnes "A", "B"

Existe-t-il une méthode statistique pour déterminer si "A" provoque le "B"? On ne peut pas vraiment utiliser le r de Pearson, car:

  • il teste uniquement la corrélation entre les valeurs
  • la corrélation n'est pas une causalité
  • Le r de Pearson ne peut corréler que les relations linéaires

Alors, quelles autres options ai-je ici?

chutsu
la source
1
Il n'y a pas. À partir de ces données, vous pouvez démontrer un degré élevé de corrélation; vous ne pouvez pas démontrer la causalité.
1
La causalité n'est tout simplement pas quelque chose que vous pouvez tirer des chiffres ... alors, répétez après moi: la causalité n'est pas une corrélation , la causalité n'est pas une corrélation ...
JM n'est pas un statisticien
1
Voir «Causalité» de Judea Pearl (lauréate du prix Turing 2011).

Réponses:

4

Jusqu'à présent, les réponses et les commentaires sont fondamentalement corrects sur le plan pratique, mais pour être complet, il existe des recherches sur les soi-disant modèles de causalité qui sont basés sur les statistiques bayésiennes et la théorie des graphes. Ainsi, bien qu'en général, la corrélation n'implique pas de causalité, il existe des modèles plus complexes qui tentent de démêler la causalité. Voir le livre Causality de Judea Pearl pour plus de détails, mais ce sont des mathématiques très exigeantes et ce n'est probablement pas ce que vous voulez.


la source
2

Il existe de nombreuses méthodes dites quasi-expérimentales avec lesquelles vous pouvez argumenter de manière crédible sur la causalité, même si vos données sont observationnelles. Ces méthodes reposent généralement sur la recherche d'une source de variation exogène dans votre variable d'intérêt.

Je pense qu'une bonne vue d'ensemble accessible est donnée dans le livre "Mostly Harmless Econometrics". Ils couvrent essentiellement toutes les méthodes quasi expérimentales auxquelles les gens (c'est-à-dire les économistes) croient (au moins parfois). Ils ne couvrent pas les méthodes mentionnées par exemple par le trb456 (pour la même raison: peu y croient).

coffeinjunky
la source
1

Pour déterminer la causalité, vous devez effectuer un test de randomisation. Vous prenez vos sujets de test et choisissez au hasard la moitié d'entre eux pour avoir la qualité A et l'autre pour ne pas l'avoir. Vous voyez alors s'il existe une différence statistiquement significative de qualité B entre les deux groupes.

UNEB

Notez qu'il peut être impossible de faire le test de randomisation que vous souhaitez faire. Par exemple, comment pourriez-vous tester si être grand vous fait peser plus? Il y a certainement une corrélation entre la taille et le poids, mais vous ne pouvez pas assigner au hasard un groupe de personnes à un groupe «grand» et un autre à un groupe «court». Dans ce cas, le test de randomisation ne peut pas être effectué.

Chris Taylor
la source
0

Somers 'd travaille pour expliquer la relation entre les variables ordinales d'une manière que le coefficient de corrélation de Pearson fait pour les ensembles de données.

RUresearchteam
la source
1
Je suis d'accord qu'il faut plus que des chiffres pour établir un lien de causalité. Comment l'utilisation des variables ordinales entre-t-elle dans la question?
Michael R. Chernick
1
@MichaelChernick Somers 'D est une mesure d'association asymétrique. Il peut faire la distinction entre "s'il pleut, alors il est nuageux" de "s'il pleut, alors il pleut." Il fonctionne pour les données ordinales ou supérieures. Il n'établit pas de causalité, mais il établit la directionnalité.
Dave Harris