Quelle est la relation entre corrélation et causalité dans l'apprentissage automatique?

13

C'est un fait bien connu que «la corrélation n'est pas égale à la causalité», mais l'apprentissage automatique semble être presque entièrement basé sur la corrélation. Je travaille sur un système pour estimer les performances des étudiants sur des questions basées sur leurs performances passées. Contrairement à d'autres tâches, comme la recherche Google, cela ne semble pas être le type de système qui peut être facilement joué - la causalité n'est donc pas vraiment pertinente à cet égard.

De toute évidence, si nous voulons faire des expériences pour optimiser le système, nous devrons nous soucier de la distinction corrélation / causalité. Mais, du point de vue de la simple construction d'un système pour sélectionner les questions susceptibles d'être du niveau de difficulté approprié, cette distinction a-t-elle une importance?

Casebash
la source
Veuillez définir ou au moins faire référence à ce que vous entendez par causalité de corrélation dans "La corrélation n'est pas égale à la causalité"
seteropere

Réponses:

11

Toutes les IA ne fonctionnent pas sur la corrélation, les réseaux de croyances bayésiennes sont construits autour de la probabilité que A cause B.

Je travaille sur un système pour estimer les performances des étudiants sur des questions basées sur leurs performances passées.

Je ne pense pas que vous ayez besoin d'un lien de causalité pour cela. Une performance passée ne provoque pas une performance actuelle. Répondre à une question précoce ne provoque pas de réponse à une question ultérieure.

Mais du point de vue de la construction d'un système pour sélectionner les questions susceptibles d'être du niveau de difficulté approprié - cette distinction a-t-elle une importance?

Non, pas pour ton exemple. Je pense que la corrélation (ou même une simple extrapolation) résoudrait très bien votre problème. Attribuez un score de difficulté à chacune des questions, puis envoyez des questions aux étudiants à des niveaux de plus en plus difficiles (c'est ainsi que fonctionnent la plupart des examens), puis lorsque l'étudiant commence à se tromper, vous pouvez revenir sur la difficulté. Il s'agit d'un algorithme de rétroaction similaire à la minimisation des erreurs effectuée sur un neurone dans un perceptron multicouche. Le morceau non trivial d'espaces d'entrée comme celui-ci décide de ce qu'est une question difficile!

Un meilleur exemple de causalité en IA serait:

Ma voiture ralentit. Mon accélérateur est au sol. Il n'y a pas beaucoup de bruit. Il y a des lumières sur le tableau de bord. Quelle est la probabilité que je manque de carburant?

Dans ce cas, le manque de carburant a ralenti la voiture. C'est précisément le genre de problème que les réseaux de croyance bayésiens résolvent.

Dr Rob Lang
la source
"Je ne pense pas que vous ayez besoin d'un lien de causalité pour cela. Une performance passée ne provoque pas une performance actuelle. Répondre à une question précoce ne provoque pas de réponse à une question ultérieure." - eh bien le fait qu'un élève ait terminé un exercice peut les amener à mieux performer sur un autre exercice (nous leur en fournissons, astuces, ect).
Casebash
Mais je suppose que vous avez raison, il ne s'agit pas tant de corrélation que de causalité, mais de savoir si elle est corrélée à une causalité (c.-à-d. Les élèves d'une classe particulière réussissent bien dans les sujets de géométrie parce que l'enseignant a couvert plus en détail, par rapport aux élèves qui terminé les sujets les plus difficiles ayant tendance à avoir des performances élevées car ils sont les seuls à y arriver)
Casebash
Ah! C'est intéressant: terminer un exercice et en connaître le résultat est la raison d'être meilleur aux questions. Mais ce n'est pas observable ici. La seule chose que vous observez est les questions d'examen, qui sont corrélées. La corrélation n'est pas sale, c'est bien de dire que deux processus statistiques ont une relation.
Dr Rob Lang
A provoque B est une interprétation d'un réseau de croyances.
seteropere
6

l'apprentissage automatique semble être presque entièrement basé sur la corrélation

Je ne pense pas, pas en général du moins. Par exemple, l'hypothèse principale pour les algorithmes ML en termes d' analyse PAC et d' analyse de dimension VC , est que les données de formation / test proviennent de la même distribution que les données futures.

Donc, dans votre système, vous devez supposer que chaque élève impose une sorte de distribution de probabilité conditionnelle qui génère des réponses à des types particuliers de questions sur des sujets particuliers. Une autre hypothèse, et plus problématique, que vous devez faire, est que cette distribution ne change pas (ou ne change pas rapidement).

BartoszKP
la source
2

Je suis d'accord avec les réponses précédentes.

Si, cependant, vous êtes intéressé à regarder la corrélation / causalité en général, deux éléments que vous voudrez peut-être examiner sont:

  • Perle (oui, cette Pearl ) a produit l'un des très rares livres décents à ce sujet.
  • L'apprentissage par renforcement et le problème des bandits armés multiples sont tous basés sur un acteur essayant de déduire des plans d'action optimaux dans un environnement inconnu - c'est-à-dire qu'ils doivent apprendre quelles «actions» leur donneront la meilleure «récompense», et donc taquiner implicitement les causes des relations.

la source
2

En plus des autres réponses, il y a un sujet intéressant - si vous sélectionnez manuellement des fonctionnalités, vous voudrez peut-être penser à la `` corrélation coïncidente '' pour réduire le surapprentissage, c'est-à-dire éviter les fonctionnalités qui se trouvent être corrélées dans vos données d'entraînement, mais ne le feraient pas 't / ne devrait pas être corrélé dans le cas général - qu'il n'y a aucune relation de cause à effet.

À titre d'exemple grossier, supposons que vous preniez un tableau de données des résultats d'examen historiques et essayiez de prédire les critères d'échec / réussite; vous incluez simplement tous les champs de données disponibles en tant que fonctionnalités, et le tableau indique également l'anniversaire des étudiants. Maintenant, il peut bien y avoir une corrélation valide dans les données de formation que les étudiants nés le 12 février réussissent presque toujours et les étudiants nés le 13 février échouent presque toujours ... mais comme il n'y a pas de relation de cause à effet, cela devrait être exclu.

Dans la vraie vie, c'est un peu plus subtil, mais cela aide à distinguer les corrélations qui adaptent vos données à des signaux valides qui devraient être appris sous forme; et les corrélations qui sont simplement des modèles causés par un bruit aléatoire dans votre ensemble d'entraînement.

Peter est
la source