Le contexte
Une question populaire sur ce site est " Quels sont les péchés statistiques courants? ". L' un des péchés mentionnés suppose que « la corrélation implique un lien de causalité ... » lien
Ensuite, dans les commentaires avec 5 votes positifs, il est suggéré que: "Google gagne 65 milliards de dollars par an sans se soucier de la différence."
Au risque de sur-analyser une plaisanterie légère, j'ai pensé que cela pourrait être un point de discussion utile pour étoffer la distinction entre corrélation et causalité et la pertinence pratique de la distinction; et peut-être pourrait-il mettre en évidence quelque chose au sujet de la relation entre l'apprentissage automatique et la distinction entre corrélation et causalité.
Je suppose que le commentaire porte sur les technologies qui sous-tendent la génération de résultats des moteurs de recherche et les technologies liées à l'affichage publicitaire.
Question
- Dans quelle mesure la distinction entre corrélation et causalité est-elle pertinente pour la génération de revenus de Google, se concentrant peut-être en particulier sur la génération de revenus grâce aux technologies liées à l'affichage publicitaire et aux résultats de recherche de qualité?
la source
Réponses:
La réponse simple est que Google (ou n'importe qui) devrait se soucier de la distinction dans la mesure où ils ont l'intention d' intervenir . La connaissance causale vous renseigne sur les effets des interventions (actions) dans un domaine donné.
Si, par exemple, Google souhaite augmenter les taux de clics sur les annonces, augmenter le nombre d'utilisateurs de GMail ou Google+, ou inciter les utilisateurs à utiliser Google plutôt que Bing, alors ils doivent connaître les effets des actions potentielles (par exemple, augmenter la taille de la police des annonces, la promotion de Google+ dans les magazines imprimés ou la publicité des différences entre les résultats de recherche Google et Bing, respectivement). La corrélation est suffisamment bonne pour que le moteur de recherche de Google fonctionne bien, mais pour leurs autres systèmes (et leur entreprise dans son ensemble), la distinction est souvent importante.
Il convient de noter que Google (et de nombreuses entreprises ayant des entreprises sur le Web) exécutent constamment des expériences en ligne. Il s'agit de la manière la plus simple et la meilleure d'identifier et d'estimer les dépendances causales.
la source
Tout d'abord, ce n'est qu'une plaisanterie et est incorrect. Google compte de nombreux statisticiens très talentueux, des experts en recherche d'informations, des linguistes, des économistes, certains psychologues et d'autres. Ces gens passent beaucoup de temps à éduquer beaucoup de non-statisticiens sur la différence entre corrélation et causalité. Étant donné qu'il s'agit d'une grande organisation, il peut y avoir des poches, voire de grandes poches, d'ignorance, mais l'affirmation est définitivement fausse. De plus, une grande partie de cette éducation est confrontée aux clients, en particulier aux annonceurs.
Réponse plus profonde: la différence est extrêmement importante. Il suffit de regarder le classement des résultats de recherche et de m'étendre au-delà de la simple "corrélation" pour inclure des mesures de similitude, des fonctions de notation, etc. Certaines pages sont considérées comme de bons résultats pour certaines requêtes. Ceux-ci ont une variété de fonctionnalités de prédicteur qui sont importantes pour leur classement. Contrairement à ces bonnes pages qui donnent de bons résultats pour les requêtes, il y a un ensemble de pages Web qui sont de très mauvais résultats pour les mêmes requêtes. Cependant, les créateurs de ces pages consacrent beaucoup d'efforts à les faire ressembler à de bonnes pages d'un point de vue numérique, telles que les correspondances de texte, la liaison Internet, etc. Cependant, ce n'est pas parce que ces pages sont numériquement "similaires" à de bonnes pages que ce sont en fait de bonnes pages. Par conséquent, Google a investi et continuera d'investir beaucoup d'efforts pour déterminer quelles fonctionnalités raisonnables distinguent les pages bonnes et mauvaises (séparées).
Ce n'est pas tout à fait une corrélation et une causalité, mais c'est plus profond que cela. Les bonnes pages pour certaines requêtes peuvent être mappées dans un espace numérique où elles apparaissent similaires et distinctes de nombreuses pages non pertinentes ou incorrectes, mais le simple fait que les résultats se trouvent dans la même région de l'espace des fonctionnalités n'implique pas qu'elles proviennent du même sous-ensemble de «haute qualité» du web.
Réponse plus simple: une perspective très simple consiste à aborder le classement des résultats. Le meilleur résultat devrait être le premier, mais ce n'est pas parce que quelque chose est classé premier que c'est le meilleur résultat. Selon certaines mesures de notation, vous pouvez constater que le classement de Google est corrélé à un standard d'or des évaluations de la qualité, mais cela ne signifie pas que leur classement implique que les résultats sont vraiment dans cet ordre en termes de qualité et de pertinence.
Mise à jour (troisième réponse): Au fil du temps, il y a un autre aspect qui nous affecte tous: c'est que le meilleur résultat Google peut être considéré comme faisant autorité, car c'est le meilleur résultat sur Google. Bien que l'analyse des liens (par exemple, "PageRank" - une méthode pour l'analyse des liens) soit une tentative de refléter une autorité perçue, au fil du temps, de nouvelles pages sur un sujet peuvent simplement renforcer cette structure de liens en établissant un lien vers le meilleur résultat sur Google. Une page plus récente qui fait plus autorité a un problème avec le début par rapport au premier résultat. Étant donné que Google souhaite proposer la page la plus pertinente à l'heure actuelle , divers facteurs, notamment un phénomène dit «riche-riche», surviennent en raison d'un effet implicite de corrélation sur la causalité perçue.
Mise à jour (quatrième réponse): J'ai réalisé (pour un commentaire ci-dessous) qu'il pourrait être utile de lire l'allégorie de Platon de la grotte pour avoir une idée de la façon d'interpréter la corrélation et la causalité à la suite de «réflexions / projections» de la réalité et comment nous (ou nos machines) le percevons. La corrélation, strictement limitée à la corrélation de Pearson, est beaucoup trop limitée en tant qu'interprétation de la question de l'association de malentendus (plus large que la simple corrélation) et du lien de causalité.
la source
Auteur de la plaisanterie ici.
Le commentaire a été partiellement inspiré par un discours de David Mease (chez Google), où il a dit, et je paraphrase, que les compagnies d'assurance automobile ne se soucient pas si être un homme cause plus d'accidents, tant qu'il est corrélé, ils doivent facturer plus. Il est, en fait, impossible de changer le sexe de quelqu'un dans une expérience, donc la cause n'a jamais pu être montrée.
De la même manière, Google n'a pas vraiment besoin de se soucier si la couleur rouge incite quelqu'un à cliquer sur une annonce, si elle est corrélée à plus de clics, ils peuvent facturer plus pour cette annonce.
Il a également été inspiré par cet article de Wired: The End of Theory: The Data Deluge Mets the Scientific Method Obsolete . Une citation:
"La philosophie fondatrice de Google est que nous ne savons pas pourquoi cette page est meilleure que celle-ci: si les statistiques des liens entrants le disent, cela suffit."
De toute évidence, Google a beaucoup de gens très intelligents qui connaissent la différence entre la causalité et la corrélation, mais dans leur cas, ils peuvent gagner beaucoup d'argent sans s'en soucier.
la source
Je suis d'accord avec David : la différence est importante si vous avez l'intention d'intervenir, et Google peut tester les résultats des interventions en exécutant des expériences contrôlées. (Le calendrier optimal de telles expériences dépend de votre ensemble d'hypothèses causales, que vous apprenez des expériences précédentes ainsi que des données d'observation , donc les corrélations sont toujours utiles!)
Il y a une deuxième raison pour laquelle Google pourrait vouloir apprendre les relations causales. Les relations causales sont plus robustes aux interventions des autres acteurs. Les interventions ont tendance à être locales, elles peuvent donc changer une partie du réseau causal mais laisser tous les autres mécanismes causaux inchangés. En revanche, les relations prédictives peuvent échouer si un lien de causalité éloigné est rompu. Internet est en constante évolution, et Google devrait s'intéresser aux fonctionnalités de l'environnement en ligne qui sont les plus robustes à ces changements.
la source