Voici une récente requête de corrélation de Google:
http://www.google.com/trends/correlate/search?e=internet+usage&t=weekly#
Comme vous pouvez le voir dans la boîte de recherche sur ce lien, j'ai entré "utilisation d'Internet" et Google a fait le reste. Il affiche une valeur de 0,9298 comme "corrélation" avec la requête "exploration de données". Cependant, quand je lis la page 2 du livre blanc de Google [PDF] , il dit:
The objective of Google Correlate is to surface the queries in the database whose spatial or temporal pattern is most highly correlated with a target pattern. Google Correlate employs a novel approximate nearest neighbor (ANN) algorithm over millions of candidate queries in an online search tree to produce results similar to the batch-based approach employed by Google Flu Trends but in a fraction of a second. For additional details, please see the Methods section below....
Donc, ma question est:
Google utilise-t-il une corrélation Pearson ou Spearman normale pour trouver ce genre de choses ou utilise-t-il autre chose? Si oui, pouvez-vous expliquer la technique générale?
==================
Notez également dans l'intrigue que la recherche de «l'utilisation d'Internet» (et du «data mining») diminue pendant les mois d'été et plonge vraiment autour de Noël. Je suppose que les enfants et leurs devoirs ont quelque chose à voir avec ça.
la source
Réponses:
Comme le souligne chl, le didacticiel Google Correlate indique que Google Correlate utilise le coefficient de corrélation produit-moment de Pearson .
Ils ne mentionnent pas dans quelle langue cela est implémenté, bien que Google utilise R pour certaines applications, donc je devinerais cela.
la source