Quelle méthode est utilisée dans le corrélat de Google?

8

Voici une récente requête de corrélation de Google:
http://www.google.com/trends/correlate/search?e=internet+usage&t=weekly#

Comme vous pouvez le voir dans la boîte de recherche sur ce lien, j'ai entré "utilisation d'Internet" et Google a fait le reste. Il affiche une valeur de 0,9298 comme "corrélation" avec la requête "exploration de données". Cependant, quand je lis la page 2 du livre blanc de Google [PDF] , il dit:

The objective of Google Correlate is to surface the queries in
the database whose spatial or temporal pattern is most highly correlated
with a target pattern. Google Correlate employs a novel approximate nearest
neighbor (ANN) algorithm over millions of candidate queries in an online
search tree to produce results similar to the batch-based approach employed
by Google Flu Trends but in a fraction of a second. For additional details,
please see the Methods section below....

Donc, ma question est:
Google utilise-t-il une corrélation Pearson ou Spearman normale pour trouver ce genre de choses ou utilise-t-il autre chose? Si oui, pouvez-vous expliquer la technique générale?

==================

Notez également dans l'intrigue que la recherche de «l'utilisation d'Internet» (et du «data mining») diminue pendant les mois d'été et plonge vraiment autour de Noël. Je suppose que les enfants et leurs devoirs ont quelque chose à voir avec ça.

bill_080
la source
3
Ne s'agit-il pas uniquement de coefficients de corrélation de Pearson, comme indiqué dans le tutoriel ? (Section Requêtes corrélées )
chl
2
@chl: Tu as raison. J'ai cliqué sur la FAQ, mais j'ai été détourné par le livre blanc. Donc, ils utilisent la corrélation d'une série chronologique (pas le changement dans la série chronologique). C'est comme calculer la corrélation d'un cours boursier, pas de rendements. C'est un peu surprenant.
bill_080
3
@chl: bien que votre réponse soit un peu évidente, C'EST quand même une réponse, et vous devriez le faire pour qu'elle puisse être acceptée.
naught101
1
@ bill_080 Une réponse de Google sur la raison pour laquelle les données diffèrent entre les deux systèmes? En fait, j'ai trouvé cette question à la recherche d'une explication liée à votre observation
chandler
1
@chandler: Google n'a jamais répondu à l'e-mail. J'ai joué avec Trend et Correlate pendant un certain temps, mais aucun n'était aussi utile que prévu, alors j'ai continué.
bill_080

Réponses: