Comment utiliser correctement la corrélation de Pearson avec les séries chronologiques

47

J'ai deux séries chronologiques (lisses) que j'aimerais corréler entre elles pour voir leur corrélation.

J'ai l'intention d'utiliser le coefficient de corrélation de Pearson. Est-ce approprié?

Ma deuxième question est que je peux choisir d’échantillonner les 2 séries chronologiques aussi bien que je le souhaite. c'est-à-dire que je peux choisir combien de points de données je vais nous. Cela affectera-t-il le coefficient de corrélation généré? Dois-je rendre compte de cela?

À des fins d'illustration

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  
utilisateur1551817
la source
1
Quelle est la nature de la série chronologique? Sont-ils marcher au hasard? Stationnaire? Série économique?
Aksakal

Réponses:

72

La corrélation de Pearson est utilisée pour examiner la corrélation entre les séries ... mais étant une série chronologique, la corrélation est examinée à travers différents décalages - la fonction de corrélation croisée .

La corrélation croisée est affectée par la dépendance au sein d'une série, de sorte que, dans de nombreux cas, la dépendance au sein d'une série doit être supprimée en premier. Donc, pour utiliser cette corrélation, plutôt que de lisser la série, il est en fait plus courant (parce que significatif) de regarder la dépendance entre les résidus - la partie approximative qui reste après la recherche d’un modèle approprié pour les variables.

Vous voudrez probablement commencer par quelques ressources de base sur les modèles de séries chronologiques avant de tenter de déterminer si une corrélation de Pearson sur une série lissée (vraisemblablement) non stationnaire et lissée est interprétable.

En particulier, vous voudrez probablement examiner le phénomène ici . [Dans les séries chronologiques, on parle parfois de corrélation fallacieuse , bien que l'article de Wikipédia sur la corrélation fallacieuse envisage de manière étroite l'utilisation du terme d'une manière qui semble exclure cette utilisation du terme. Vous trouverez probablement plus sur les questions abordées ici par la recherche régression fallacieuse à la place.]

[Modifier - le paysage Wikipedia continue de changer; le para ci-dessus. devrait probablement être révisé pour refléter ce qui est là maintenant.]

par exemple voir des discussions

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (la citation d'ouverture de Yule, dans un document présenté en 1925 mais publié l'année suivante, résume assez bien le problème)

  2. Christos Agiakloglou et Apostolos Tsimpanos, Corrélations fallacieuses pour les AR stationnaires (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (cela montre que vous pouvez même obtenir le problème entre les séries stationnaires, d’où la tendance à pré-blanchir)

  3. La référence classique de Yule, (1926) [1] mentionnée ci-dessus.

Vous pouvez également trouver la discussion ici utile, ainsi que la discussion ici

-

Utiliser la corrélation de Pearson de manière significative entre les séries chronologiques est difficile et parfois étonnamment subtile.


J'ai cherché une corrélation fallacieuse, mais je me moque de savoir si ma série A est la cause de ma série B ou inversement. Je veux seulement savoir si vous pouvez apprendre quelque chose au sujet de la série A en regardant ce que fait la série B (ou vice versa). En d'autres termes - ont-ils une corrélation.

Prenez note de mon commentaire précédent sur l’utilisation étroite du terme «corrélation parasite» dans l’article de Wikipedia.

Le point sur la corrélation parasite est que la série peut apparaître corrélée, mais la corrélation elle-même n’a pas de sens. Prenons deux personnes qui lancent deux pièces distinctes en comptant le nombre de têtes jusqu’à présent moins le nombre de queues jusqu’à la valeur de leur série.

(Ainsi, si la personne 1 jette elle a 3-1 = 2 pour la valeur du 4ème pas de temps et la série passe à )HTHH...1,0,1,2,...

De toute évidence, il n'y a aucun lien entre les deux séries. Il est clair que ni l'un ni l'autre ne peut vous dire la première chose à propos de l'autre!

Mais regardez le type de corrélation que vous obtenez entre des paires de pièces:

entrez la description de l'image ici

Si je ne vous disais pas ce que c'était, et que vous preniez n'importe quelle paire de ces séries, ce serait une corrélation impressionnante, n'est-ce pas?

Mais ils sont tous vides de sens . Totalement faux. Aucune des trois paires n’a de relation plus positive ou négative entre elles que les autres, c’est son bruit simplement cumulé . Le caractère fallacieux ne concerne pas seulement la prédiction, mais la notion même de considérer l'association entre séries sans tenir compte de la dépendance intra-série est mal placée.

Tout ce que vous avez ici est une dépendance intra-série . Il n'y a pas de relation transversale réelle entre les séries.

Une fois que vous avez traité correctement le problème qui rend ces séries auto-dépendantes - elles sont toutes intégrées ( marches aléatoires de Bernoulli ), vous devez donc les différencier - l'association "apparente" disparaît (la plus grande corrélation absolue en série croisée des trois est 0,048).

Ce qui vous dit est la vérité - l'association apparente est une simple illusion provoquée par la dépendance au sein d'une série.

Votre question demandait "comment utiliser correctement la corrélation de Pearson avec les séries chronologiques" - comprenez donc bien: s'il existe une dépendance au sein d'une série et que vous ne la traitez pas d'abord, vous ne l'utiliserez pas correctement.

De plus, le lissage ne réduira pas le problème de la dépendance en série; Bien au contraire, cela aggrave encore la situation! Voici les corrélations après le lissage (loess par défaut smooth - de la série par rapport à l'indice - effectué dans R):

            coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

Ils sont tous plus éloignés de 0. Ce ne sont toujours que du bruit dénué de sens , bien que ce soit maintenant un bruit adouci et cumulé. (En lissant, nous réduisons la variabilité de la série que nous avons mise dans le calcul de la corrélation, ce qui explique peut-être pourquoi la corrélation augmente.)

[1]: Yule, GU (1926) "Pourquoi avons-nous parfois des corrélations insensées entre les séries temporelles?" J.Roy.Stat.Soc. , 89 , 1 , pp. 1-63

Glen_b
la source
Merci pour la bonne réponse. J'ai cherché une corrélation fallacieuse, mais je me moque de savoir si ma série A est la cause de ma série B ou inversement. Je veux seulement savoir si vous pouvez apprendre quelque chose au sujet de la série A en regardant ce que fait la série B (ou vice versa). En d'autres termes - ont-ils une corrélation.
user1551817
S'il vous plaît voir ma réponse mise à jour.
Glen_b
2
"..so vous avez besoin de les différencier .." qu'est-ce que cela signifie exactement? Peut-être les différencier? ..
Georgios Pligoropoulos
1
Différenciation - voir Wikipedia ici ou cette section du livre Forecasting, Principles and Practice . Sur votre question suivante, le reste du paragraphe que vous citez le dit très explicitement. (Ce n'est pas la seule possibilité, cependant, juste décrire une chose raisonnablement courante qui est faite)
Glen_b
1
J'ai repéré ce qui semble être une autre version du document et ajouté le titre et les auteurs.
Glen_b
6

Pour compléter la réponse de Glen_b et son exemple sur des marches aléatoires, si vous voulez vraiment utiliser la corrélation de Pearson sur ce type de série temporelle , vous devez d’abord les différencier, puis le coefficient de corrélation sur les incréments ( ) qui sont (dans le cas de aléatoires) indépendants et répartis de manière identique. Je vous suggère d'utiliser la corrélation de Spearman ou celle de Kendall, car elles sont plus robustes que le coefficient de Pearson. Pearson mesure la dépendance linéaire alors que Spearman et Kendall sont invariants par des transformations monotones de vos variables. X t = S t - S t - 1(St)1tTXt=StSt1

En outre, imaginez que deux séries chronologiques soient fortement dépendantes, par exemple montent et descendent ensemble, mais l’une subissant des variations parfois fortes et l’autre ayant toujours des variations faibles, votre corrélation de Pearson sera plutôt faible contrairement aux séries de Spearman et de Kendall (qui sont de meilleures estimations de la dépendance entre vos séries chronologiques).

Pour un traitement approfondi à ce sujet et une meilleure compréhension de la dépendance, vous pouvez consulter Copula Theory et une application aux séries chronologiques .

micro
la source
4

Les données chronologiques dépendent généralement du temps. La corrélation de Pearson convient toutefois pour des données indépendantes. Ce problème est similaire à la prétendue régression parasite. Le coefficient sera probablement très significatif, mais cela ne provient que de la tendance temporelle des données qui affecte les deux séries. Je recommande de modéliser les données, puis d'essayer de voir si la modélisation produit des résultats similaires pour les deux séries. Cependant, l’utilisation du coefficient de corrélation de Pearson donnera très probablement des résultats trompeurs pour l’interprétation de la structure de dépendance.

type au hasard
la source