J'ai deux séries chronologiques (lisses) que j'aimerais corréler entre elles pour voir leur corrélation.
J'ai l'intention d'utiliser le coefficient de corrélation de Pearson. Est-ce approprié?
Ma deuxième question est que je peux choisir d’échantillonner les 2 séries chronologiques aussi bien que je le souhaite. c'est-à-dire que je peux choisir combien de points de données je vais nous. Cela affectera-t-il le coefficient de corrélation généré? Dois-je rendre compte de cela?
À des fins d'illustration
option(i)
[1, 4, 7, 10] & [6, 9, 6, 9, 6]
option(ii)
[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]
time-series
correlation
pearson-r
smoothing
utilisateur1551817
la source
la source
Réponses:
La corrélation de Pearson est utilisée pour examiner la corrélation entre les séries ... mais étant une série chronologique, la corrélation est examinée à travers différents décalages - la fonction de corrélation croisée .
La corrélation croisée est affectée par la dépendance au sein d'une série, de sorte que, dans de nombreux cas, la dépendance au sein d'une série doit être supprimée en premier. Donc, pour utiliser cette corrélation, plutôt que de lisser la série, il est en fait plus courant (parce que significatif) de regarder la dépendance entre les résidus - la partie approximative qui reste après la recherche d’un modèle approprié pour les variables.
Vous voudrez probablement commencer par quelques ressources de base sur les modèles de séries chronologiques avant de tenter de déterminer si une corrélation de Pearson sur une série lissée (vraisemblablement) non stationnaire et lissée est interprétable.
En particulier, vous voudrez probablement examiner le phénomène ici . [Dans les séries chronologiques, on parle parfois de corrélation fallacieuse , bien que l'article de Wikipédia sur la corrélation fallacieuse envisage de manière étroite l'utilisation du terme d'une manière qui semble exclure cette utilisation du terme. Vous trouverez probablement plus sur les questions abordées ici par la recherche régression fallacieuse à la place.]
[Modifier - le paysage Wikipedia continue de changer; le para ci-dessus. devrait probablement être révisé pour refléter ce qui est là maintenant.]
par exemple voir des discussions
http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (la citation d'ouverture de Yule, dans un document présenté en 1925 mais publié l'année suivante, résume assez bien le problème)
Christos Agiakloglou et Apostolos Tsimpanos, Corrélations fallacieuses pour les AR stationnaires (1) http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (cela montre que vous pouvez même obtenir le problème entre les séries stationnaires, d’où la tendance à pré-blanchir)
La référence classique de Yule, (1926) [1] mentionnée ci-dessus.
Vous pouvez également trouver la discussion ici utile, ainsi que la discussion ici
-
Utiliser la corrélation de Pearson de manière significative entre les séries chronologiques est difficile et parfois étonnamment subtile.
Prenez note de mon commentaire précédent sur l’utilisation étroite du terme «corrélation parasite» dans l’article de Wikipedia.
Le point sur la corrélation parasite est que la série peut apparaître corrélée, mais la corrélation elle-même n’a pas de sens. Prenons deux personnes qui lancent deux pièces distinctes en comptant le nombre de têtes jusqu’à présent moins le nombre de queues jusqu’à la valeur de leur série.
(Ainsi, si la personne 1 jette elle a 3-1 = 2 pour la valeur du 4ème pas de temps et la série passe à )HTHH ... 1 , 0 , 1 , 2 , . . .
De toute évidence, il n'y a aucun lien entre les deux séries. Il est clair que ni l'un ni l'autre ne peut vous dire la première chose à propos de l'autre!
Mais regardez le type de corrélation que vous obtenez entre des paires de pièces:
Si je ne vous disais pas ce que c'était, et que vous preniez n'importe quelle paire de ces séries, ce serait une corrélation impressionnante, n'est-ce pas?
Mais ils sont tous vides de sens . Totalement faux. Aucune des trois paires n’a de relation plus positive ou négative entre elles que les autres, c’est son bruit simplement cumulé . Le caractère fallacieux ne concerne pas seulement la prédiction, mais la notion même de considérer l'association entre séries sans tenir compte de la dépendance intra-série est mal placée.
Tout ce que vous avez ici est une dépendance intra-série . Il n'y a pas de relation transversale réelle entre les séries.
Une fois que vous avez traité correctement le problème qui rend ces séries auto-dépendantes - elles sont toutes intégrées ( marches aléatoires de Bernoulli ), vous devez donc les différencier - l'association "apparente" disparaît (la plus grande corrélation absolue en série croisée des trois est 0,048).
Ce qui vous dit est la vérité - l'association apparente est une simple illusion provoquée par la dépendance au sein d'une série.
Votre question demandait "comment utiliser correctement la corrélation de Pearson avec les séries chronologiques" - comprenez donc bien: s'il existe une dépendance au sein d'une série et que vous ne la traitez pas d'abord, vous ne l'utiliserez pas correctement.
De plus, le lissage ne réduira pas le problème de la dépendance en série; Bien au contraire, cela aggrave encore la situation! Voici les corrélations après le lissage (loess par défaut smooth - de la série par rapport à l'indice - effectué dans R):
Ils sont tous plus éloignés de 0. Ce ne sont toujours que du bruit dénué de sens , bien que ce soit maintenant un bruit adouci et cumulé. (En lissant, nous réduisons la variabilité de la série que nous avons mise dans le calcul de la corrélation, ce qui explique peut-être pourquoi la corrélation augmente.)
[1]: Yule, GU (1926) "Pourquoi avons-nous parfois des corrélations insensées entre les séries temporelles?" J.Roy.Stat.Soc. , 89 , 1 , pp. 1-63
la source
Pour compléter la réponse de Glen_b et son exemple sur des marches aléatoires, si vous voulez vraiment utiliser la corrélation de Pearson sur ce type de série temporelle , vous devez d’abord les différencier, puis le coefficient de corrélation sur les incréments ( ) qui sont (dans le cas de aléatoires) indépendants et répartis de manière identique. Je vous suggère d'utiliser la corrélation de Spearman ou celle de Kendall, car elles sont plus robustes que le coefficient de Pearson. Pearson mesure la dépendance linéaire alors que Spearman et Kendall sont invariants par des transformations monotones de vos variables. X t = S t - S t - 1(St)1≤t≤T Xt=St−St−1
En outre, imaginez que deux séries chronologiques soient fortement dépendantes, par exemple montent et descendent ensemble, mais l’une subissant des variations parfois fortes et l’autre ayant toujours des variations faibles, votre corrélation de Pearson sera plutôt faible contrairement aux séries de Spearman et de Kendall (qui sont de meilleures estimations de la dépendance entre vos séries chronologiques).
Pour un traitement approfondi à ce sujet et une meilleure compréhension de la dépendance, vous pouvez consulter Copula Theory et une application aux séries chronologiques .
la source
Les données chronologiques dépendent généralement du temps. La corrélation de Pearson convient toutefois pour des données indépendantes. Ce problème est similaire à la prétendue régression parasite. Le coefficient sera probablement très significatif, mais cela ne provient que de la tendance temporelle des données qui affecte les deux séries. Je recommande de modéliser les données, puis d'essayer de voir si la modélisation produit des résultats similaires pour les deux séries. Cependant, l’utilisation du coefficient de corrélation de Pearson donnera très probablement des résultats trompeurs pour l’interprétation de la structure de dépendance.
la source