Corrélation de la série temporelle des volumes

12

Considérez le graphique suivant:

Twitter et volume de transactions

La ligne rouge (axe de gauche) décrit le volume d'échange d'une certaine action. La ligne bleue (axe droit) décrit le volume de messages Twitter pour ce stock. Par exemple, le 9 mai (05-09), environ 1.100 millions de transactions et 4.000 tweets ont été effectués.

Je voudrais calculer s'il y a une corrélation entre les séries temporelles, le même jour ou avec un décalage - par exemple: le volume des tweets est en corrélation avec le volume des échanges un jour plus tard. Je lis de nombreux articles qui ont fait une telle analyse, par exemple la corrélation des séries chronologiques financières avec l'activité de micro-blogging , mais ils ne décrivent pas comment une telle analyse est faite en termes pratiques. Ce qui suit est indiqué dans l'article:

entrez la description de l'image ici

Cependant, j'ai très peu d'expérience avec l'analyse statistique et je ne sais pas comment l'exécuter sur la série que j'ai. J'utilise SPSS (également connu sous le nom de PASW) et ma question est: quelles sont les étapes à suivre pour effectuer une telle analyse à partir du moment où j'ai un fichier de données sous-jacent à l'image ci-dessus? Un tel test est-il une fonctionnalité par défaut (et comment s'appelle-t-il) et / ou comment pourrais-je l'exécuter autrement?

Toute aide serait grandement appréciée :-)

Pr0no
la source
1
Vous pouvez les calculer ... vous ne pouvez tout simplement pas les comparer aux valeurs critiques à moins que les deux séries soient bi-variées normales
IrishStat
J'ai collé des données brutes ici: pastebin.com/tZajRae9 Existe-t-il un moyen de savoir si les séries sont bi-variées normales? J'apprécierais vraiment votre commentaire.
Pr0no
Après avoir détecté les valeurs aberrantes / décalages de niveau dans chacune des séries, la série ajustée résultante présentait un modèle AR (1). Après avoir incorporé non seulement l'ajustement des valeurs aberrantes / du décalage du niveau ET l'AR identifié empiriquement (1), les deux séries de bruit étaient exemptes d'auto-corrélation (dans la structure). Une corrélation croisée de ces deux séries de substitution n'a indiqué aucune corrélation croisée substantielle (entre la structure), donc le nombre de tweets ne semble pas aider à la prédiction du volume.
IrishStat

Réponses:

6

Deux vérifient la normalité bivariée vérifient trois choses:

  1. vérifier si la première série d'observations est légèrement normale,
  2. vérifier si la deuxième série d'observations est légèrement normale,
  3. régresser l'un sur l'autre et vérifier si les résidus sont normaux.

Pour vérifier la normalité à chacune de ces étapes, utilisez des tracés qq normaux ou vous pouvez utiliser n'importe quel test d'hypothèse de normalité.

Ou vous pouvez également vérifier si toutes les combinaisons linéaires possibles (coefficients réels) des deux séries sont légèrement normales. Ce serait probablement difficile, cependant.

Edit: (6 ans plus tard) je garderai ce qui précède pour la postérité, mais notez que j'ai une réponse plus récente à une question similaire ici .

Taylor
la source
J'ai suivi les étapes 1 et 2 et trouvé les boîtes à moustaches suivantes: i.imgur.com/SDOTE.png À l'exception des 3 à 5 observations aberrantes, elles semblent légèrement normales. Cependant, le Sig. la valeur du test de Shapiro-Wilk est de 0,000, ce qui indiquerait un écart significatif par rapport à la normalité. Avec les valeurs aberrantes supprimées, Shapiro Wilk Sig. est de 0,201 pour les tweets et de 0,004 pour les transactions. Cela signifie-t-il qu'aucune corrélation n'est possible? En outre, il s'agit d'une série chronologique - la suppression de valeurs aberrantes signifie la suppression de jours dans le délai de recherche. Est-ce une pratique acceptée?
Pr0no
J'ai également fait un tracé pp pour l'étape 3. Ou du moins, dans mon interprétation, c'est ce dont j'ai besoin (une régression linéaire avec un tracé de probabilité normale): i.imgur.com/EZ3Ic.png Des commentaires?
Pr0no
Les distributions marginales ne semblent pas normales. Il y a une petite section sur l'inférence sur le lien de la page wikipedia . La suppression des valeurs aberrantes n'est généralement pas une bonne idée. Peut-être amorcer un intervalle de confiance.
Taylor
1
La question concerne la corrélation - mais la réponse concerne la normalité. La réponse est votée plusieurs fois et acceptée. Qu'est-ce que je manque ici? ..
Richard Hardy
Une distribution normale bivariée est le modèle le plus simple qui motive / justifie l'utilisation de la corrélation de Pearson.
Taylor
11

Le coefficient de corrélation entre séries chronologiques est inutile. Voir COEFFICIENT DE CORRELATION - Valeurs critiques pour la signification des tests . Cela a été souligné pour la première fois par U. Yule en 1926 Yule, GU, 1926, "Pourquoi obtenons-nous parfois des corrélations absurdes entre les séries chronologiques? Une étude sur l'échantillonnage et la nature des séries chronologiques", Journal of the Royal Statistical Society 89, 1 –64 . Vous voudrez peut-être google "pourquoi obtenons-nous une corrélation absurde" pour en savoir plus.

La raison en est que les tests de corrélation nécessitent une normalité conjointe. La normalité conjointe exige que chaque série soit normale. La normalité requiert l'indépendance. Pour examiner la relation entre les séries chronologiques, veuillez consulter Identification de la fonction de transfert dans tout bon livre sur les séries temporelles comme l' analyse des séries temporelles: méthodes univariées et multivariées, par William WS Wei, David P. Reilly .

Réponse au défi

En termes de réponse à votre défi. Il est bien connu, par quelques-uns ( Yule, GU, 1926 ), que la corrélation de deux séries chronologiques peut être erronée, en particulier si l'une ou l'autre série est affectée par des impulsions / des changements de niveau / des impulsions saisonnières et / ou des tendances temporelles locales. Cela étant, je prendrais chacune des séries séparément et identifierais la structure ARIMA et toutes les impulsions / changements de niveau / impulsions saisonnières et / ou les tendances de l'heure locale qui pourraient s'appliquer et créer un processus d'erreur.

Avec deux processus d'erreurs propres, un pour chacune des deux séries originales, je calculerais la corrélation croisée qui pourrait ensuite être utilisée pour mesurer le degré d'association au-dessus et au-delà de la structure autocorrélative au sein de chaque série. Cette solution est appelée à juste titre l'approche du double pré-blanchiment.

Voir:

IrishStat
la source
Merci pour votre réponse. Mais êtes-vous en train de dire que, par définition, comme le document auquel j'ai fait référence, n'a aucune valeur? Deuxièmement, cela signifie-t-il que, par définition, deux séries ne peuvent jamais être corrélées là où la corrélation a un sens?
Pr0no
3
La corrélation peut être calculée car il s'agit d'une simple arithmétique. Ce qui ne peut pas être calculé (facilement), c'est la probabilité que la corrélation soit statistiquement significative. Pensez à la première fois que vous avez été initié au coefficient de corrélation. C'était dans le contexte de N échantillons indépendants où deux caractéristiques / valeurs ont été calculées pour chacun des N échantillons indépendants et la densité conjointe était normale bivariée.
IrishStat
1
Pourquoi exige-t-il une normalité conjointe, et pas seulement la même distribution (symétrique?)? autrement dit, l'uniformité commune ne fonctionnerait-elle pas également?
naught101
1
@ NAUGHT101. Les valeurs critiques pour le coefficient de corrélation sont disponibles sous l'hypothèse de normalité conjointe et non définies autrement.
IrishStat
@IrishStat Merci pour votre réponse modifiée. C'est apprécié. Pour les tests de normalité, veuillez consulter i.imgur.com/SDOTE.png pour les graphiques qq des variables distinctes. Une fois les valeurs aberrantes supprimées, un graphique en pp, d'après ce que je comprends des mesures de normalité conjointe, ressemble à ceci i.imgur.com/EZ3Ic.png Des commentaires?
Pr0no