Considérez le graphique suivant:
La ligne rouge (axe de gauche) décrit le volume d'échange d'une certaine action. La ligne bleue (axe droit) décrit le volume de messages Twitter pour ce stock. Par exemple, le 9 mai (05-09), environ 1.100 millions de transactions et 4.000 tweets ont été effectués.
Je voudrais calculer s'il y a une corrélation entre les séries temporelles, le même jour ou avec un décalage - par exemple: le volume des tweets est en corrélation avec le volume des échanges un jour plus tard. Je lis de nombreux articles qui ont fait une telle analyse, par exemple la corrélation des séries chronologiques financières avec l'activité de micro-blogging , mais ils ne décrivent pas comment une telle analyse est faite en termes pratiques. Ce qui suit est indiqué dans l'article:
Cependant, j'ai très peu d'expérience avec l'analyse statistique et je ne sais pas comment l'exécuter sur la série que j'ai. J'utilise SPSS (également connu sous le nom de PASW) et ma question est: quelles sont les étapes à suivre pour effectuer une telle analyse à partir du moment où j'ai un fichier de données sous-jacent à l'image ci-dessus? Un tel test est-il une fonctionnalité par défaut (et comment s'appelle-t-il) et / ou comment pourrais-je l'exécuter autrement?
Toute aide serait grandement appréciée :-)
la source
Réponses:
Deux vérifient la normalité bivariée vérifient trois choses:
Pour vérifier la normalité à chacune de ces étapes, utilisez des tracés qq normaux ou vous pouvez utiliser n'importe quel test d'hypothèse de normalité.
Ou vous pouvez également vérifier si toutes les combinaisons linéaires possibles (coefficients réels) des deux séries sont légèrement normales. Ce serait probablement difficile, cependant.
Edit: (6 ans plus tard) je garderai ce qui précède pour la postérité, mais notez que j'ai une réponse plus récente à une question similaire ici .
la source
Le coefficient de corrélation entre séries chronologiques est inutile. Voir COEFFICIENT DE CORRELATION - Valeurs critiques pour la signification des tests . Cela a été souligné pour la première fois par U. Yule en 1926 Yule, GU, 1926, "Pourquoi obtenons-nous parfois des corrélations absurdes entre les séries chronologiques? Une étude sur l'échantillonnage et la nature des séries chronologiques", Journal of the Royal Statistical Society 89, 1 –64 . Vous voudrez peut-être google "pourquoi obtenons-nous une corrélation absurde" pour en savoir plus.
La raison en est que les tests de corrélation nécessitent une normalité conjointe. La normalité conjointe exige que chaque série soit normale. La normalité requiert l'indépendance. Pour examiner la relation entre les séries chronologiques, veuillez consulter Identification de la fonction de transfert dans tout bon livre sur les séries temporelles comme l' analyse des séries temporelles: méthodes univariées et multivariées, par William WS Wei, David P. Reilly .
Réponse au défi
En termes de réponse à votre défi. Il est bien connu, par quelques-uns ( Yule, GU, 1926 ), que la corrélation de deux séries chronologiques peut être erronée, en particulier si l'une ou l'autre série est affectée par des impulsions / des changements de niveau / des impulsions saisonnières et / ou des tendances temporelles locales. Cela étant, je prendrais chacune des séries séparément et identifierais la structure ARIMA et toutes les impulsions / changements de niveau / impulsions saisonnières et / ou les tendances de l'heure locale qui pourraient s'appliquer et créer un processus d'erreur.
Avec deux processus d'erreurs propres, un pour chacune des deux séries originales, je calculerais la corrélation croisée qui pourrait ensuite être utilisée pour mesurer le degré d'association au-dessus et au-delà de la structure autocorrélative au sein de chaque série. Cette solution est appelée à juste titre l'approche du double pré-blanchiment.
Voir:
la source