Pièges dans l'analyse des séries chronologiques

46

Je commence tout juste à apprendre par moi-même dans l'analyse des séries chronologiques. J'ai remarqué qu'il existe un certain nombre de pièges qui ne sont pas applicables aux statistiques générales. Alors, construisant sur Quels sont les péchés statistiques communs? , J'aimerais demander:

Quels sont les pièges courants ou les péchés statistiques dans l'analyse des séries chronologiques?

Ceci est conçu comme un wiki de communauté, un concept par réponse, et s'il vous plaît, ne répétez pas les pièges statistiques plus généraux qui sont (ou devraient être) listés dans Quels sont les péchés statistiques courants?

time-series self-study nul 101
la source

18

Extrapoler une régression linéaire sur une série temporelle, où le temps est l'une des variables indépendantes de la régression. Une régression linéaire peut se rapprocher d'une série chronologique sur une courte échelle de temps et peut être utile pour une analyse, mais extrapoler une ligne droite est insensé. (Le temps est infini et toujours croissant.)

EDIT: En réponse à la question de naught101 sur "stupide", ma réponse peut être fausse, mais il me semble que la plupart des phénomènes réels n'augmentent pas ou ne diminuent pas en permanence. La plupart des processus ont des facteurs limitants: les gens cessent de grandir avec l'âge, les stocks ne montent pas toujours, les populations ne peuvent pas devenir négatives, vous ne pouvez pas remplir votre maison d'un milliard de chiots, etc. Le temps, contrairement à la plupart des variables indépendantes qui viennent à l'esprit, a un support infini, de sorte que vous pouvez vraiment imaginer votre modèle linéaire prédisant le cours des actions d'Apple dans 10 ans, car il existera certainement. (Alors que vous n'extrapoleriez pas une régression taille-poids pour prédire le poids d'hommes adultes de 20 mètres de haut: ils n'existent pas et n'existeront pas.)

De plus, les séries chronologiques comportent souvent des composantes cycliques ou pseudo-cycliques, ou des composantes de parcours aléatoires. Comme IrishStat le mentionne dans sa réponse, vous devez prendre en compte la saisonnalité (parfois des saisonnalités à plusieurs échelles de temps), les changements de niveau (ce qui produira des effets étranges sur les régressions linéaires qui ne les prennent pas en compte), etc. ajustement sur un court terme, mais être très trompeur si vous extrapolez.

Bien sûr, vous pouvez avoir des problèmes chaque fois que vous extrapolez des séries chronologiques ou non. Mais il me semble que nous voyons trop souvent quelqu'un jeter une série chronologique (crimes, cours des actions, etc.) dans Excel, y laisser tomber un PREVISION ou un LINEST et prédire l'avenir de manière essentiellement linéaire, comme si le cours des actions augmenterait continuellement (ou déclin continu, y compris en négatif).

Wayne
la source

Pouvez-vous expliquer pourquoi c'est stupide?

naught101

1

+1 pour les exemples impressionnants. Je calcule exactement le nombre de chiots que je peux installer chez moi en ce moment: D

naught101

3

C’est une excellente illustration de votre argument: xkcd.com/605

Zach le

1

@naught Mark Twain a fait un excellent travail en montrant, dans le langage le plus simple possible, pourquoi "stupide" convient à l'extrapolation linéaire d'une série chronologique.

whuber

Et ceci: stats.stackexchange.com/a/13904/9007 ... Un point similaire est l'extrapolation d'une tendance polynomiale (en particulier de haut degré), ou de tout autre modèle sans pertinence physique. J'ai écrit un article sur ce blog pour expliquer pourquoi c'est une mauvaise idée alors que j'enseignais moi-même une octave.

naught101

13

Faire attention à la corrélation entre deux séries chronologiques non stationnaires. (Il n’est pas surprenant qu’ils aient un coefficient de corrélation élevé: recherche sur "corrélation non sens" et "cointégration".)

Par exemple, sur google correlate, les chiens et les piercings ont un coefficient de corrélation de 0,84.

Pour une analyse plus ancienne, voir l'exploration du problème par Yule en 1926

Wayne
la source

Bien sûr pas toujours. x<-seq(0,100,0.001); cor(sin(x)+rnorm(100001), cos(x)+rnorm(100001)) == 0.002554309

naught101

@Wayne Merci beaucoup pour le journal de Yule. Je le cite depuis 1970 et je ne l'ai jamais lu. Il est bien connu dans certains cercles apparemment petits.

IrishStat le

7

Au plus haut niveau, Kolmogorov a identifié l' indépendance comme une hypothèse clé en statistique - sans cette hypothèse, de nombreux résultats importants en statistique ne sont pas vrais, qu'ils soient appliqués à des séries chronologiques ou à des tâches d'analyse plus générales.

Les échantillons successifs ou proches dans la plupart des signaux temps réel du monde réel ne sont pas indépendants, il faut donc veiller à décomposer un processus en un modèle déterministe et une composante de bruit stochastique. Même dans ce cas, l’hypothèse d’incrémentation indépendante dans le calcul stochastique classique reste problématique: rappelez-vous l’écon Nobel de 1997 et l’implosion de LTCM en 1998, qui comptait les lauréats parmi ses principaux méthodes).

alancalvitti
la source

"l'analyse des séries chronologiques" comme domaine d'étude. Fondamentalement, je veux dire toute chose qui pourrait tromper quelqu'un de nouveau en étudiant des séries chronologiques (de tout type et de tout type d'analyse). Je ne cherche pas de réponses complètes. Vérifiez la question à laquelle j'ai fait référence dans ma question pour avoir une idée de ce que j'essaie de faire ici.

naught101

Je voulais dire quel type d'analyse

alancalvitti

Je connais. Je pense que vous manquez le point de la question. N'hésitez pas à commenter les obstacles courants dans toute analyse de type , tout type de problème de série chronologique avec lequel vous avez de l'expérience. Il suffit de s'en tenir aux problèmes spécifiques aux séries chronologiques.

naught101

Hey @alancalvitti, cet exemple d’économie semble intéressant. Connaissez-vous une bonne description de celle-ci que nous pourrions relier à partir d'ici?

naught101

J'ai édité cette réponse pour la ramener au point principal présenté (pour la ramener au style un point par réponse). Cela impliquait de supprimer les informations relatives à l'analyse spectrale. Peut-être que quelque chose pourrait être dit à ce sujet dans une réponse distincte (bien que cela ne semble pas être une embûche, en particulier, il y a probablement des embûches liées à l'analyse spectrale que nous pourrions noter ici). La discussion ci-dessus n'a plus aucun sens, mais vous obtenez ce que je suppose: /

naught101

2

Etre trop certain des résultats de votre modèle car vous utilisez une technique / modèle (telle que MCO) qui ne prend pas en compte l'autocorrélation d'une série chronologique.

Je n'ai pas de graphique intéressant, mais le livre "Introduction à la série chronologique avec R" (2009, Cowpertwait, et autres) donne une explication intuitive raisonnable: en cas d'autocorrélation positive, les valeurs supérieures ou inférieures à la moyenne ont tendance à perdurer et être regroupés dans le temps. Cela conduit à une estimation moins efficace de la moyenne, ce qui signifie que vous avez besoin de plus de données pour estimer la moyenne avec la même précision que s'il y avait une autocorrélation nulle. Vous avez effectivement moins de données que vous ne le pensez.

Le processus MCO (et donc vous) supposez qu'il n'y a pas d'autocorrélation, vous supposez donc également que l'estimation de la moyenne est plus précise (pour la quantité de données dont vous disposez) qu'elle ne l'est réellement. Ainsi, vous finissez par avoir plus confiance en vos résultats que vous ne devriez l’être.

(Cela peut fonctionner dans l'autre sens pour l'autocorrélation négative: votre estimation de la moyenne est en réalité plus efficace qu'elle ne le serait autrement. Je n'ai rien pour le prouver, mais je suggérerais que la corrélation positive est plus courante en temps réel. série que corrélation négative.)

Wayne
la source

Un exemple ici serait formidable, je ne comprends pas tout à fait la réponse telle quelle

naught101

Merci pour l’édition @Wayne, mais j’ai voulu dire un exemple concret, de préférence avec quelques visualisations. Évidemment, d'autres peuvent ajouter cela aussi - c'est un wiki de communauté.

naught101

1

@ naught101: Ah. Deux des trois suggestions que j'ai faites ici sont basées sur ce que j'ai appris, mais pas nécessairement assez bien pour en faire un bon exemple. Je vais essayer d'en chercher un sur le Web.

Wayne

Ce ne sont que des données simulées, mais ma réponse à une autre question a du code R avec un modèle adapté aux MCO, puis une prise en compte plus appropriée de l'autocorrélation - avec des p-values considérablement plus élevées. stats.stackexchange.com/questions/27254/…

Peter Ellis

2

L'impact des changements de niveau, des impulsions saisonnières et des tendances de l'heure locale ... en plus des impulsions uniques. Les changements de paramètres au fil du temps sont importants pour étudier / modéliser. Les éventuels changements de variance des erreurs dans le temps doivent être étudiés. Comment déterminer l'impact de Y sur les valeurs simultanées et décalées de X Comment identifier si les valeurs futures de X peuvent avoir un impact sur les valeurs actuelles de Y. Comment détecter des jours particuliers du mois ont un impact. Comment modéliser des problèmes de fréquences mixtes où les données horaires sont influencées par les valeurs quotidiennes?

rien ne m'a demandé de fournir des informations / exemples plus spécifiques sur les changements de niveau et les impulsions. À cette fin, j'inclus maintenant un peu plus de discussion. Une série présentant un ACF suggérant que la non-stationnarité livre effectivement un "symptôme". Un remède suggéré est de "différencier" les données. Un remède négligé consiste à "dé-signifier" les données. Si une série présente un décalage "majeur" de la moyenne (c’est-à-dire de l’intercept), l’acf de toute cette série peut facilement être mal interprété pour suggérer une différenciation. Je vais montrer un exemple de série qui présente un décalage de niveau. Si j'avais accentué (agrandi) la différence entre les deux, l'acf de la série totale indiquerait (à tort!) La nécessité de la différence. Les impulsions non traitées / les variations de niveau / les impulsions saisonnières / les tendances de l'heure locale gonflent la variance des erreurs obscurcissant l'importance de la structure du modèle et sont à l'origine d'estimations de paramètres erronées et de mauvaises prévisions. Passons maintenant à un exemple. Th entrez la description de l'image ici C'est une liste des 27 valeurs mensuelles. Ceci est le graphique . Il y a quatre impulsions et 1 décalage de niveau ET PAS DE TENDANCE! et . Les résidus de ce modèle suggèrent un processus de bruit blanc . Certains (la plupart!) Des progiciels de prévision commerciaux et même gratuits offrent la sottise suivante à la suite de la supposition d’un modèle de tendance avec des facteurs saisonniers additionnels entrez la description de l'image ici . Pour conclure et pour paraphraser Mark Twain. "Il y a un non-sens et il y a un non-sens mais le non-sens le plus non sensuel d'entre eux est un non-sens statistique!" par rapport à un plus raisonnable . J'espère que cela t'aides !

IrishStat
la source

1

Vraiment? Ce sont tous des pièges et des péchés ? (Relisez la partie soulignée de la question!) Peut-être que vous voulez dire le contraire de ce que vous avez écrit?

whuber

Le but de mes commentaires était de souligner les pièges de ne pas divertir ou de considérer certaines de ces structures possibles du monde réel. Il faut éviter les hypothèses qui ne sont pas raisonnablement validées, sinon on pourrait obtenir des résultats très discutables.

IrishStat

3

J'ai compris que c'était l'intention, mais dans sa forme actuelle, votre réponse est facile à mal comprendre. Par exemple, est-ce un péché d'évaluer "l'impact" de "pulsations uniques" ou est-ce un péché de ne pas le faire? C’est suffisamment vague pour qu’une bonne interprétation puisse être faite! (Oui, c'est un péché, car des impulsions ponctuelles peuvent n'être que des valeurs aberrantes auxquelles vous ne voulez pas accorder d'influence indue et leur comptabilisation peut toutes sur-paramétrer le modèle; non, elles doivent être incluses car leurs effets risquent de persister. longtemps et en ignorant que cela pourrait biaiser les estimations d'autres paramètres.)

whuber

@whuber Si les effets d'une impulsion unique persistent, il pourrait être modélisé comme une séquence d'impulsions uniques à des points successifs. Ce n’est pas aussi élégant qu’il pourrait l’être, mais néanmoins efficace. Comme vous l'avez dit à juste titre, vous ne voulez pas que les valeurs erronées déforment les estimations paramétriques de la structure répétitive; il est donc "péché" de ne pas traiter les structures déterministes non spécifiées telles que les impulsions, les décalages de niveau, les impulsions saisonnières et / ou les tendances temporelles locales.

IrishStat

Je pense que ce serait une réponse très intéressante si la première phrase (changements de niveau et impulsions) était considérablement développée (avec quelques exemples) et que le reste était supprimé. L'hétéroscédasticité donnerait une bonne réponse séparée.

naught101

1

Définir la tendance comme une croissance linéaire au fil du temps.

Bien que certaines tendances soient en quelque sorte linéaires (voir Cours de l'action Apple), et bien que les graphiques de séries chronologiques ressemblent à des graphiques linéaires dans lesquels vous pouvez trouver une régression linéaire, la plupart des tendances ne sont pas linéaires.

Il y a des changements d' étape , comme des changements quand quelque chose s'est produit à un moment donné qui a modifié le comportement de la mesure ( "Le pont s'est effondré et aucune voiture ne le dépasse depuis ").

Une autre tendance populaire est "Buzz" - une croissance exponentielle et un déclin similaire similaire par la suite ( "Notre campagne de marketing a été un énorme succès, mais l'effet s'est estompé après quelques semaines" ).

Il est essentiel de connaître le bon modèle (régression logistique, etc.) de la tendance dans la série chronologique pour pouvoir le détecter dans les données de la série chronologique.

Gars
la source

1

En plus de quelques points importants qui ont déjà été mentionnés, j'ajouterais:

Défaut de repérer les cycles longs ou la saisonnalité - en examinant uniquement les données sur une période de temps «insuffisamment longue»
Échec de l'évaluation de l'erreur de prévision pour les périodes passées ( backtesting )
Défaut de détecter et de gérer les changements de régime

Ces problèmes ne sont pas liés aux méthodes statistiques impliquées mais à la conception de l’étude, c’est-à-dire quelles données inclure et comment évaluer les résultats.

La partie délicate du point 1. consiste à vérifier que nous avons observé une période de données suffisante pour pouvoir tirer des conclusions sur l’avenir. Lors de ma première conférence sur les séries chronologiques, le professeur a tracé une longue courbe sinusale au tableau et a souligné que les cycles longs ressemblaient à des tendances linéaires lorsqu'ils étaient observés sur une courte fenêtre (assez simple, mais la leçon me tenait à l'esprit).

Le point 2. est particulièrement pertinent si les erreurs de votre modèle ont des implications pratiques. Parmi les autres domaines, il est largement utilisé en finance, mais je dirais que l’évaluation des erreurs de prévision des périodes antérieures a beaucoup de sens pour tous les modèles de séries chronologiques dans lesquels les données le permettent.

Le point 3. aborde à nouveau la question de savoir quelle partie des données passées est représentative de l'avenir. Il s’agit d’un sujet complexe, qui compte un grand nombre de documents. Je citerai comme exemple mon préféré: Zucchini et MacDonald .

sens-à-sens
la source

1

Évitez les repliements dans les séries chronologiques échantillonnées. Si vous analysez des données de série chronologique échantillonnées à intervalles réguliers, le taux d'échantillonnage doit alors être le double de la fréquence de la composante de fréquence la plus élevée dans les données échantillonnées. C’est la théorie de l’échantillonnage de Nyquist, et elle s’applique à l’audio numérique, mais également à toute série chronologique échantillonnée à intervalles réguliers. Le moyen d'éviter le repliement consiste à filtrer toutes les fréquences supérieures au taux nyquist, ce qui correspond à la moitié du taux d'échantillonnage. Par exemple, pour l'audio numérique, une fréquence d'échantillonnage de 48 kHz nécessitera un filtre passe-bas avec une valeur de coupure inférieure à 24 kHz.
L'effet du repliement du spectre peut être observé lorsque les roues semblent tourner en arrière, en raison d'un effet strobiscopique lorsque la fréquence du stroboscope est proche de la vitesse de rotation de la roue. Le taux lent observé est un pseudonyme du taux de révolution réel.

marty
la source

Pièges dans l'analyse des séries chronologiques

Réponses: