Quel est l'analyse des séries temporelles?

29

Quel est l'analyse des séries temporelles?

Il existe de nombreuses autres méthodes statistiques, telles que la régression et l'apprentissage automatique, qui ont des cas d'utilisation évidents: la régression peut fournir des informations sur la relation entre deux variables, tandis que l'apprentissage automatique est idéal pour la prédiction.

Mais en attendant, je ne vois pas à quoi sert l'analyse des séries chronologiques. Bien sûr, je peux adapter un modèle ARIMA et l'utiliser pour la prédiction, mais à quoi cela sert-il lorsque les intervalles de confiance pour cette prédiction vont être énormes? Il y a une raison pour laquelle personne ne peut prédire le marché boursier bien qu'il s'agisse de l'industrie la plus axée sur les données de l'histoire mondiale.

De même, comment puis-je l'utiliser pour mieux comprendre mon processus? Bien sûr, je peux tracer l'ACF et dire "aha! Il y a une certaine dépendance!", Mais alors quoi? À quoi ça sert? Bien sûr, il y a une dépendance, c'est pourquoi vous faites d'abord une analyse des séries chronologiques. Vous saviez déjà qu'il y avait une dépendance . Mais pourquoi allez-vous l'utiliser?

Dhalsim
la source
13
Il existe d'autres cas d'utilisation en dehors de la finance et de l'économie où ils fonctionnent bien.
user2974951
29
Vous ne pouvez pas non plus prédire le marché boursier en utilisant d'autres méthodes statistiques et d'apprentissage automatique, est-ce que cela les rend également inutiles ..?
Tim
16
Vous semblez impliquer que l'ARIMA n'est pas une forme de régression. C'est.
Firebug
10
Je pense que c'est une bonne question, même si la réponse semble évidente aux experts.
gung - Rétablir Monica
6
Je vous prie de ne pas être d'accord avec @gung et d'autres, car le moindre effort de recherche y répondrait.
whuber

Réponses:

54

L'une des principales utilisations est la . Je nourris ma famille depuis plus d'une décennie maintenant en prévoyant combien d'unités d'un produit spécifique un supermarché vendra demain, afin qu'il puisse commander suffisamment de stock, mais pas trop. Il y a de l'argent là-dedans.

D'autres cas d'utilisation de prévision sont donnés dans des publications comme l' International Journal of Forecasting ou Foresight . (Divulgation complète: je suis rédacteur en chef adjoint de Foresight .)

Oui, parfois les sont énormes. (Je suppose que vous voulez dire les IP, pas . Il y a une différence. ) Cela signifie simplement que le processus est difficile à prévoir. Ensuite, vous devez atténuer. Pour prévoir les ventes des supermarchés, cela signifie que vous avez besoin de beaucoup de stock de sécurité. Dans la prévision de l'élévation du niveau de la mer, cela signifie que vous devez construire des digues plus hautes. Je dirais qu'un grand intervalle de prédiction fournit des informations utiles.

Et pour tous les cas d'utilisation des prévisions, l' analyse des chronologiques est utile, bien que la prévision soit un sujet plus vaste. Vous pouvez souvent améliorer les prévisions en tenant compte des dépendances de votre série chronologique, vous devez donc les comprendre par le biais d'une analyse, qui est plus spécifique que la simple connaissance des dépendances.

De plus, les gens sont intéressés par les séries chronologiques même s'ils ne font pas de prévisions. Les économétriciens aiment détecter les points de changement dans les séries chronologiques macroéconomiques. Ou évaluez l'impact d'une intervention, telle qu'une modification des lois fiscales, sur le PIB ou autre. Vous voudrez peut-être parcourir votre journal d'économétrie préféré pour plus d'inspiration.

S. Kolassa - Rétablir Monica
la source
14
+1. Il est également utile ailleurs. Faire une analyse de série chronologique vous alertera certainement sur des événements (que vous ne connaissiez pas) qui affectent un résultat qui vous intéresse. Nous l'avons retracé jusqu'à un programme de nettoyage bien intentionné qui présentait certaines faiblesses. Nous avons économisé près d'un million sur l'année et amélioré le ppk du produit de 1,7 à 1,9. Leçon apprise: faites toujours une analyse rudimentaire des séries chronologiques sur tout problème encadré par une variation.
Stian Yttervik
+1. @Stephan Kolassa, votre réponse met en évidence la façon dont les prévisions sont utilisées dans le monde réel, ce qui est mon interprétation de la question du PO. Le point et la (demi) longueur de l'intervalle de prédiction sont exactement les informations qui vous intéressent pour planifier des stratégies d'atténuation. Si vous construisez des digues pour empêcher Manhattan d'inonder et que votre nouvelle méthode de séries chronologiques réduit suffisamment l'intervalle de prédiction, vous pouvez réduire le coût de construction de digues en utilisant uniquement les ressources nécessaires. Mutatis mutandis s'applique à votre exemple d'épicerie.
Lucas Roberts
13

Objectifs en analyse TS des diapositives de leçon de M. Dettling:

1) Analyse exploratoire: visualisation des propriétés de la série

  • tracé de série chronologique
  • décomposition en tendance / tendance saisonnière / erreur aléatoire
  • corrélogramme pour comprendre la structure de dépendance

2) Modélisation: ajustement d'un modèle stochastique aux données qui représentent et reflètent les propriétés les plus importantes de la série

  • fait exploratoire ou avec des connaissances antérieures
  • le choix du modèle et l'estimation des paramètres sont cruciaux
  • inférence: dans quelle mesure le modèle correspond-il aux données?

3) Prévision: prédiction des observations futures avec mesure de l'incertitude

  • principalement basé sur un modèle, utilise la dépendance et les données antérieures
  • est une extrapolation, donc souvent à prendre avec un grain de sel
  • similaire à la conduite d'une voiture en regardant dans le rétroviseur

4) Contrôle de processus: la sortie d'un processus (physique) définit une série temporelle

  • un modèle stochastique est ajusté aux données observées
  • cela permet de comprendre à la fois le signal et le bruit
  • il est possible de surveiller les fluctuations normales / anormales

5) Régression des séries temporelles: Modélisation des séries temporelles de réponse à l'aide d'une ou plusieurs séries d'entrée.

  • conduit à des estimations impartiales, mais ...
  • erreurs standard souvent grossièrement erronées
  • ainsi, les intervalles de confiance et les tests sont trompeurs

À propos du problème marqué par le stock:

  • Ces TS sont très volatils, ce qui est difficile à modéliser.
  • Par exemple, un changement dans une loi qui concerne l'entreprise pourrait conduire à un changement dans le processus TS ... comment un outil statistique pourrait-il le prévoir?

À propos de la corrélation série:

  • Contrairement aux statistiques multivariées, les données d'une série chronologique ne sont généralement pas iid, mais sont corrélées en série.
  • Ces informations peuvent également être utiles pour détecter quelque chose qui n'est pas iid, ce qui est censé être, comme par exemple un instrument de laboratoire sale
Nicole Origami Fox
la source
1
J'ajouterais une classification, par exemple, il existe de nombreuses applications qui reconnaissent votre activité en fonction de l'analyse des données de l'accéléromètre de votre téléphone.
SaiBot
C'est intéressant! Comment est-ce que tu fais ça?
Nicole Origami Fox
1
Je pense qu'il existe de nombreuses façons différentes. Une façon serait de permettre aux utilisateurs de générer des données de formation en étiquetant leur activité. Une fois que vous avez cela, vous pouvez couper votre série temporelle à des intervalles (qui se chevauchent) (par exemple, 3 secondes) et former un modèle d'apprentissage automatique. Ensuite, vous pourrez classer les activités sans étiquette.
SaiBot
Merci SaiBot. Je vois, je dois considérer la combinaison de différents outils plus souvent :)
Nicole Origami Fox
11

La façon la plus simple de répondre à votre question est de comprendre qu'en gros, les ensembles de données sont souvent classés comme transversaux , séries chronologiques et panel . La régression transversale est un outil de référence pour les ensembles de données transversales. C'est ce que la plupart des gens savent et se réfèrent à un terme de régression . La régression des séries chronologiques est parfois appliquée aux séries chronologiques, mais l'analyse des séries chronologiques dispose d'un large éventail d'outils au-delà de la régression.

Un exemple de données transversales est , où sont les poids et les hauteurs des élèves choisis au hasard dans une école. Lorsqu'un échantillon est aléatoire, nous pouvons souvent exécuter une régression linéaire et obtenir des résultats fiables, pour peut-être prédire la taille d'un élève de cette école connaissant uniquement le poids de l'élève .(x1,y1),(x2,y3),,(xn,yn)xi,yiyxy^x

entrez la description de l'image ici

Si l'échantillon n'était pas aléatoire, la régression peut ne pas fonctionner du tout. Par exemple, vous n'avez choisi que des filles en première année pour estimer le modèle, mais vous devez prédire la taille d'un élève de 12e année. Ainsi, la régression a ses propres problèmes, même dans la configuration transversale.

Maintenant, regardez les données de séries chronologiques, il peut s'agir de tels que , où le mois d'une année et sont toujours le poids et la taille mais d'un élève particulier dans cette école.xt,yt(x1,y1),(x2,y3),,(xn,yn)tx,y

entrez la description de l'image ici

En règle générale, la régression n'a pas du tout à fonctionner. Une des raisons est que les indices sont ordonnés. Votre échantillon n'est donc pas aléatoire, et j'ai mentionné plus tôt que la régression préfère qu'un échantillon aléatoire fonctionne correctement. C'est un problème sérieux. Les données de séries chronologiques ont tendance à être persistantes, par exemple votre taille ce mois-ci est fortement corrélée à votre taille le mois prochain. Afin de traiter ces questions, l'analyse des séries chronologiques a été développée, elle incluait également la technique de régression, mais elle doit être utilisée de certaines manières.t

Le troisième type d'ensembles de données commun est un panneau, en particulier, les seules données longitudinales. Ici, vous pouvez obtenir plusieurs instantanés des variables de poids et de taille pour un certain nombre d'élèves. Cet ensemble de données peut ressembler à des vagues de coupes transversales ou à un ensemble de séries chronologiques.

entrez la description de l'image ici

Naturellement, cela peut être plus compliqué que les deux types précédents. Ici, nous utilisons la régression des panneaux et d'autres techniques spéciales développées pour les panneaux.

En résumé, la raison pour laquelle la régression des séries chronologiques est considérée comme un outil distinct par rapport à la régression transversale est que les séries chronologiques présentent des défis uniques en ce qui concerne les hypothèses d'indépendance de la technique de régression. En particulier, du fait que, contrairement à l'analyse transversale, l'ordre des observations est important, il conduit généralement à toutes sortes de structures de corrélation et de dépendance, ce qui peut parfois invalider l'application des techniques de régression. Vous devez gérer la dépendance, et c'est exactement ce à quoi l'analyse des séries chronologiques est bonne.

Prévisibilité des prix des actifs

En outre, vous répétez une idée fausse commune sur les marchés boursiers et les prix des actifs en général, selon laquelle ils ne peuvent pas être prédits. Cette affirmation est trop générale pour être vraie. Il est vrai que vous ne pouvez pas prédire de manière fiable la prochaine tic d'AAPL. Cependant, c'est un problème très étroit. Si vous élargissez votre réseau, vous découvrirez de nombreuses opportunités de gagner de l'argent en utilisant toutes sortes de prévisions (et l'analyse de séries chronologiques en particulier). L'arbitrage statistique est l'un de ces domaines.

Maintenant, la raison pour laquelle les prix des actifs sont difficiles à prévoir à court terme est due au fait qu'une grande partie des changements de prix sont de nouvelles informations. Les informations vraiment nouvelles qui ne peuvent pas être imaginées de manière réaliste à partir du passé sont par définition impossibles à prévoir. Cependant, c'est un modèle idéalisé, et beaucoup de gens diraient qu'il existe des anomalies qui permettent la persistance de l'état. Cela signifie que la partie de la variation des prix peut être expliquée par le passé. Dans de tels cas, l'analyse des séries chronologiques est tout à fait appropriée car elle traite précisément de la persistance. Il sépare le nouveau de l'ancien, le nouveau est impossible à prévoir, mais l'ancien est tiré du passé vers le futur. Si vous pouvez expliquer un petit peu, en finance, cela signifie que vous pouvezêtre en mesure de gagner de l'argent. Tant que le prix de la stratégie fondée sur de telles prévisions couvre les revenus qu'elle génère.

Enfin, jetez un œil au prix Nobel d' économie en 2013 : "il est tout à fait possible de prévoir le cours général de ces prix sur des périodes plus longues, comme les trois à cinq prochaines années". Jetez un oeil à la conférence Nobel de Shiller , il discute de la prévisibilité des prix des actifs.

Aksakal
la source
6

L'analyse des séries chronologiques peut également contribuer à une détection efficace des anomalies ou des valeurs aberrantes dans les données temporelles.

À titre d'exemple, il est possible d'adapter un modèle ARIMA et de calculer un intervalle de prévision. Selon le cas d'utilisation, l'intervalle peut être utilisé pour définir un seuil, à l'intérieur duquel le processus peut être considéré comme étant en contrôle; si de nouvelles données dépassent le seuil, elles sont signalées pour plus d'attention.

Cet article de blog présente un bref aperçu général de l'analyse des séries chronologiques pour la détection des valeurs aberrantes. Pour un traitement plus approfondi, les chercheurs d'ebay expliquent comment ils ont effectué la détection d'anomalies à grande échelle sur la base de l'analyse statistique des données de séries chronologiques.

redhqs
la source
6

Il existe de nombreuses autres méthodes statistiques, telles que la régression et l'apprentissage automatique, qui ont des cas d'utilisation évidents: la régression peut fournir des informations sur la relation entre deux variables, tandis que l'apprentissage automatique est idéal pour la prédiction.

Vous répondez à votre propre question, ci-dessous: autocorrélation. Les séries chronologiques l'ont généralement, violant une hypothèse de régression OLS de base. Les techniques de séries chronologiques ont les hypothèses appropriées pour les séries chronologiques.

Les méthodes d'apprentissage automatique qui traitent des données séquentielles sont spécialisées, comme les réseaux de neurones récurrents (RNN) ou les réseaux de neurones à convolution 1D (CNN), vous avez donc toujours des techniques spécialisées pour les séries chronologiques.

Mais en attendant, je ne vois pas à quoi sert l'analyse des séries chronologiques. Bien sûr, je peux adapter un modèle ARIMA et l'utiliser pour la prédiction, mais à quoi cela sert-il lorsque les intervalles de confiance pour cette prédiction vont être énormes? Il y a une raison pour laquelle personne ne peut prédire le marché boursier bien qu'il s'agisse de l'industrie la plus axée sur les données de l'histoire mondiale.

Les intervalles de confiance (IC) résultant d'une technique de séries chronologiques seront probablement plus grands que ceux d'une régression non chronologique. Cette fonctionnalité est connue pour être précise. En général, lorsque vous utilisez une régression non chronologique, votre CI sera plus petit, mais il est incorrect car vous avez violé ses hypothèses. Si tout ce que vous voulez faire est de présenter un graphique avec de petits CI, créez-les ou sautez entièrement les CI, mais si vous voulez des CI appropriés, utilisez des techniques appropriées.

Le marché boursier est difficile à prévoir en raison de sa nature. D'autres séries chronologiques sont beaucoup plus prévisibles. Essayez d'utiliser votre technique d'apprentissage automatique de choix en bourse et je doute que vous ayez plus de succès.

De même, comment puis-je l'utiliser pour mieux comprendre mon processus? Bien sûr, je peux tracer l'ACF et dire "aha! Il y a une certaine dépendance!", Mais alors quoi? À quoi ça sert? Bien sûr, il y a une dépendance, c'est pourquoi vous faites d'abord une analyse des séries chronologiques. Vous saviez déjà qu'il y avait une dépendance. Mais pourquoi allez-vous l'utiliser?

Prédire. Pour voir la saisonnalité. Avoir une idée de la variabilité des données selon les saisons. Sans oublier qu'il existe des techniques de séries chronologiques plus puissantes que l'ARIMA à l'ancienne, comme les méthodes de l'espace d'état. ARIMA n'est pas la meilleure technique pour modéliser des séries chronologiques. (En fait, la procédure ARIMA dans votre logiciel statistique de choix utilise probablement une représentation de l'espace d'état sous le capot.)

Wayne
la source
5

Pour ajouter de la couleur à la réponse de détection d'anomalies par redhqs, au travail, je construis des modèles de détection d'anomalies pour des mesures opérationnelles comme les ventes et les flux de trafic. Nous effectuons l'analyse des séries chronologiques pour comprendre quelles devraient être les ventes si tout fonctionne comme prévu, puis les comparons aux valeurs observées pour voir si le site Web est défectueux. C'est important car à chaque minute où le site est en panne, nous perdons beaucoup d'argent.

Il existe différentes méthodes que vous pouvez utiliser, et différentes méthodes tentent d'accomplir différentes choses dans de nombreux cas. Par exemple, la principale méthode statistique que j'ai utilisée pour la détection des anomalies de vente est appelée "STL" (décomposition de tendance saisonnière en utilisant le loess). Cela sépare la saisonnalité régulière, la tendance et le bruit aléatoire. Nous l'utilisons en fait pour identifier les saisonnalités quotidiennes et hebdomadaires. Ensuite, nous rejetons le bruit et combinons la tendance / saisonnalité pour estimer les ventes attendues. Dans notre cas, nous utilisons donc l'approche pour comprendre comment les ventes varient selon l'heure du jour et l'heure de la semaine, et pour exclure le bruit aléatoire des estimations.

Willie Wheeler
la source
Il semble que vous construisiez des modèles de séries chronologiques qui ne présument aucune anomalie, ce qui peut ne pas être robuste, contrairement aux stratégies d'identification de modèle qui permettent explicitement d'identifier simultanément à la fois la partie SARIMA et l'attente à découvrir Structure d'intervention (impulsions, changements de niveau / pas) , impulsions saisonnières, tendances de l'heure locale)
IrishStat
L'algo STL a un indicateur de robustesse (il contrôle le nombre d'itérations d'une boucle de lissage). Cela fonctionne très bien pour notre série chronologique de toute façon.
Willie Wheeler
Le nombre d'itérations ne traite pas du biais sous forme de modèle s'il existe une structure déterministe en attente d'être découverte.
IrishStat
3

En plus des excellentes réponses fournies par d'autres, je voudrais commenter la façon dont les analyses de séries chronologiques sont utilisées en génie électrique.

Une grande partie de l'ingénierie électrique consiste à moduler les tensions et les courants pour transmettre des informations, ou à utiliser des capteurs pour convertir un signal physique (comme une onde sonore) en une forme électrique, à partir de laquelle un ordinateur devrait prendre une décision. Un convertisseur analogique-numérique (A / D) traduit ces signaux en un ensemble d'échantillons discrets régulièrement espacés (dans le temps), ou une série chronologique! Les méthodes d'analyse des séries temporelles sont à la base de presque tous les algorithmes modernes de traitement du signal.

Par exemple, le traitement de la parole consiste à utiliser un microphone pour convertir une onde sonore en une tension électrique, qui est échantillonnée par un A / D, après quoi un modèle de série temporelle du signal est créé. Par exemple, les codeurs prédictifs linéaires (LPC) dans les téléphones portables créent un modèle ARMA des mots prononcés et transmettent les coefficients du modèle (ainsi qu'un indice représentant un signal d'excitation provenant d'un dictionnaire prédéfini) au lieu des échantillons de données eux-mêmes à atteindre compression des données.

Robert L.
la source