Quel est l'analyse des séries temporelles?
Il existe de nombreuses autres méthodes statistiques, telles que la régression et l'apprentissage automatique, qui ont des cas d'utilisation évidents: la régression peut fournir des informations sur la relation entre deux variables, tandis que l'apprentissage automatique est idéal pour la prédiction.
Mais en attendant, je ne vois pas à quoi sert l'analyse des séries chronologiques. Bien sûr, je peux adapter un modèle ARIMA et l'utiliser pour la prédiction, mais à quoi cela sert-il lorsque les intervalles de confiance pour cette prédiction vont être énormes? Il y a une raison pour laquelle personne ne peut prédire le marché boursier bien qu'il s'agisse de l'industrie la plus axée sur les données de l'histoire mondiale.
De même, comment puis-je l'utiliser pour mieux comprendre mon processus? Bien sûr, je peux tracer l'ACF et dire "aha! Il y a une certaine dépendance!", Mais alors quoi? À quoi ça sert? Bien sûr, il y a une dépendance, c'est pourquoi vous faites d'abord une analyse des séries chronologiques. Vous saviez déjà qu'il y avait une dépendance . Mais pourquoi allez-vous l'utiliser?
la source
Réponses:
L'une des principales utilisations est la prévision . Je nourris ma famille depuis plus d'une décennie maintenant en prévoyant combien d'unités d'un produit spécifique un supermarché vendra demain, afin qu'il puisse commander suffisamment de stock, mais pas trop. Il y a de l'argent là-dedans.
D'autres cas d'utilisation de prévision sont donnés dans des publications comme l' International Journal of Forecasting ou Foresight . (Divulgation complète: je suis rédacteur en chef adjoint de Foresight .)
Oui, parfois les intervalles de prédiction sont énormes. (Je suppose que vous voulez dire les IP, pas les intervalles de confiance . Il y a une différence. ) Cela signifie simplement que le processus est difficile à prévoir. Ensuite, vous devez atténuer. Pour prévoir les ventes des supermarchés, cela signifie que vous avez besoin de beaucoup de stock de sécurité. Dans la prévision de l'élévation du niveau de la mer, cela signifie que vous devez construire des digues plus hautes. Je dirais qu'un grand intervalle de prédiction fournit des informations utiles.
Et pour tous les cas d'utilisation des prévisions, l' analyse des séries chronologiques est utile, bien que la prévision soit un sujet plus vaste. Vous pouvez souvent améliorer les prévisions en tenant compte des dépendances de votre série chronologique, vous devez donc les comprendre par le biais d'une analyse, qui est plus spécifique que la simple connaissance des dépendances.
De plus, les gens sont intéressés par les séries chronologiques même s'ils ne font pas de prévisions. Les économétriciens aiment détecter les points de changement dans les séries chronologiques macroéconomiques. Ou évaluez l'impact d'une intervention, telle qu'une modification des lois fiscales, sur le PIB ou autre. Vous voudrez peut-être parcourir votre journal d'économétrie préféré pour plus d'inspiration.
la source
Objectifs en analyse TS des diapositives de leçon de M. Dettling:
1) Analyse exploratoire: visualisation des propriétés de la série
2) Modélisation: ajustement d'un modèle stochastique aux données qui représentent et reflètent les propriétés les plus importantes de la série
3) Prévision: prédiction des observations futures avec mesure de l'incertitude
4) Contrôle de processus: la sortie d'un processus (physique) définit une série temporelle
5) Régression des séries temporelles: Modélisation des séries temporelles de réponse à l'aide d'une ou plusieurs séries d'entrée.
À propos du problème marqué par le stock:
À propos de la corrélation série:
la source
La façon la plus simple de répondre à votre question est de comprendre qu'en gros, les ensembles de données sont souvent classés comme transversaux , séries chronologiques et panel . La régression transversale est un outil de référence pour les ensembles de données transversales. C'est ce que la plupart des gens savent et se réfèrent à un terme de régression . La régression des séries chronologiques est parfois appliquée aux séries chronologiques, mais l'analyse des séries chronologiques dispose d'un large éventail d'outils au-delà de la régression.
Un exemple de données transversales est , où sont les poids et les hauteurs des élèves choisis au hasard dans une école. Lorsqu'un échantillon est aléatoire, nous pouvons souvent exécuter une régression linéaire et obtenir des résultats fiables, pour peut-être prédire la taille d'un élève de cette école connaissant uniquement le poids de l'élève .(x1,y1),(x2,y3),…,(xn,yn) xi,yi y∼x y^ x
Si l'échantillon n'était pas aléatoire, la régression peut ne pas fonctionner du tout. Par exemple, vous n'avez choisi que des filles en première année pour estimer le modèle, mais vous devez prédire la taille d'un élève de 12e année. Ainsi, la régression a ses propres problèmes, même dans la configuration transversale.
Maintenant, regardez les données de séries chronologiques, il peut s'agir de tels que , où le mois d'une année et sont toujours le poids et la taille mais d'un élève particulier dans cette école.xt,yt (x1,y1),(x2,y3),…,(xn,yn) t x,y
En règle générale, la régression n'a pas du tout à fonctionner. Une des raisons est que les indices sont ordonnés. Votre échantillon n'est donc pas aléatoire, et j'ai mentionné plus tôt que la régression préfère qu'un échantillon aléatoire fonctionne correctement. C'est un problème sérieux. Les données de séries chronologiques ont tendance à être persistantes, par exemple votre taille ce mois-ci est fortement corrélée à votre taille le mois prochain. Afin de traiter ces questions, l'analyse des séries chronologiques a été développée, elle incluait également la technique de régression, mais elle doit être utilisée de certaines manières.t
Le troisième type d'ensembles de données commun est un panneau, en particulier, les seules données longitudinales. Ici, vous pouvez obtenir plusieurs instantanés des variables de poids et de taille pour un certain nombre d'élèves. Cet ensemble de données peut ressembler à des vagues de coupes transversales ou à un ensemble de séries chronologiques.
Naturellement, cela peut être plus compliqué que les deux types précédents. Ici, nous utilisons la régression des panneaux et d'autres techniques spéciales développées pour les panneaux.
En résumé, la raison pour laquelle la régression des séries chronologiques est considérée comme un outil distinct par rapport à la régression transversale est que les séries chronologiques présentent des défis uniques en ce qui concerne les hypothèses d'indépendance de la technique de régression. En particulier, du fait que, contrairement à l'analyse transversale, l'ordre des observations est important, il conduit généralement à toutes sortes de structures de corrélation et de dépendance, ce qui peut parfois invalider l'application des techniques de régression. Vous devez gérer la dépendance, et c'est exactement ce à quoi l'analyse des séries chronologiques est bonne.
Prévisibilité des prix des actifs
En outre, vous répétez une idée fausse commune sur les marchés boursiers et les prix des actifs en général, selon laquelle ils ne peuvent pas être prédits. Cette affirmation est trop générale pour être vraie. Il est vrai que vous ne pouvez pas prédire de manière fiable la prochaine tic d'AAPL. Cependant, c'est un problème très étroit. Si vous élargissez votre réseau, vous découvrirez de nombreuses opportunités de gagner de l'argent en utilisant toutes sortes de prévisions (et l'analyse de séries chronologiques en particulier). L'arbitrage statistique est l'un de ces domaines.
Maintenant, la raison pour laquelle les prix des actifs sont difficiles à prévoir à court terme est due au fait qu'une grande partie des changements de prix sont de nouvelles informations. Les informations vraiment nouvelles qui ne peuvent pas être imaginées de manière réaliste à partir du passé sont par définition impossibles à prévoir. Cependant, c'est un modèle idéalisé, et beaucoup de gens diraient qu'il existe des anomalies qui permettent la persistance de l'état. Cela signifie que la partie de la variation des prix peut être expliquée par le passé. Dans de tels cas, l'analyse des séries chronologiques est tout à fait appropriée car elle traite précisément de la persistance. Il sépare le nouveau de l'ancien, le nouveau est impossible à prévoir, mais l'ancien est tiré du passé vers le futur. Si vous pouvez expliquer un petit peu, en finance, cela signifie que vous pouvezêtre en mesure de gagner de l'argent. Tant que le prix de la stratégie fondée sur de telles prévisions couvre les revenus qu'elle génère.
Enfin, jetez un œil au prix Nobel d' économie en 2013 : "il est tout à fait possible de prévoir le cours général de ces prix sur des périodes plus longues, comme les trois à cinq prochaines années". Jetez un oeil à la conférence Nobel de Shiller , il discute de la prévisibilité des prix des actifs.
la source
L'analyse des séries chronologiques peut également contribuer à une détection efficace des anomalies ou des valeurs aberrantes dans les données temporelles.
À titre d'exemple, il est possible d'adapter un modèle ARIMA et de calculer un intervalle de prévision. Selon le cas d'utilisation, l'intervalle peut être utilisé pour définir un seuil, à l'intérieur duquel le processus peut être considéré comme étant en contrôle; si de nouvelles données dépassent le seuil, elles sont signalées pour plus d'attention.
Cet article de blog présente un bref aperçu général de l'analyse des séries chronologiques pour la détection des valeurs aberrantes. Pour un traitement plus approfondi, les chercheurs d'ebay expliquent comment ils ont effectué la détection d'anomalies à grande échelle sur la base de l'analyse statistique des données de séries chronologiques.
la source
Vous répondez à votre propre question, ci-dessous: autocorrélation. Les séries chronologiques l'ont généralement, violant une hypothèse de régression OLS de base. Les techniques de séries chronologiques ont les hypothèses appropriées pour les séries chronologiques.
Les méthodes d'apprentissage automatique qui traitent des données séquentielles sont spécialisées, comme les réseaux de neurones récurrents (RNN) ou les réseaux de neurones à convolution 1D (CNN), vous avez donc toujours des techniques spécialisées pour les séries chronologiques.
Les intervalles de confiance (IC) résultant d'une technique de séries chronologiques seront probablement plus grands que ceux d'une régression non chronologique. Cette fonctionnalité est connue pour être précise. En général, lorsque vous utilisez une régression non chronologique, votre CI sera plus petit, mais il est incorrect car vous avez violé ses hypothèses. Si tout ce que vous voulez faire est de présenter un graphique avec de petits CI, créez-les ou sautez entièrement les CI, mais si vous voulez des CI appropriés, utilisez des techniques appropriées.
Le marché boursier est difficile à prévoir en raison de sa nature. D'autres séries chronologiques sont beaucoup plus prévisibles. Essayez d'utiliser votre technique d'apprentissage automatique de choix en bourse et je doute que vous ayez plus de succès.
Prédire. Pour voir la saisonnalité. Avoir une idée de la variabilité des données selon les saisons. Sans oublier qu'il existe des techniques de séries chronologiques plus puissantes que l'ARIMA à l'ancienne, comme les méthodes de l'espace d'état. ARIMA n'est pas la meilleure technique pour modéliser des séries chronologiques. (En fait, la procédure ARIMA dans votre logiciel statistique de choix utilise probablement une représentation de l'espace d'état sous le capot.)
la source
Pour ajouter de la couleur à la réponse de détection d'anomalies par redhqs, au travail, je construis des modèles de détection d'anomalies pour des mesures opérationnelles comme les ventes et les flux de trafic. Nous effectuons l'analyse des séries chronologiques pour comprendre quelles devraient être les ventes si tout fonctionne comme prévu, puis les comparons aux valeurs observées pour voir si le site Web est défectueux. C'est important car à chaque minute où le site est en panne, nous perdons beaucoup d'argent.
Il existe différentes méthodes que vous pouvez utiliser, et différentes méthodes tentent d'accomplir différentes choses dans de nombreux cas. Par exemple, la principale méthode statistique que j'ai utilisée pour la détection des anomalies de vente est appelée "STL" (décomposition de tendance saisonnière en utilisant le loess). Cela sépare la saisonnalité régulière, la tendance et le bruit aléatoire. Nous l'utilisons en fait pour identifier les saisonnalités quotidiennes et hebdomadaires. Ensuite, nous rejetons le bruit et combinons la tendance / saisonnalité pour estimer les ventes attendues. Dans notre cas, nous utilisons donc l'approche pour comprendre comment les ventes varient selon l'heure du jour et l'heure de la semaine, et pour exclure le bruit aléatoire des estimations.
la source
En plus des excellentes réponses fournies par d'autres, je voudrais commenter la façon dont les analyses de séries chronologiques sont utilisées en génie électrique.
Une grande partie de l'ingénierie électrique consiste à moduler les tensions et les courants pour transmettre des informations, ou à utiliser des capteurs pour convertir un signal physique (comme une onde sonore) en une forme électrique, à partir de laquelle un ordinateur devrait prendre une décision. Un convertisseur analogique-numérique (A / D) traduit ces signaux en un ensemble d'échantillons discrets régulièrement espacés (dans le temps), ou une série chronologique! Les méthodes d'analyse des séries temporelles sont à la base de presque tous les algorithmes modernes de traitement du signal.
Par exemple, le traitement de la parole consiste à utiliser un microphone pour convertir une onde sonore en une tension électrique, qui est échantillonnée par un A / D, après quoi un modèle de série temporelle du signal est créé. Par exemple, les codeurs prédictifs linéaires (LPC) dans les téléphones portables créent un modèle ARMA des mots prononcés et transmettent les coefficients du modèle (ainsi qu'un indice représentant un signal d'excitation provenant d'un dictionnaire prédéfini) au lieu des échantillons de données eux-mêmes à atteindre compression des données.
la source