Analyse de séries chronologiques avec de nombreuses valeurs nulles

19

Ce problème concerne en fait la détection des incendies, mais il est fortement analogue à certains problèmes de détection de désintégration radioactive. Le phénomène observé est à la fois sporadique et très variable; ainsi, une série chronologique sera constituée de longues chaînes de zéros interrompues par des valeurs variables.

L'objectif n'est pas simplement de capturer des événements (cassures des zéros), mais une caractérisation quantitative des événements eux-mêmes. Cependant, les capteurs sont limités et enregistreront donc parfois zéro même si la "réalité" est non nulle. Pour cette raison, des zéros doivent être inclus lors de la comparaison des capteurs.

Le capteur B pourrait être plus sensible que le capteur A, et j'aimerais pouvoir le décrire statistiquement. Pour cette analyse, je n'ai pas de "vérité", mais j'ai un capteur C, qui est indépendant des capteurs A&B. Ainsi, je m'attends à ce qu'un meilleur accord entre A / B et C indique un meilleur accord avec la «vérité». (Cela peut sembler fragile, mais vous devrez me faire confiance - je suis sur une base solide ici, sur la base de ce qui est connu d'autres études sur les capteurs).

Le problème est alors de savoir comment quantifier «un meilleur accord des séries chronologiques». La corrélation est le choix évident, mais sera affectée par tous ces zéros (qui ne peuvent pas être laissés de côté), et bien sûr de manière disproportionnée par les valeurs maximales. RMSE pourrait également être calculé, mais serait fortement pondéré vers le comportement des capteurs dans le cas proche de zéro.

Q1: Quelle est la meilleure façon d'appliquer une échelle logarithmique à des valeurs non nulles qui seront ensuite combinées avec des zéros dans une analyse de séries chronologiques?

Q2: Quelles «meilleures pratiques» pouvez-vous recommander pour une analyse de séries chronologiques de ce type, où le comportement à des valeurs non nulles est au centre, mais où les valeurs nulles dominent et ne peuvent pas être exclues?

Ed Hyer
la source

Réponses:

11

Pour reformuler votre question «Comment l'analyste gère-t-il les longues périodes de non-demande qui ne suivent aucun modèle spécifique?»

La réponse à votre question est l'analyse de la demande intermittente ou l'analyse des données éparses. Cela se produit normalement lorsque vous avez "beaucoup de zéros" par rapport au nombre de non-zéros. Le problème est qu'il y a deux variables aléatoires; le temps entre les événements et la taille attendue de l'événement. Comme vous l'avez dit, l'autocorrélation (acf) de l'ensemble complet des lectures n'a aucun sens en raison de la séquence de zéros améliorant faussement l'acf. Vous pouvez poursuivre des discussions comme «la méthode de Croston» qui est une procédure basée sur un modèle plutôt qu'une procédure basée sur des données. La méthode de Croston est vulnérable aux valeurs aberrantes et aux changements / tendances / changements de niveau du taux de demande, c'est-à-dire la demande divisée par le nombre de périodes depuis la dernière demande. Une approche beaucoup plus rigoureuse pourrait consister à rechercher des "Données éparses - Données à espacement inégal" ou des recherches de ce genre. Une solution plutôt ingénieuse m'a été suggérée par le professeur Ramesh Sharda de l'OSU et je l'utilise depuis plusieurs années dans mon cabinet de conseil. Si une série a des moments où des ventes surviennent et de longues périodes où aucune vente ne survient, il est possible de convertir les ventes en ventes par période en divisant les ventes observées par le nombre de périodes sans ventes, obtenant ainsi un taux. Il est alors possible d'identifier un modèle entre le taux et l'intervalle entre les ventes aboutissant à un taux prévu et à un intervalle prévu. Vous pouvez en savoir plus à ce sujet sur autobox.com et google "demande intermittente" Si une série a des moments où des ventes surviennent et de longues périodes où aucune vente ne survient, il est possible de convertir les ventes en ventes par période en divisant les ventes observées par le nombre de périodes sans ventes, obtenant ainsi un taux. Il est alors possible d'identifier un modèle entre le taux et l'intervalle entre les ventes aboutissant à un taux prévu et à un intervalle prévu. Vous pouvez en savoir plus à ce sujet sur autobox.com et google "demande intermittente" Si une série a des moments où des ventes surviennent et de longues périodes où aucune vente ne survient, il est possible de convertir les ventes en ventes par période en divisant les ventes observées par le nombre de périodes sans ventes, obtenant ainsi un taux. Il est alors possible d'identifier un modèle entre le taux et l'intervalle entre les ventes aboutissant à un taux prévu et à un intervalle prévu. Vous pouvez en savoir plus à ce sujet sur autobox.com et google "demande intermittente"

IrishStat
la source
1
J'ai un problème de prévision avec une demande intermittente. On m'a demandé de résoudre. Je sais qu'il existe plusieurs logiciels spécifiques pour cette période de prévision mais ne sont pas gratuits. Pouvez-vous me dire si vous connaissez des fonctions intégrées dans un logiciel open source (comme R, par exemple) pour résoudre ce problème? J'ai cherché mais je n'ai pas pu le trouver jusqu'à présent ... Merci!
Assu
1
@assu: Je ne connais aucun logiciel gratuit qui réponde à vos besoins.
IrishStat
4
@assu. La croston()fonction du forecastpackage dans R implémentera la méthode de Croston pour prévoir les données de demande intermittente.
Rob Hyndman