J'ai une série chronologique binaire: nous avons 2160 données (0 = ne s'est pas produit, 1 = s'est produit) pour une période d'une heure en 90 jours.
Je veux prévoir après ces 90 jours, où le prochain 1 se produira, et également étendre cette disposition pour un mois prochain.
time-series
binary-data
amin abdolahnejad
la source
la source
Réponses:
Une approche pourrait être de supposer que la séquence de Bernoulli peut être décrite par une variable aléatoire normale latente utilisant la transformation Probit. C'est votre où et . De cette façon, vous pouvez placer la structure de séries chronologiques (par exemple ARIMA) que vous souhaitez sur votre variable , puis utiliser des techniques de séries chronologiques standard pour prédire les observations futures (par exemple Holt-Winters). Il devrait être possible de coder quelque chose comme ça dans Stan ou JAGS, mais vous pourriez ne pas obtenir de grandes prédictions étant donné la vue "sombre" du processus de Bernoulli sur l'état latent.Xt∼Bernoulli(pt) pt∼Φ−1(Yt) Y∼N(μ,Σ) Y
la source
Le modèle le plus simple serait la régression linéaire. Vous pouvez tracer vos données à l'aide de ggplot:
Il s'agit du modèle le plus simple, il existe d'autres modèles non linéaires qui pourraient mieux s'adapter à vos données. Gardez également à l'esprit que vous devrez peut-être utiliser le journal de date pour obtenir un meilleur ajustement. Sur les régressions non linéaires telles que la régression polynomiale, vous pouvez lire beaucoup ici
Maintenant, cela nécessiterait une analyse supplémentaire, mais il est essentiel de déterminer si vos événements sont indépendants. Il est possible qu'il existe une sorte de variable de confusion que vous pourriez ne pas prendre en compte. Vous voudrez peut-être examiner la régression linéaire bayésienne (étant donné que vous obtenez plus de dimensions que le temps et des valeurs oui / non) ici
la source
Données d'accident? Je commencerais par supposer qu'il y a une saisonnalité horaire et une saisonnalité quotidienne. Sans connaître le type d'accident, il se peut que vous puissiez regarder la mise en commun horaire du lundi au vendredi, et gérer séparément les heures du samedi et du dimanche, de sorte que vous disposez de 3 groupes d'heures, 24 (lun-ven), 24 (sam) et 24 (dim).
Une réduction supplémentaire des données pourrait être possible, mais en supposant que non, il suffit de prendre les moyennes. Par exemple, la moyenne du dimanche à 15 h pourrait être de 0,3 (30% de chances d'accident). La moyenne pour 16 heures pourrait être de 0,2, et ainsi de suite.
La probabilité qu'aucun accident ne se produise dans 15 heures ou 16 heures serait (1-.3) (1-.2) = .56, donc la probabilité d'avoir un accident dans ces deux heures serait de 0,44, et ainsi de suite.
Cela semble être un bon point de départ simple.
la source