C'est une question un peu désinvolte, mais j'ai un sérieux intérêt pour la réponse. Je travaille dans un hôpital psychiatrique et j'ai trois ans de données, collectées chaque jour dans chaque service sur le niveau de violence dans ce service.
De toute évidence, le modèle qui correspond à ces données est un modèle de série chronologique. J'ai dû différencier les scores afin de les rendre plus normaux. J'ai ajusté un modèle ARMA avec les données différenciées, et le meilleur ajustement, je pense, était un modèle avec un degré de différenciation et une auto-corrélation de premier ordre au décalage 2.
Ma question est, pour quoi diable puis-je utiliser ce modèle? Les séries chronologiques semblent toujours si utiles dans les manuels quand il s'agit des populations de lièvres et des prix du pétrole, mais maintenant j'ai fait le mien, le résultat semble si abstrait qu'il est complètement opaque. Les scores différenciés sont corrélés les uns aux autres au deuxième décalage, mais je ne peux pas vraiment conseiller à tout le monde d'être en état d'alerte élevé deux jours après un incident grave en toute gravité.
Ou puis-je?
la source
Réponses:
Le modèle qui correspond aux données ne doit pas nécessairement être un modèle de série chronologique; Je conseillerais de sortir un peu des sentiers battus.
Si vous avez plusieurs variables (par exemple, l'âge, le sexe, le régime alimentaire, l'origine ethnique, la maladie, les médicaments), vous pouvez les utiliser pour un modèle différent. Peut-être que le fait d'avoir certains patients dans la même pièce est un prédicteur important? Ou peut-être que cela a à voir avec le personnel présent? Ou envisagez d'utiliser un modèle de séries chronologiques à plusieurs variables (par exemple VECM) si vous avez d'autres variables que vous pouvez utiliser. Examinez les relations entre la violence entre les patients: certains patients agissent-ils ensemble?
Le modèle de série chronologique est utile si le temps a un rôle important dans le comportement. Par exemple, il pourrait y avoir un regroupement de violences. Regardez la littérature sur le clustering de volatilité. Comme @Jonas le suggère, avec un décalage de 2, il se peut que vous deviez être en état d'alerte le jour suivant une explosion de violence. Mais cela ne vous aide pas à empêcher le premier jour: il peut y avoir d'autres informations que vous pouvez lier à l'analyse pour réellement comprendre la cause de la violence, plutôt que de simplement la diffuser sous forme de séries chronologiques.
Enfin, comme suggestion technique: si vous utilisez R pour l'analyse, vous pouvez consulter le package de prévisions de Rob Hyndman (le créateur de ce site). Cela a de nombreuses fonctionnalités très intéressantes; voir l'article "Automatic Time Series Forecasting: The Forecast Package for R" dans le Journal of Statistical Software.
la source
Vous avez adapté le modèle aux différences, ce qui signifie que vous décrivez l'évolution des niveaux de violence. Vous obtenez un décalage de 2 jours. Un décalage indique la mémoire du processus. En d'autres termes, l'évolution des niveaux de violence aujourd'hui dépend dans une certaine mesure de l'évolution des niveaux de violence au cours des deux derniers jours. Pour des échelles de temps plus longues, la contribution des influences aléatoires devient suffisamment forte pour qu'il n'y ait plus de lien clair.
L'autocorrélation est-elle positive? Ensuite, un changement des niveaux de violence aujourd'hui suggère un changement similaire des niveaux de violence en deux jours. Est-ce négatif? La violence pourrait alors rester plus élevée pendant deux jours.
Bien sûr, vous voudrez peut-être contrôler les effets de confusion. Par exemple, après un incident grave, les gens sont plus susceptibles de signaler des incidents mineurs, mais cette «sensibilisation» disparaîtrait après deux jours.
la source