Utiliser l'analyse de séries chronologiques pour analyser / prédire les comportements violents

C'est une question un peu désinvolte, mais j'ai un sérieux intérêt pour la réponse. Je travaille dans un hôpital psychiatrique et j'ai trois ans de données, collectées chaque jour dans chaque service sur le niveau de violence dans ce service.

De toute évidence, le modèle qui correspond à ces données est un modèle de série chronologique. J'ai dû différencier les scores afin de les rendre plus normaux. J'ai ajusté un modèle ARMA avec les données différenciées, et le meilleur ajustement, je pense, était un modèle avec un degré de différenciation et une auto-corrélation de premier ordre au décalage 2.

Ma question est, pour quoi diable puis-je utiliser ce modèle? Les séries chronologiques semblent toujours si utiles dans les manuels quand il s'agit des populations de lièvres et des prix du pétrole, mais maintenant j'ai fait le mien, le résultat semble si abstrait qu'il est complètement opaque. Les scores différenciés sont corrélés les uns aux autres au deuxième décalage, mais je ne peux pas vraiment conseiller à tout le monde d'être en état d'alerte élevé deux jours après un incident grave en toute gravité.

Ou puis-je?

time-series forecasting Chris Beeley
la source

pourriez-vous modifier le titre en quelque chose comme "Utiliser l'analyse des séries chronologiques pour analyser / prédire les comportements violents"?

Paul

J'aime beaucoup ce type de question, je pense que ce type de problème réel et précis augmentera l'intérêt du site. Ce serait encore mieux si vous aviez la possibilité d'ajouter un lien vers les données, ou de nous dire (en complément du post) ce que vous avez finalement fait, quelles ont été les conclusions ... mais je comprends que cela peut être confidentiel ...

robin girard

Je souhaite pouvoir voter à nouveau pour vous faire passer la question de la définition d'une variable aléatoire;)

robin girard

Je reviendrai pour vous dire quels ont été les résultats, mais cela prendra un certain temps, alors que je travaille sur ce chemin à côté de nombreuses autres tâches. Vous ne saviez pas ce que vous vouliez dire par «passer la question sur la variable aléatoire»? Y a-t-il une question que vous recommandez d'examiner?

Chris Beeley

désolé si je n'ai pas été clair, je veux dire que je ne préfère pas (opinion subjective personnelle) des questions comme la vôtre à la question qui demande "qu'est-ce qu'une variable aléatoire" ... mais je suppose que mon plaisir n'est pas celui de tout le monde :)

robin girard

Réponses:

Le modèle qui correspond aux données ne doit pas nécessairement être un modèle de série chronologique; Je conseillerais de sortir un peu des sentiers battus.

Si vous avez plusieurs variables (par exemple, l'âge, le sexe, le régime alimentaire, l'origine ethnique, la maladie, les médicaments), vous pouvez les utiliser pour un modèle différent. Peut-être que le fait d'avoir certains patients dans la même pièce est un prédicteur important? Ou peut-être que cela a à voir avec le personnel présent? Ou envisagez d'utiliser un modèle de séries chronologiques à plusieurs variables (par exemple VECM) si vous avez d'autres variables que vous pouvez utiliser. Examinez les relations entre la violence entre les patients: certains patients agissent-ils ensemble?

Le modèle de série chronologique est utile si le temps a un rôle important dans le comportement. Par exemple, il pourrait y avoir un regroupement de violences. Regardez la littérature sur le clustering de volatilité. Comme @Jonas le suggère, avec un décalage de 2, il se peut que vous deviez être en état d'alerte le jour suivant une explosion de violence. Mais cela ne vous aide pas à empêcher le premier jour: il peut y avoir d'autres informations que vous pouvez lier à l'analyse pour réellement comprendre la cause de la violence, plutôt que de simplement la diffuser sous forme de séries chronologiques.

Enfin, comme suggestion technique: si vous utilisez R pour l'analyse, vous pouvez consulter le package de prévisions de Rob Hyndman (le créateur de ce site). Cela a de nombreuses fonctionnalités très intéressantes; voir l'article "Automatic Time Series Forecasting: The Forecast Package for R" dans le Journal of Statistical Software.

Shane
la source

D'accord - juste pour jeter quelques idées supplémentaires sur la modélisation: logistique pour prédire quels patients auront 1+ explosions violentes, régression de Poisson (esque) pour prédire quels patients auront de nombreuses explosions, multiniveaux pour examiner les variations d'une pièce à l'autre et / ou d'un quartier à l'autre ...

Matt Parker

+1 Il est facile de se laisser aveugler par les exhortations à ne pas utiliser de modèles linéaires, etc., sur les séries chronologiques en raison de problèmes d'auto-corrélation, et de se laisser prendre par ARIMA, DLM, etc., lorsque LM, GLM, etc. peuvent être assez puissants avec un peu de prudence.

Wayne

Vous avez adapté le modèle aux différences, ce qui signifie que vous décrivez l'évolution des niveaux de violence. Vous obtenez un décalage de 2 jours. Un décalage indique la mémoire du processus. En d'autres termes, l'évolution des niveaux de violence aujourd'hui dépend dans une certaine mesure de l'évolution des niveaux de violence au cours des deux derniers jours. Pour des échelles de temps plus longues, la contribution des influences aléatoires devient suffisamment forte pour qu'il n'y ait plus de lien clair.

L'autocorrélation est-elle positive? Ensuite, un changement des niveaux de violence aujourd'hui suggère un changement similaire des niveaux de violence en deux jours. Est-ce négatif? La violence pourrait alors rester plus élevée pendant deux jours.

Bien sûr, vous voudrez peut-être contrôler les effets de confusion. Par exemple, après un incident grave, les gens sont plus susceptibles de signaler des incidents mineurs, mais cette «sensibilisation» disparaîtrait après deux jours.

Jonas
la source