Pour simplifier un peu, j'ai environ un million d'enregistrements qui enregistrent l'heure d'entrée et de sortie des personnes dans un système s'étalant sur une dizaine d'années. Chaque enregistrement a une heure d'entrée, mais pas chaque enregistrement a une heure de sortie. La durée moyenne dans le système est d'environ 1 an.
Les temps de sortie manquants se produisent pour deux raisons:
- La personne n'a pas quitté le système au moment où les données ont été saisies.
- L'heure de sortie de la personne n'a pas été enregistrée. Cela arrive à dire 50% des enregistrements
Les questions d'intérêt sont:
- Les gens passent-ils moins de temps dans le système et combien de temps en moins.
- Y a-t-il plus de temps de sortie enregistrés et combien.
Nous pouvons modéliser cela en disant que la probabilité qu'une sortie soit enregistrée varie linéairement avec le temps, et que le temps dans le système a un Weibull dont les paramètres varient linéairement avec le temps. On peut alors faire une estimation du maximum de vraisemblance des différents paramètres et globe oculaire les résultats et les juger plausibles. Nous avons choisi la distribution de Weibull parce qu'elle semble être utilisée pour mesurer les durées de vie et est amusante à dire, par opposition à un meilleur ajustement des données que, disons, une distribution gamma.
Où dois-je chercher pour obtenir un indice sur la façon de procéder correctement? Nous sommes quelque peu avertis mathématiquement, mais pas très avertis statistiquement.
la source
Vous pouvez utiliser le modèle estimé pour prédire les heures de sortie de toutes les personnes de votre système. Vous pouvez ensuite comparer les temps de sortie estimés avec les temps de sortie réels (où vous avez ces données) et calculer une métrique telle que RMSE pour évaluer la qualité de vos prédictions, ce qui vous donnera à son tour une idée de l'ajustement du modèle. Voir aussi ce lien .
la source