Je suis un lycéen et je travaille sur un projet de programmation informatique, mais je n'ai pas beaucoup d'expérience en statistique et en modélisation de données au-delà d'un cours de statistique au lycée donc je suis un peu confus.
Fondamentalement, j'ai une liste raisonnablement longue (supposons qu'elle soit suffisamment grande pour répondre aux hypothèses de tout test ou mesure statistique) de fois où quelqu'un a décidé d'imprimer un document. Sur la base de cette liste, je voudrais construire un modèle statistique d'une sorte qui prédira le temps le plus probable pour le prochain travail d'impression compte tenu de tous les temps d'événement précédents.
J'ai déjà lu ceci , mais les réponses n'aident pas exactement ce que j'ai en tête pour mon projet. J'ai fait des recherches supplémentaires et j'ai découvert qu'un modèle de Markov caché me permettrait probablement de le faire avec précision, mais je ne trouve pas de lien sur la façon de générer un modèle de Markov caché en utilisant simplement une liste de fois. J'ai également constaté que l'utilisation d'un filtre de Kalman sur la liste peut être utile mais, fondamentalement, j'aimerais obtenir plus d'informations à ce sujet auprès de quelqu'un qui les a réellement utilisés et connaît leurs limites et leurs exigences avant d'essayer quelque chose et d'espérer que cela fonctionne.
Merci beaucoup!
Réponses:
Les modèles de Markov cachés s'appliqueraient si les données étaient des émissions aléatoires d'un modèle de Markov sous-jacent non observé; Je n'exclurais pas cela, mais cela ne semble pas être un modèle très naturel.
Je penserais aux processus ponctuels , qui correspondent bien à vos données particulières. Il y a beaucoup de travail sur la prévision des tremblements de terre (bien que je ne sache pas grand-chose à ce sujet) et même crime .
S'il y a beaucoup de personnes différentes qui impriment, et que vous voyez juste les temps mais pas les identités individuelles, un processus de Poisson pourrait bien fonctionner (la superposition de plusieurs processus ponctuels indépendants est approximativement Poisson), bien qu'il devrait être inhomogène (le la chance d'un point varie dans le temps): les gens sont moins susceptibles d'imprimer à 3h qu'à 15h.
Pour le modèle de processus de Poisson inhomogène , la clé serait d'obtenir une bonne estimation des chances d'un travail d'impression à un moment donné et un jour particulier.
Si ces heures d'impression sont destinées aux élèves dans une salle de classe, cela pourrait être assez délicat, car ils ne sont probablement pas indépendants et le processus de Poisson ne fonctionnerait pas bien.
Voici un lien vers un document sur la demande de crime.
la source
Sur la base de la prévision du temps probable à l'aide de statistiques de balayage bayésien multivarié (MBSS) pourrait être utile. Ce MBSS a l'avantage d'améliorer la rapidité et la précision de la détection d'événements.
la source