Par où commencer: séries chronologiques inégalement espacées, avec beaucoup de valeurs aberrantes ou aléatoires

8

Je ne sais pas vraiment ce qui est possible et je voudrais un pointeur dans la bonne direction.

J'ai des mesures de temps et de position qui pourraient être n'importe quoi d'une personne marchant, un véhicule sur une route, ou dans un parking, ou une imprimante dans un bureau. Je dois calculer les temps de trajet des véhicules entre deux points. Il se peut qu'ils prennent un itinéraire sinueux, ou même mettent des jours à se rendre de A à B. Ou ils peuvent être un piéton ou un véhicule de service d'urgence.

Je veux le temps de trajet estimé pour un véhicule normal le long de l'itinéraire principal.

Les détections se produisent chaque fois que quelqu'un est suffisamment proche du détecteur, qui a un rayon particulier. Parfois, il y a très peu de détections, ce qui signifie probablement que la route est vide et que le temps de trajet serait bon, même si cela pourrait indiquer que la route est fermée et que le temps de trajet serait terrible. Ou il pourrait y avoir beaucoup de détections montrant que le trafic ne bouge pas, et il pourrait y avoir une file d'attente pour désactiver la route, mais d'autres véhicules roulent à des vitesses normales.

Les tracés ressemblent à du bruit aléatoire.

ÉDITER:

En ce moment, je regarde deux méthodes:

  1. Utilisez la plage interquartile pour éliminer les valeurs aberrantes
  2. Utilisez un filtre Kalman.

Je pense que le filtre est la mauvaise voie à suivre car je n'ai pas de modèle pour le temps de trajet, sauf à chaque instant, je ne m'attends pas à ce qu'il change beaucoup.

Peter Wood
la source
1
Cela ressemble à un travail qui nécessite un document méthodologique dans Annals of Applied Statistics et un document de fond dans Journal of Transportation Research . Vous ne devez pas vous attendre à ce que la communauté rédige pour vous les deux articles dans les réponses ni les commentaires, et préférez demander la collaboration d'un statisticien ou d'un économiste des transports. Ou jetez cela à un étudiant diplômé en statistiques ou en économie comme sujet de thèse.
StasK
2
@StasK Je ne m'attendais pas à ce que la communauté écrive des articles pour moi, j'ai demandé des conseils dans la bonne direction. Merci de m'avoir fait savoir qu'il s'agit d'une entreprise importante, cependant.
Peter Wood
Je pense que c'est, c'est tout ce que je voulais dire. Si vous avez des intervalles de temps inégaux, vous voudrez peut-être envisager d'utiliser la modélisation de variogramme et le krigeage, qui sont généralement considérés comme des outils de statistiques spatiales.
StasK
@StasK Je ne pense pas que j'ai besoin de krigeage et de variogrammes. La géométrie de l'itinéraire entre deux points est relativement inconnue et sans importance dans le type de résultats que nous recherchons. Nous avons deux points avec des détections à chaque point, et beaucoup de détections de faux voyages. Nous voulons filtrer le bruit et obtenir une bonne estimation des conditions routières actuelles et historiques. Merci beaucoup pour votre intérêt.
Peter Wood

Réponses:

1

Je ne sais pas si je peux vous donner une réponse attendue, mais je pense qu'une approche bayésienne serait bonne dans ce cas.

Vous voudrez peut-être jeter un œil aux filtres à particules au lieu de Kalman car je pense que cela peut être un problème de configurer le modèle correct pour le filtre de Kalman dans ce cas. Si vous voulez opter pour Kalman, il existe différents types de filtre et certains d'entre eux nécessitent une bonne connaissance de la covariance d'erreur, ce qui peut provoquer des problèmes, mais certains peuvent le calculer avec Mante Carlo. Jetez un oeil sur le filtre Kalman non parfumé.

Vous aimerez également http://www.udacity.com/overview/Course/cs373/CourseRev/apr2012 car il explique quelques notions de base sur l'estimation du véhicule en mouvement et la voiture autonome de Google. (et c'est en python).

Peut-être que plus de détails dans votre question seraient plus utiles et vous pouvez obtenir des réponses plus précises.

tomasz74
la source