Je sais que c'est principalement un site de statistiques, donc si je suis hors sujet, veuillez me rediriger.
J'ai un système avec des pompes qui se cassent parfois et doivent être remplacées. Je voudrais pouvoir prédire les pannes et ainsi prévenir rapidement les personnes qui remplacent les pompes. J'ai des données historiques sur le processus de pompage, telles que le débit, la pression, la hauteur du liquide, etc.
Je n'ai qu'une petite expérience dans l'utilisation des techniques d'apprentissage automatique pour classer les données - en gros, j'ai suivi et fait les exercices du cours d'apprentissage automatique d'Andrew Ng sur coursera, ainsi que d'Andrew Conway Statistics One, - et je n'ai jamais utilisé l'apprentissage automatique pour classer les séries chronologiques. Je pense à des moyens de transformer mon problème afin de pouvoir utiliser mes connaissances existantes à ce sujet. Avec mes connaissances limitées, je n'obtiendrai pas une prédiction très optimale, mais j'espère en tirer des leçons, et pour ce problème, toute petite amélioration de la prédiction est utile, par rapport à l'attente de la survenue des défauts.
L'approche que je propose consiste à transformer la série chronologique en un problème de classification normal. L'entrée serait un résumé d'une fenêtre de séries chronologiques, avec la valeur moyenne, l'écart type, les valeurs maximales, etc. pour chaque type de données dans la fenêtre. Pour la sortie, je ne sais pas ce qui fonctionnerait le mieux. Une approche est que la sortie serait une classification binaire indiquant si la pompe est tombée en panne dans un certain laps de temps à partir de la fin de la fenêtre ou non. Un autre est que la sortie serait le temps restant avant que la pompe ne tombe en panne, donc pas une classification, mais une régression (au sens de l'apprentissage automatique) à la place.
Pensez-vous que cette approche est susceptible de donner des résultats? S'agit-il de "dépend du domaine et des données historiques". Y a-t-il de meilleures transformations (d'entrée et de sortie) que je n'ai pas envisagées, ou la prédiction de panne basée sur des données de série temporelle est-elle si différente de la prédiction de panne plus standard, que mon temps serait mieux utilisé pour lire sur l'apprentissage automatique avec des séries temporelles ?
Réponses:
Vous voudrez peut-être examiner l'analyse de survie, avec laquelle vous pouvez estimer la fonction de survie (la probabilité que le temps de défaillance soit supérieur à un temps spécifique) et la fonction de danger (la probabilité instantanée qu'une unité échoue, étant donné qu'elle n'a pas échoué jusqu'à présent). Avec la plupart des approches d'analyse de survie, vous pouvez entrer des prédicteurs invariants et variant dans le temps.
Il existe différentes approches d'analyse de la survie, notamment le modèle semi-paramétrique de risques proportionnels de Cox (ou régression de Cox) et les modèles paramétriques. La régression de Cox ne vous oblige pas à spécifier la fonction de risque de base sous-jacente, mais vous constaterez peut-être que vous avez besoin d'un modèle paramétrique pour capturer correctement les modèles de défaillance dans vos données. Parfois, des modèles paramétriques de temps de défaillance accéléré sont appropriés, où le taux de défaillance augmente avec le temps.
Vous pouvez essayer de commencer par la régression de Cox, car c'est la plus simple à utiliser et vérifiez dans quelle mesure vous pouvez prédire l'échec sur un ensemble de tests d'exclusion. Je soupçonne que vous obtiendrez de meilleurs résultats avec une sorte d'analyse de survie qui prend explicitement en compte le temps et la censure (pompes qui n'ont pas encore échoué) qu'avec essayer de transformer cela en un problème de classification non temporel.
la source
Je baserais ma décision sur la classification par rapport à la régression en fonction de la disponibilité des données (cette dernière nécessite de connaître l'heure exacte à laquelle la défaillance s'est produite, la première ne le fait pas) et de savoir si avoir des estimations de la durée de la défaillance est vraiment une exigence pour votre problème (mon défaut serait d'essayer la classification en premier).
la source