J'ai une série chronologique de mesures (séries de hauteurs unidimensionnelles). Au cours de la période d'observation, le processus de mesure s'est interrompu pendant quelques instants. Ainsi, les données résultantes sont un vecteur avec NaN où il y avait des lacunes dans les données. L'utilisation de MATLAB me pose un problème lors du calcul de l'autocorrélation ( autocorr
) et de l'application des réseaux de neurones ( nnstart
).
Comment ces lacunes / NaN devraient-elles être traitées? Dois-je simplement les supprimer du vecteur? Ou remplacer leur entrée par une valeur interpolée? (si oui, comment dans MATLAB)
Certains algorithmes sont immunisés contre les valeurs manquantes, donc la solution préférée est de les rechercher (par exemple les R
acf
pour l'autocorrélation).En général, la voie à suivre consiste soit à simplement éliminer les données avec des observations manquantes (cela peut être très douloureux), soit à imputer leurs valeurs - la moyenne des voisins peut être suffisante pour des séries lisses et de petits écarts, mais il y a bien sûr pléthore d'autres méthodes plus puissantes, utilisant des splines, des valeurs aléatoires / les plus fréquentes, l'imputation à partir de modèles, etc.
la source
Utilisez la détection d'intervention pour imputer les valeurs manquantes en exploitant la structure ARIMA utile et toutes les tendances temporelles locales et / ou les changements de niveau.
la source
il y a 2 problèmes ici. la première fournit un cadre numérique significatif pour votre réponse d'autocorrélation dans matlab. pour que cela se produise, vous devez étirer et / ou corriger la partie chronologique de vos vecteurs de données ... cette composante «intégrité des données» du problème est la plus fondamentale.
deuxièmement, vous devez décider comment gérer la composante «valeur» de votre vecteur ... cela dépend dans une large mesure de l'application particulière quant à ce qu'il y a de mieux à supposer (par exemple, de petits horodatages manquants et les NaN correspondants ou Nulls pourrait être interpolé en toute sécurité à partir de ses voisins ... dans des espaces plus grands, définir la valeur à zéro est probablement plus sûr ... ou imputer comme recommandé ci-dessus - évidemment pour que cela soit significatif, les écarts doivent à nouveau être relativement petits.) .
la source