Je voudrais utiliser un modèle de régression logistique binaire dans le contexte des données en streaming (séries temporelles multidimensionnelles) afin de prédire la valeur de la variable dépendante des données (ie ligne) qui vient d'arriver, compte tenu des observations passées. Pour autant que je sache, la régression logistique est traditionnellement utilisée pour l'analyse post-mortem, où chaque variable dépendante a déjà été fixée (soit par inspection, soit par la nature de l'étude).
Que se passe-t-il dans le cas des séries chronologiques, où nous voulons faire des prédictions (à la volée) sur la variable dépendante en termes de données historiques (par exemple dans une fenêtre temporelle des dernières secondes) et, bien sûr, la précédente estimations de la variable dépendante?
Et si vous voyez le système ci-dessus au fil du temps, comment devrait-il être construit pour que la régression fonctionne? Faut-il d'abord l'entraîner en étiquetant, disons, les 50 premières lignes de nos données (c'est-à-dire en fixant la variable dépendante à 0 ou 1), puis utiliser l'estimation actuelle du vecteur pour estimer la nouvelle probabilité de la variable dépendante étant 0 ou 1 pour les données qui viennent d'arriver (c'est-à-dire la nouvelle ligne qui vient d'être ajoutée au système)?
Pour clarifier mon problème, j'essaie de construire un système qui analyse un ensemble de données ligne par ligne et essaie de faire la prédiction d'un résultat binaire (variable dépendante), étant donné la connaissance (observation ou estimation) de toutes les dépendances ou explications précédentes variables qui sont arrivées dans une fenêtre de temps fixe. Mon système est dans Rerl et utilise R pour l'inférence.
la source
Réponses:
Il y a deux méthodes à considérer:
Utilisez uniquement les N derniers échantillons d'entrée. En supposant que votre signal d'entrée est de dimension D, alors vous avez N * D échantillons par étiquette de vérité au sol. De cette façon, vous pouvez vous entraîner en utilisant n'importe quel classificateur que vous aimez, y compris la régression logistique. De cette façon, chaque sortie est considérée comme indépendante de toutes les autres sorties.
Utilisez les N derniers échantillons d'entrée et les N dernières sorties que vous avez générées. Le problème est alors similaire au décodage viterbi . Vous pouvez générer un score non binaire basé sur les échantillons d'entrée et combiner le score de plusieurs échantillons à l'aide d'un décodeur viterbi. C'est mieux que la méthode 1. si vous avez maintenant quelque chose sur la relation temporelle entre les sorties.
la source