Modèles d'état caché vs modèles sans état pour la régression des séries chronologiques

8

C'est une question assez générique: supposons que je veuille construire un modèle pour prédire la prochaine observation sur la base des observations précédentes ( peut être un paramètre à optimiser expérimentalement). Nous avons donc essentiellement une fenêtre coulissante d'entités d'entrée pour prédire la prochaine observation.NN

Je peux utiliser une approche du modèle de Markov caché, c'est-à-dire Baum-Welch pour estimer un modèle, puis Viterbi pour prédire un état actuel sur la base des dernières observations, puis prédire l'état suivant le plus probable sur la base de l'état actuel, puis prédire le prochain observation en utilisant l'état suivant le plus probable et les paramètres HMM (ou des variantes telles que trouver la distribution prédictive de l'observation suivante).N

Ou je peux utiliser une approche beaucoup plus simple, en utilisant un modèle sans état (qui peut obtenir en entrée les observations précédentes ), par exemple SVM, régression linéaire, splines, arbres de régression, voisins les plus proches, etc. Ces modèles sont basés sur la minimisation de certaines erreurs de prédiction sur l'ensemble de formation et sont donc, conceptuellement, beaucoup plus simple qu'un modèle basé sur un état caché.N

Quelqu'un peut-il partager son expérience face à un tel choix de modélisation? Que dirait-on en faveur du HMM et qu'en faveur d'une approche de régression? Intuitivement, on devrait prendre le modèle le plus simple possible pour éviter un sur-ajustement; cela parle en faveur d'une approche sans état ... Nous devons également considérer que les deux approches obtiennent les mêmes données d'entrée pour la formation (je pense que cela implique que si nous n'intégrons pas de connaissances de domaine supplémentaires dans la modélisation d'un modèle d'état caché, par exemple fixer certains états et probabilités de transition, il n'y a aucune raison pour laquelle un modèle d'état caché devrait mieux fonctionner). À la fin, on peut bien sûr jouer avec les deux approches et voir ce qui fonctionne mieux sur un ensemble de validation, mais certaines heuristiques basées sur l'expérience pratique pourraient également être utiles ...

Remarque: pour moi, il est important de prévoir uniquement certains événements; Je préfère un modèle qui prédit bien peu d' événements "intéressants / rares" , plutôt qu'un modèle qui prédit des événements "moyens / fréquents" mais les plus intéressants ne sont pas aussi bons. Cela a peut-être une incidence sur le choix de la modélisation. Merci.

Mannaggia
la source
Pouvez-vous expliquer pourquoi vous pensez que les modèles de régression sont nécessairement apatrides ? Les modèles de régression linéaire dynamique (dans lesquels les valeurs précédentes du prédictant sont incluses dans la partie droite de l'équation du modèle) semblent beaucoup conditionnés par l'état . Mais peut-être que je manque quelque chose.
Alexis
merci d'avoir lu la question. Je dirais que c'est un peu une question de sémantique, je donne également un exemple de modèles de régression qui incluent les valeurs d'observation n-passées sur le côté droit du modèle, un tel modèle est bien sûr dynamique. Cependant, je faisais plutôt référence au concept d'une variable cachée / latente pour laquelle généralement des techniques EM sont utilisées pour trouver le modèle vs les modèles pour lesquels nous n'avons pas de tels états cachés (c'est-à-dire que les états sont observables, ce sont les observations). D'un point de vue pratique et pragmatique, est-il possible de dire ce qui fonctionne mieux et quand?
Mannaggia
J'ai raté le fait que vous vous référiez aux valeurs passées de la prédiction en tant qu'entrées. la question est plus si nous observons l'état et le modélisons ou si nous inférons l'état à partir d'une hypothèse du modèle. Mais je m'intéresse plus à l'aspect pratique, pas mathématique. Est-il possible de dire dans quelles conditions l'une ou l'autre approche fonctionne mieux? (Je pense qu'aucun théorème ne peut répondre à cette question)
Mannaggia
1
Peut - être que cette question antérieure est la moitié de la question présentée ici.
Meadowlark Bradsher

Réponses:

1

En bref, je pense qu'ils travaillent dans différents paradigmes d'apprentissage.

Le modèle de l'espace d'état (modèle d'état caché) et un autre modèle sans état que vous avez mentionné vont découvrir la relation sous-jacente de votre série temporelle dans différents paradigmes d'apprentissage: (1) estimation de la probabilité maximale, (2) inférence de Bayes, (3) empirique minimisation des risques.

Dans le modèle de l'espace d'état,

Soit comme état caché, comme observables, (supposons qu'il n'y ait pas de contrôle)xtytt>0

Vous supposez la relation suivante pour le modèle:

P(x0) comme a priori

P(xt|xt1) pour comme comment votre état change (dans HMM, c'est une matrice de transition)t1

P(yt|xt) pour comme la façon dont vous observez (dans HMM, il pourrait s'agir de distributions normales conditionnées sur )t1xt

et ne dépend que de .ytxt

Lorsque vous utilisez Baum-Welch pour estimer les paramètres, vous recherchez en fait une estimation de vraisemblance maximale du HMM. Si vous utilisez le filtre de Kalman, vous résolvez un cas particulier de problème de filtre bayésien (qui est en fait une application du théorème de Bayes à l'étape de mise à jour):

Étape de prédiction:

P(xt|y1:t1)=P(xt|xt1)P(xt1|y1:t1)dxt1

Étape de mise à jour:

P(xt|y1:t)=P(yt|xt)P(xt|y1:t1)P(yt|xt)P(xt|y1:t1)dxt

Dans le filtre de Kalman, puisque nous supposons que la statistique du bruit est gaussienne et que la relation entre et est linéaire. Par conséquent, vous pouvez écrire et simplement comme (la moyenne + la variance est suffisante pour une distribution normale) et l'algorithme fonctionne comme des formules matricielles .P(xt|xt1)P(yt|xt)P(xt|y1:t1)P(xt|y1:t)xt

En revanche, pour d'autres modèles sans état, vous avez mentionné, comme SVM, les splines, les arbres de régression, les voisins les plus proches. Ils tentent de découvrir la relation sous-jacente de par minimisation empirique du risque.({y0,y1,...,yt1},yt)

Pour une estimation du maximum de vraisemblance, vous devez d'abord paramétrer la distribution de probabilité sous-jacente (comme HMM, vous avez la matrice de transition, les observables sont pour certains )(μj,σj)j

Pour appliquer le théorème de Bayes, vous devez d'abord avoir "correct" a priori dans le sens où . Si , alors toute inférence se traduit par puisque .P(A)P(A)0P(A)=00P(A|B)=P(B|A)P(A)P(B)

Pour la minimisation du risque empirique, la cohérence universelle est garantie pour toute distribution de probabilité sous-jacente si la dimension VC de la règle d'apprentissage n'augmente pas trop rapidement car le nombre de données disponiblesn

wonghang
la source