C'est une question assez générique: supposons que je veuille construire un modèle pour prédire la prochaine observation sur la base des observations précédentes ( peut être un paramètre à optimiser expérimentalement). Nous avons donc essentiellement une fenêtre coulissante d'entités d'entrée pour prédire la prochaine observation.
Je peux utiliser une approche du modèle de Markov caché, c'est-à-dire Baum-Welch pour estimer un modèle, puis Viterbi pour prédire un état actuel sur la base des dernières observations, puis prédire l'état suivant le plus probable sur la base de l'état actuel, puis prédire le prochain observation en utilisant l'état suivant le plus probable et les paramètres HMM (ou des variantes telles que trouver la distribution prédictive de l'observation suivante).
Ou je peux utiliser une approche beaucoup plus simple, en utilisant un modèle sans état (qui peut obtenir en entrée les observations précédentes ), par exemple SVM, régression linéaire, splines, arbres de régression, voisins les plus proches, etc. Ces modèles sont basés sur la minimisation de certaines erreurs de prédiction sur l'ensemble de formation et sont donc, conceptuellement, beaucoup plus simple qu'un modèle basé sur un état caché.
Quelqu'un peut-il partager son expérience face à un tel choix de modélisation? Que dirait-on en faveur du HMM et qu'en faveur d'une approche de régression? Intuitivement, on devrait prendre le modèle le plus simple possible pour éviter un sur-ajustement; cela parle en faveur d'une approche sans état ... Nous devons également considérer que les deux approches obtiennent les mêmes données d'entrée pour la formation (je pense que cela implique que si nous n'intégrons pas de connaissances de domaine supplémentaires dans la modélisation d'un modèle d'état caché, par exemple fixer certains états et probabilités de transition, il n'y a aucune raison pour laquelle un modèle d'état caché devrait mieux fonctionner). À la fin, on peut bien sûr jouer avec les deux approches et voir ce qui fonctionne mieux sur un ensemble de validation, mais certaines heuristiques basées sur l'expérience pratique pourraient également être utiles ...
Remarque: pour moi, il est important de prévoir uniquement certains événements; Je préfère un modèle qui prédit bien peu d' événements "intéressants / rares" , plutôt qu'un modèle qui prédit des événements "moyens / fréquents" mais les plus intéressants ne sont pas aussi bons. Cela a peut-être une incidence sur le choix de la modélisation. Merci.
Réponses:
En bref, je pense qu'ils travaillent dans différents paradigmes d'apprentissage.
Le modèle de l'espace d'état (modèle d'état caché) et un autre modèle sans état que vous avez mentionné vont découvrir la relation sous-jacente de votre série temporelle dans différents paradigmes d'apprentissage: (1) estimation de la probabilité maximale, (2) inférence de Bayes, (3) empirique minimisation des risques.
Dans le modèle de l'espace d'état,
Soit comme état caché, comme observables, (supposons qu'il n'y ait pas de contrôle)xt yt t>0
Vous supposez la relation suivante pour le modèle:
et ne dépend que de .yt xt
Lorsque vous utilisez Baum-Welch pour estimer les paramètres, vous recherchez en fait une estimation de vraisemblance maximale du HMM. Si vous utilisez le filtre de Kalman, vous résolvez un cas particulier de problème de filtre bayésien (qui est en fait une application du théorème de Bayes à l'étape de mise à jour):
Étape de prédiction:
Étape de mise à jour:
Dans le filtre de Kalman, puisque nous supposons que la statistique du bruit est gaussienne et que la relation entre et est linéaire. Par conséquent, vous pouvez écrire et simplement comme (la moyenne + la variance est suffisante pour une distribution normale) et l'algorithme fonctionne comme des formules matricielles .P(xt|xt−1) P(yt|xt) P(xt|y1:t−1) P(xt|y1:t) xt
En revanche, pour d'autres modèles sans état, vous avez mentionné, comme SVM, les splines, les arbres de régression, les voisins les plus proches. Ils tentent de découvrir la relation sous-jacente de par minimisation empirique du risque.({y0,y1,...,yt−1},yt)
Pour une estimation du maximum de vraisemblance, vous devez d'abord paramétrer la distribution de probabilité sous-jacente (comme HMM, vous avez la matrice de transition, les observables sont pour certains )(μj,σj) j
Pour appliquer le théorème de Bayes, vous devez d'abord avoir "correct" a priori dans le sens où . Si , alors toute inférence se traduit par puisque .P(A) P(A)≠0 P(A)=0 0 P(A|B)=P(B|A)P(A)P(B)
Pour la minimisation du risque empirique, la cohérence universelle est garantie pour toute distribution de probabilité sous-jacente si la dimension VC de la règle d'apprentissage n'augmente pas trop rapidement car le nombre de données disponiblesn→∞
la source