Critères de sélection du «meilleur» modèle dans un modèle de Markov caché

12

J'ai un ensemble de données de série chronologique auquel j'essaie d'adapter un modèle de Markov caché (HMM) afin d'estimer le nombre d'états latents dans les données. Mon pseudo-code pour ce faire est le suivant:

for( i in 2 : max_number_of_states ){ 
    ...
    calculate HMM with i states
    ...
    optimal_number_of_states = "model with smallest BIC"
    ...
}

Maintenant, dans les modèles de régression habituels, le BIC a tendance à favoriser les modèles les plus parcimonieux, mais dans le cas du HMM, je ne suis pas sûr que c'est ce qu'il fait. Quelqu'un sait-il réellement vers quel type de HMM le critère BIC tend? Je suis également en mesure d'obtenir l'AIC et la valeur de vraisemblance. Puisque j'essaie de déduire le nombre total réel d'États, l'un de ces critères est-il "meilleur" que l'autre à cette fin?

whuber
la source

Réponses:

11

Je suppose ici que votre variable de sortie est catégorique, bien que ce ne soit pas le cas. Cependant, lorsque j'ai vu des HMM utilisés, le nombre d'états est connu à l'avance plutôt que sélectionné via le réglage. Habituellement, ils correspondent à une variable bien comprise qui n'est pas observée. Mais cela ne signifie pas que vous ne pouvez pas l'expérimenter.

Cependant, le danger d'utiliser BIC (et AIC) est que la valeur k pour le nombre de paramètres libres dans le modèle augmente de façon quadratique avec le nombre d'états car vous avez la matrice de probabilité de transition avec les paramètres Px (P-1) (pour les états P ) et les probabilités de sortie pour chaque catégorie de sortie pour chaque état. Donc, si l'AIC et le BIC sont calculés correctement, le k devrait augmenter rapidement.

Si vous avez suffisamment de données, je recommanderais une méthode plus douce de réglage du nombre d'états, comme un test sur un échantillon non autorisé. Vous voudrez peut-être aussi simplement regarder la statistique de probabilité et voir visuellement à quel point il s'agit de plateaux. De plus, si vos données sont volumineuses, gardez à l'esprit que cela poussera le BIC vers un modèle plus petit.

Mike Nute
la source