J'ai une matrice de comptage de transitions empirique Q. J'ai une chaîne de Markov théorique de premier ordre P. Dites N est le nombre de transitions. Je voudrais tester si Q est compatible avec P. Est-il correct de trouver la matrice de transition de comptage théorique (N * P) calculant les statistiques du chi carré,, puis calculer la valeur de p d'un distribution avec degrés de liberté?
hypothesis-testing
chi-squared
markov-process
Giorgio Spedicato
la source
la source
Réponses:
En supposant que vos matrices sont quelque chose comme
Je ne suis pas sûr que vous puissiez regrouper toutes les lignes ensemble, car le "nombre d'essais" variera entre les lignes.
Par exemple, dites et vos données sont . Il y a donc transitions, avec venant de , mais de et seulement et de . Je pense donc que votre confiance dans devrait généralement être plus élevée que votre confiance dans .K=3 x=[1,1,2,1,2,3,1,2] N=7 n1=4 x=1 n2=2 x=2 n3=1 x=3 p^1 p^3
(Dans le cas extrême, peut-être que pour cet exemple, était en fait , mais vous n'avez aucune donnée sur ces transitions, car Le traitement de "l'absence de preuves comme des preuves d'absence" me semble problématique ici.)K 4 n4=0
Je ne suis pas très familier avec les tests du chi carré, mais cela suggère que vous voudrez peut-être traiter les lignes indépendamment (c'est-à-dire additionner uniquement sur et utiliser plutôt que ). Ce raisonnement ne semble pas spécifique au test du chi carré, donc devrait également s'appliquer à tout autre test de signification que vous pourriez utiliser (par exemple multinomial exact ).j ni N
Le problème clé est que les probabilités de transition sont conditionnelles , donc pour chaque entrée de matrice, seules les transitions qui satisfont à sa condition préalable sont pertinentes. En effet, on suppose que la matrice de transition satisfera , donc la "matrice de transition empirique" devrait être .∑jPij=1 P^ij=Qij/ni
Mise à jour: En réponse à la requête de l'OP, une clarification sur les "paramètres de test".
S'il y a états dans la chaîne de Markov, c'est-à-dire , alors pour la ligne , la distribution multinomiale correspondante aura le vecteur de probabilité et nombre d'essais , donnés ci-dessus.K P∈RK×K i pi∈RK ni∈N
Il y aura donc catégories, et le vecteur de probabilité aura degrés de liberté, comme . Donc, pour la ligne la statistique correspondante serait qui sera asymptotiquement suivre un chi carré distribué avec degrés de liberté (comme indiqué ici et ici ). Voir également ici pour une discussion sur le moment où le est approprié, et des tests alternatifs qui peuvent être plus appropriés.K pi K−1 ∑Kj=1(pi)j=1 i χ2
Il peut être possible de faire un "test ", en supposant que suit une distribution chi au carré avec dof (c'est-à-dire la somme des dofs sur les lignes). Cependant, je ne suis pas certain que le puisse être traité comme indépendant. Dans tous les cas, les tests en ligne semblent être plus informatifs, ils peuvent donc être préférables à un test en bloc.χ2P=∑iχ2i K(K−1) χ2i
la source