Détection en ligne des points de changement bayésiens (distribution prédictive marginale)

9

Je lis le document bayésien en ligne sur la détection des points de changement d'Adams et MacKay ( lien ).

Les auteurs commencent par écrire la distribution prédictive marginale: où

P(xt+1|x1:t)=rtP(xt+1|rt,xt(r))P(rt|x1:t)(1)
  • Xt est l'observation au temps ;t
  • X1:t désigne l'ensemble d'observation jusqu'au temps ;t
  • rtN est la longueur d'exécution courante (le temps depuis le dernier point de changement, peut être 0); et
  • Xt(r) est l'ensemble des observations associées à l'exécution .rt

Eq. 1 est formellement correct (voir la réponse ci-dessous de @JuhoKokkala), mais je crois comprendre que si vous voulez réellement faire une prédiction sur vous devez l'étendre comme suit:Xt+1

P(xt+1|x1:t)=rt,rt+1P(Xt+1|rt+1,Xt(r))P(rt|X1:t)P(rt+1|rt)(1b)

Mon raisonnement est qu'il pourrait bien y avoir un point de changement au moment (futur) , mais le postérieur ne couvre que jusqu'à .P ( r t | x 1 : t ) tt+1P(rt|X1:t)t

Le fait est que les auteurs de l'article nous font de l'équation. 1 tel quel (voir équations 3 et 11 dans le document), et non 1b. Ainsi, ils ignorent apparemment la possibilité d'un point de changement au temps lors de la prédiction de partir des données disponibles au temps . Au début de la section 2, ils disent en passantx t + 1 tt+1Xt+1t

Nous supposons que nous pouvons calculer la distribution prédictive [pour ] conditionnellement à une longueur d'exécution donnée . r tXt+1rt

qui est peut-être là où est l'astuce. Mais en général, cette distribution prédictive devrait ressembler à l'équation. 1b; ce qui n'est pas ce qu'ils font (Eq. 11).

Donc, je ne suis pas sûr de comprendre ce qui se passe. Peut-être qu'il y a quelque chose de drôle avec la notation.


Référence

  • Adams, RP et MacKay, DJ (2007). Détection en ligne des points de changement bayésiens. arXiv preprint arXiv: 0710.3742.
lacerbi
la source
Une explication potentielle est que représente la longueur de parcours à la fin du pas de temps , qui est après le point de changement au temps . Avec cela, Eq. 1 est logique. En fait, une initialisation de l'algorithme consiste à mettre qui suppose qu'il y a un point de changement juste avant le début à . Cependant, la figure 1 est erronée (ou au moins trompeuse) en ce que s'il y a un point de changement entre et , et entre et comme illustré sur la figure 1a, alors et t t P ( r 0 = 0 ) = 1 t = 1 t = 4 t = 5 t = 10 t = 11 r 4 r 10 r 5 r 11rtttP(r0=0)=1t=1t=4t=5t=dixt=11r4rdixdevrait être 0 selon cette notation, et non et comme sur la figure 1b. r5r11
lacerbi
1
Il se passe quelque chose d'étrange dans l'Eq. 3 comme facteur du milieu dans le sommet de la dernière ligne est alors que je pensais que contient . Je soupçonne que le et le ont changé de place car aurait du sens. Dans l'équ. 11, le côté droit semble dépendre de qui n'apparaît pas du tout du côté gauche, donc soit il y a quelque chose qui ne va pas ou je ne comprends pas du tout la notation. x ( r ) t x t t t - 1 P ( x tr t , x ( r ) t - 1 ) x ( r ) tP(Xtrt-1,Xt(r))Xt(r)Xttt-1P(Xtrt,Xt-1(r))Xt(r)
Juho Kokkala
@JuhoKokkala: Je suis content de ne pas être le seul à avoir ce sentiment ...
lacerbi
1
@lacerbi, j'ai une autre question à propos de ce document, et je pense que vous pourriez y répondre car vous semblez familier avec le travail: stats.stackexchange.com/questions/419988 .
gwg

Réponses:

5

(1) et (1b) sont corrects. L'OP a raison (dans ce modèle), il pourrait y avoir un point de changement à , et x t + 1 dépend de l'existence d'un point de changement. Cela n'implique aucun problème avec (1) car les valeurs possibles de r t + 1 sont entièrement "couvertes" par P ( x t + 1r t , x 1 : t ) . P ( x t + 1 | r t , x 1 :t+1Xt+1rt+1P(Xt+1rt,X1:t)signifie la distribution conditionnelle de x t + 1 conditionnelle à. Cette distribution conditionnelle fait la moyenne de "tout le reste", y compris, conditionnelle à. Tout comme on pourrait écrire, disons,, qui prendrait en compte toutes les configurations possibles de points de changement ainsi que les valeurs des se produisant entreet.P(Xt+1|rt,X1:t)Xt+1r t + 1 ( r t , x 1 : t ) P ( x t + 1000 | x t ) x i t t + 1000(rt,X1:t)rt+1(rt,X1:t)P(Xt+1000|Xt)Xjett+1000

Dans le reste, je dérive d'abord (1) puis (1b) sur la base de (1).

Dérivation de (1)

Pour toute variable aléatoire , nous avons P ( A B ) = c P ( A B , C = c )UNE,B,C tant que C est discret (sinon la somme doit être remplacée par une intégrale). Appliquer ceci à x t + 1 , x 1 : t , r t :

P(UNEB)=cP(UNEB,C=c)P(C=cB),
CXt+1,X1:t,rt

qui tient quelles quesoientles dépendances entre r t , x 1 : t , x t + 1 , c'est-à-dire qu'aucune hypothèse de modèle n'a encore été utilisée. Dans le modèle actuel, x t + 1 étant donné r t , x ( r ) t est supposé * être conditionnellement indépendant des valeurs de x des essais avant x ( r )

P(Xt+1X1:t)=rtP(Xt+1rt,X1:t)P(rtX1:t),
rtX1:tXt+1Xt+1rt,Xt(r)X . Cela impliqueP(xt+1rt,x1:t)=P(xt+1rt,x ( r ) t ). En substituant cela dans l'équation précédente, nous obtenonsXt(r)P(Xt+1rt,X1:t)=P(Xt+1rt,Xt(r))

qui est (1) dans OP.

P(Xt+1X1:t)=rtP(Xt+1rt,Xt(r))P(rtX1:t),(1)

Dérivation de (1b)

Considérons la décomposition de sur les valeurs possibles de r t + 1 : P ( x t + 1r t , x ( r ) t ) = r t + 1 P ( x t + 1r t + 1 ,P(Xt+1rt,Xt(r))rt+1

P(Xt+1rt,Xt(r))=rt+1P(Xt+1rt+1,rt,Xt(r))P(rt+1rt,Xt(r)).

t+1XtXt+1XP(rt+1rt,Xt(r))=P(rt+1rt)rt+1Xt+1XtP(Xt+1rt+1,rt,Xt(r))=P(Xt+1rt+1,Xt(r))

P(Xt+1rt,Xt(r))=rt+1P(Xt+1rt+1,Xt(r))P(rt+1rt).
P(Xt+1X1:t)=rt(rt+1P(Xt+1rt+1,Xt(r))P(rt+1rt))P(rtX1:t),(1b)

* Remarque sur les hypothèses d'indépendance conditionnelle du modèle

rX

Juho Kokkala
la source
1
rt+1rt+1
1
Oh. Il semble donc que j'ai mal compris la question - dois-je le supprimer? Vous voudrez peut-être clarifier la question, il semble actuellement que (1) soit en quelque sorte incorrect (au lieu de peut-être pas utile)
Juho Kokkala
Veuillez conserver cette réponse, qui est précieuse. Mon erreur que je n'étais pas assez clair dans mon message d'origine. J'ai essayé de clarifier ma question grâce à vos commentaires, et d'une manière qui donne encore du sens à cette réponse.
lacerbi