Je lis le document bayésien en ligne sur la détection des points de changement d'Adams et MacKay ( lien ).
Les auteurs commencent par écrire la distribution prédictive marginale: où
- est l'observation au temps ;
- désigne l'ensemble d'observation jusqu'au temps ;
- est la longueur d'exécution courante (le temps depuis le dernier point de changement, peut être 0); et
- est l'ensemble des observations associées à l'exécution .
Eq. 1 est formellement correct (voir la réponse ci-dessous de @JuhoKokkala), mais je crois comprendre que si vous voulez réellement faire une prédiction sur vous devez l'étendre comme suit:
Mon raisonnement est qu'il pourrait bien y avoir un point de changement au moment (futur) , mais le postérieur ne couvre que jusqu'à .P ( r t | x 1 : t ) t
Le fait est que les auteurs de l'article nous font de l'équation. 1 tel quel (voir équations 3 et 11 dans le document), et non 1b. Ainsi, ils ignorent apparemment la possibilité d'un point de changement au temps lors de la prédiction de partir des données disponibles au temps . Au début de la section 2, ils disent en passantx t + 1 t
Nous supposons que nous pouvons calculer la distribution prédictive [pour ] conditionnellement à une longueur d'exécution donnée . r t
qui est peut-être là où est l'astuce. Mais en général, cette distribution prédictive devrait ressembler à l'équation. 1b; ce qui n'est pas ce qu'ils font (Eq. 11).
Donc, je ne suis pas sûr de comprendre ce qui se passe. Peut-être qu'il y a quelque chose de drôle avec la notation.
Référence
- Adams, RP et MacKay, DJ (2007). Détection en ligne des points de changement bayésiens. arXiv preprint arXiv: 0710.3742.
Réponses:
(1) et (1b) sont corrects. L'OP a raison (dans ce modèle), il pourrait y avoir un point de changement à , et x t + 1 dépend de l'existence d'un point de changement. Cela n'implique aucun problème avec (1) car les valeurs possibles de r t + 1 sont entièrement "couvertes" par P ( x t + 1 ∣ r t , x 1 : t ) . P ( x t + 1 | r t , x 1 :t + 1 Xt + 1 rt + 1 P( xt + 1∣ rt, x1 : t) signifie la distribution conditionnelle de x t + 1 conditionnelle à. Cette distribution conditionnelle fait la moyenne de "tout le reste", y compris, conditionnelle à. Tout comme on pourrait écrire, disons,, qui prendrait en compte toutes les configurations possibles de points de changement ainsi que les valeurs des se produisant entreet.P( xt + 1| rt, x1 : t) Xt + 1 r t + 1 ( r t , x 1 : t ) P ( x t + 1000 | x t ) x i t t + 1000( rt, x1 : t) rt + 1 ( rt, x1 : t) P( xt + 1000| Xt) Xje t t + 1000
Dans le reste, je dérive d'abord (1) puis (1b) sur la base de (1).
Dérivation de (1)
Pour toute variable aléatoire , nous avons P ( A ∣ B ) = ∑ c P ( A ∣ B , C = c )A , B , C
tant que C est discret (sinon la somme doit être remplacée par une intégrale). Appliquer ceci à x t + 1 , x 1 : t , r t :
qui tient quelles quesoientles dépendances entre r t , x 1 : t , x t + 1 , c'est-à-dire qu'aucune hypothèse de modèle n'a encore été utilisée. Dans le modèle actuel, x t + 1 étant donné r t , x ( r ) t est supposé * être conditionnellement indépendant des valeurs de x des essais avant x ( r )
qui est (1) dans OP.
Dérivation de (1b)
Considérons la décomposition de sur les valeurs possibles de r t + 1 : P ( x t + 1 ∣ r t , x ( r ) t ) = ∑ r t + 1 P ( x t + 1 ∣ r t + 1 ,P( xt + 1∣ rt, x( r )t) rt + 1
* Remarque sur les hypothèses d'indépendance conditionnelle du modèle
la source