Le théorème de Halmos-Savage dit que pour un modèle statistique dominé une statistique est suffisante si (et seulement si) pour tout il existe une version mesurable en du dérivé de Radon Nikodym oùest une mesure privilégiéetelle sorte quepouret.
J'ai essayé de comprendre intuitivement pourquoi le théorème est vrai mais je n'y suis pas parvenu, donc ma question est de savoir s'il existe un moyen intuitif de comprendre le théorème.
Réponses:
Un lemme technique
Je ne sais pas à quel point cela est intuitif, mais le principal résultat technique sous-jacent à votre déclaration du théorème Halmos-Savage est le suivant:
Ceci est repris textuellement du Théorème A.78 dans la Théorie des Statistiques de Schervish (1995) . Il l'attribue aux Lehmann's Testing Statistical Hypotheses (1986) ( lien vers la troisième édition ), où le résultat est attribué à Halmos et à Savage eux-mêmes (voir Lemme 7). Une autre bonne référence est la statistique mathématique de Shao (deuxième édition, 2003) , où les résultats pertinents sont le lemme 2.1 et le théorème 2.2.
Le lemme ci-dessus indique que si vous commencez avec une famille de mesures dominées par une mesureσ -finie, vous pouvez en fait remplacer la mesure dominante par une combinaison convexe dénombrable de mesures de la famille. Schervish écrit avant d'énoncer le théorème A.78,
Un exemple concret
Supposons que nous prenions une mesure d'une quantitéX que nous croyons répartie uniformément sur l'intervalle [ 0 , θ ] pour certains inconnus θ > 0 . Dans ce problème statistique, nous considérons implicitement l'ensemble P des mesures de probabilité de Borel sur R composé des distributions uniformes à tous les intervalles de la forme [ 0 , θ ] . Autrement dit, si λ désigne la mesure de Lebesgue et, pour θ > 0 , Pθ désigne l' Uniforme( [ 0 , θ ] ) distribution (c'est-à-dire
Pθ(A)=1θλ(A∩[0,θ])=∫A1θ1[0,θ](x)dx
pour chaque BorelA⊆R ), alors nous avons simplement
P={Pθ:θ>0}.
Ceci est l'ensemble des distributions de candidats pour notre mesureX .
La familleP est clairement dominée par la mesure de Lebesgue λ (qui est σ -finie), donc le lemme ci-dessus (avec ℵ=P ) garantit l'existence d'une séquence {ci}∞i=1 de nombres non négatifs sommant à 1 et a séquence {Qi}∞i=1 de distributions uniformes dans P telles que
Pθ≪∑i=1∞ciQi
pour chaque θ>0 . Dans cet exemple, nous pouvons construire de telles séquences de manière explicite!
D'abord, soit(θi)∞i=1 une énumération des nombres rationnels positifs ( cela peut être fait explicitement ), et soit Qi=Pθi pour chaque i . Soit ensuite ci=2−i , de sorte que ∑∞i=1ci=1 . Je prétends que cette combinaison de {ci}∞i=1 et {Qi}∞i=1 fonctionne.
Pour le voir, fixonsθ>0 et soit A un sous-ensemble borel de R tel que ∑∞i=1ciQi(A)=0 . Nous devons montrer que Pθ(A)=0 . Puisque ∑∞i=1ciQi(A)=0 et que chaque somme n'est pas négative, il s'ensuit que ciQi(A)=0 pour chaquei . De plus, comme chaqueci est positif, il s'ensuit queQi(A)=0 pour chaquei . Autrement dit, pour touti nous avons
Qi(A)=Pθi(A)=1θiλ(A∩[0,θi])=0.
Puisque chaqueθi est positif, il s'ensuit queλ(A∩[0,θi])=0 pour chaquei .
Maintenant, choisissez une sous-séquence{θik}∞k=1 de {θi}∞i=1 qui converge vers θ par le haut (cela peut être fait puisque Q est dense dans R ). Alors A∩[0,θθik]↓A∩[0,θ] comme k→∞ , donc par continuité de mesure nous concluons que
λ(A∩[0,θ])=limk→∞λ(A∩[0,θik])=0,
et doncPθ(A)=0 . Cela prouve la demande.
Ainsi, dans cet exemple, nous avons pu construire explicitement une combinaison convexe dénombrable de mesures de probabilité à partir de notre famille dominée qui domine toujours la famille entière. Le lemme ci-dessus garantit que cela peut être fait pour n'importe quelle famille dominée (au moins tant que la mesure dominante estσ -finie).
Le théorème de Halmos-Savage
Passons maintenant au théorème de Halmos-Savage (pour lequel j'utiliserai une notation légèrement différente de celle de la question en raison de préférences personnelles). Étant donné le théorème de Halmos-Savage, le théorème de factorisation de Fisher-Neyman n'est qu'une application du lemme de Doob-Dynkin et de la règle de chaîne pour les dérivés de Radon-Nikodym!
Preuve. Par le lemme ci-dessus, nous pouvons immédiatement remplacerμ par P∗=∑∞i=1ciPi pour une séquence {ci}∞i=1 de nombres non négatifs tels que ∑∞i=1ci=1 et a séquence {Pi}∞i=1 de mesures de probabilité de P .
(1. implique 2.) Supposons queT soit suffisant. Ensuite , nous devons montrer qu'il ya des T versions -mesurables de dP/dP∗ pour tout P∈P . Soit r le noyau de probabilité dans l'énoncé du théorème. Pour chaque A∈σ(T) et B∈B nous avons
P∗(A∩B)=∑i=1∞ciPi(A∩B)=∑i=1∞ci∫APi(B∣T)dPi=∑i=1∞ci∫Ar(B,T)dPi=∫Ar(B,T)dP∗.
Ainsir(B,T) est une version deP∗(B∣T) pour toutB∈B .
Pour chaqueP∈P , soit fP une version de la dérivée de Radon-Nikodym dP/dP∗ sur l'espace mesurable (X,σ(T)) (donc en particulier fP est T -mesurable). Alors pour tout B∈B et P∈P on a
P(B)=∫XP(B∣T)dP=∫Xr(B,T)dP=∫Xr(B,T)fPdP∗=∫XP∗(B∣T)fPdP∗=∫XEP∗[1BfP∣T]dP∗=∫BfPdP∗.
Ainsi, en fait,fP est uneversion mesurable enT dedP/dP∗ sur(X,B) . Cela prouve que la première condition du théorème implique la seconde.
(2. implique 1.) Supposons que l' on peut choisir uneT Version -mesurables fP de dP/dP∗ pour chaque P∈P . Pour chaque B∈B , soit r(B,t) une version particulière de P∗(B∣T=t) (par exemple, r(B,t) est une fonction telle que r(B,T) est une version deP∗(B∣T) ). Puisque(T,C) est un espace Borel standard, nous pouvons choisirr d'une manière qui en fait un noyau de probabilité (voir, par exemple, le théorème B.32 dansTheory of Statistics deSchervish(1995)). Nous allons montrer quer(B,T) est une version deP(B∣T) pour toutP∈P et toutB∈B . Soit doncA∈σ(T) etB∈B soient donnés. Alors pour toutP∈P on a
P(A∩B)=∫A1BfPdP∗=∫AEP∗[1BfP∣T]dP∗=∫AP∗(B∣T)fPdP∗=∫Ar(B,T)fPdP∗=∫Ar(B,T)dP.
Cela montre quer(B,T) est une version deP(B∣T) pour toutP∈P et toutB∈B , et la preuve est faite.
la source