Compréhension intuitive du théorème de Halmos-Savage

13

Le théorème de Halmos-Savage dit que pour un modèle statistique dominé (Ω,A,P) une statistique T:(Ω,A,P)(Ω,A) est suffisante si (et seulement si) pour tout {PP} il existe une version mesurable en T du dérivé de Radon Nikodym dPdPdPest une mesure privilégiéetelle sorte queP=i=1Picipourci>0,i=1ci=1etPiP.

J'ai essayé de comprendre intuitivement pourquoi le théorème est vrai mais je n'y suis pas parvenu, donc ma question est de savoir s'il existe un moyen intuitif de comprendre le théorème.

Sébastien
la source
Je pense avoir le bon lien ici. Veuillez le vérifier et le supprimer si j'ai fait une erreur.
gung - Réintégrer Monica
4
Peut-être aider le lecteur avec la terminologie, par exemple, définir les «modèles statistiques dominés», la « mesurabilité » et les «mesures privilégiées»T
Carl

Réponses:

7

Un lemme technique

Je ne sais pas à quel point cela est intuitif, mais le principal résultat technique sous-jacent à votre déclaration du théorème Halmos-Savage est le suivant:

Lemme. Soit μ une mesure σ -finie sur (S,A) . Supposons que est un ensemble de mesures sur (S,A) telles que pour chaque ν , νμ . Il existe alors une suite de nombres non négatifs {ci}i=1 et une suite d'éléments de , {νi}i=1tel que i=1ci=1 et νi=1ciνi pour chaque ν .

Ceci est repris textuellement du Théorème A.78 dans la Théorie des Statistiques de Schervish (1995) . Il l'attribue aux Lehmann's Testing Statistical Hypotheses (1986) ( lien vers la troisième édition ), où le résultat est attribué à Halmos et à Savage eux-mêmes (voir Lemme 7). Une autre bonne référence est la statistique mathématique de Shao (deuxième édition, 2003) , où les résultats pertinents sont le lemme 2.1 et le théorème 2.2.

Le lemme ci-dessus indique que si vous commencez avec une famille de mesures dominées par une mesure σ -finie, vous pouvez en fait remplacer la mesure dominante par une combinaison convexe dénombrable de mesures de la famille. Schervish écrit avant d'énoncer le théorème A.78,

"Dans les applications statistiques, nous aurons souvent une classe de mesures, dont chacune est absolument continue par rapport à une seule mesure σ -finie. Ce serait bien si la seule mesure dominante était dans la classe d'origine ou pouvait être construite à partir de la Le théorème suivant résout ce problème. "

Un exemple concret

Supposons que nous prenions une mesure d'une quantité X que nous croyons répartie uniformément sur l'intervalle [0,θ] pour certains inconnus θ>0 . Dans ce problème statistique, nous considérons implicitement l'ensemble P des mesures de probabilité de Borel sur R composé des distributions uniformes à tous les intervalles de la forme [0,θ] . Autrement dit, si λ désigne la mesure de Lebesgue et, pour θ>0 , Pθ désigne l' Uniform([0,θ]) distribution (c'est-à-dire

Pθ(A)=1θλ(A[0,θ])=A1θ1[0,θ](x)dx
pour chaque BorelAR ), alors nous avons simplement
P={Pθ:θ>0}.
Ceci est l'ensemble des distributions de candidats pour notre mesureX .

La famille P est clairement dominée par la mesure de Lebesgue λ (qui est σ -finie), donc le lemme ci-dessus (avec =P ) garantit l'existence d'une séquence {ci}i=1 de nombres non négatifs sommant à 1 et a séquence {Qi}i=1 de distributions uniformes dans P telles que

Pθi=1ciQi
pour chaque θ>0 . Dans cet exemple, nous pouvons construire de telles séquences de manière explicite!

D'abord, soit (θi)i=1 une énumération des nombres rationnels positifs ( cela peut être fait explicitement ), et soit Qi=Pθi pour chaque i . Soit ensuite ci=2i , de sorte que i=1ci=1 . Je prétends que cette combinaison de {ci}i=1 et {Qi}i=1 fonctionne.

Pour le voir, fixons θ>0 et soit A un sous-ensemble borel de R tel que i=1ciQi(A)=0 . Nous devons montrer que Pθ(A)=0 . Puisque i=1ciQi(A)=0 et que chaque somme n'est pas négative, il s'ensuit que ciQi(A)=0 pour chaquei . De plus, comme chaqueci est positif, il s'ensuit queQi(A)=0 pour chaquei . Autrement dit, pour touti nous avons

Qi(A)=Pθi(A)=1θiλ(A[0,θi])=0.
Puisque chaqueθiest positif, il s'ensuit queλ(A[0,θi])=0pour chaquei.

Maintenant, choisissez une sous-séquence {θik}k=1 de {θi}i=1 qui converge vers θ par le haut (cela peut être fait puisque Q est dense dans R ). Alors A[0,θθik]A[0,θ] comme k , donc par continuité de mesure nous concluons que

λ(A[0,θ])=limkλ(A[0,θik])=0,
et doncPθ(A)=0 . Cela prouve la demande.

Ainsi, dans cet exemple, nous avons pu construire explicitement une combinaison convexe dénombrable de mesures de probabilité à partir de notre famille dominée qui domine toujours la famille entière. Le lemme ci-dessus garantit que cela peut être fait pour n'importe quelle famille dominée (au moins tant que la mesure dominante est σ -finie).

Le théorème de Halmos-Savage

Passons maintenant au théorème de Halmos-Savage (pour lequel j'utiliserai une notation légèrement différente de celle de la question en raison de préférences personnelles). Étant donné le théorème de Halmos-Savage, le théorème de factorisation de Fisher-Neyman n'est qu'une application du lemme de Doob-Dynkin et de la règle de chaîne pour les dérivés de Radon-Nikodym!

Théorème de Halmos-Savage. Soit (X,B,P) un modèle statistique dominé (ce qui signifie que P est un ensemble de mesures de probabilité sur B et qu'il existe une mesure σ -finie μ sur B telle que Pμ pour tout PP ). Soit T:(X,B)(T,C) une fonction mesurable, où (T,C)est un espace Borel standard. Les éléments suivants sont alors équivalents:

  1. T est suffisant pourP (ce qui signifie qu'il existe un noyau de probabilitér:B×T[0,1] tel quer(B,T) est une version deP(BT) pour toutBB etPP ).
  2. Il existe une séquence {ci}i=1 de nombres non négatifs tels que i=1ci=1 et une séquence {Pi}i=1 de mesures de probabilité dans P telles que PP pour tous PP , où P=i=1ciPi, et pour chaque PP il existe une version T mesurable de dP/dP .

Preuve. Par le lemme ci-dessus, nous pouvons immédiatement remplacer μ par P=i=1ciPi pour une séquence {ci}i=1 de nombres non négatifs tels que i=1ci=1 et a séquence {Pi}i=1 de mesures de probabilité de P .

(1. implique 2.) Supposons que T soit suffisant. Ensuite , nous devons montrer qu'il ya des T versions -mesurables de dP/dP pour tout PP . Soit r le noyau de probabilité dans l'énoncé du théorème. Pour chaque Aσ(T) et BB nous avons

P(AB)=i=1ciPi(AB)=i=1ciAPi(BT)dPi=i=1ciAr(B,T)dPi=Ar(B,T)dP.
Ainsir(B,T)est une version deP(BT)pour toutBB.

Pour chaque PP , soit fP une version de la dérivée de Radon-Nikodym dP/dP sur l'espace mesurable (X,σ(T)) (donc en particulier fP est T -mesurable). Alors pour tout BB et PP on a

P(B)=XP(BT)dP=Xr(B,T)dP=Xr(B,T)fPdP=XP(BT)fPdP=XEP[1BfPT]dP=BfPdP.
Ainsi, en fait,fPest uneversion mesurable enTdedP/dPsur(X,B). Cela prouve que la première condition du théorème implique la seconde.

(2. implique 1.) Supposons que l' on peut choisir une T Version -mesurables fP de dP/dP pour chaque PP . Pour chaque BB , soit r(B,t) une version particulière de P(BT=t) (par exemple, r(B,t) est une fonction telle que r(B,T) est une version deP(BT) ). Puisque(T,C) est un espace Borel standard, nous pouvons choisirr d'une manière qui en fait un noyau de probabilité (voir, par exemple, le théorème B.32 dansTheory of Statistics deSchervish(1995)). Nous allons montrer quer(B,T) est une version deP(BT) pour toutPP et toutBB . Soit doncAσ(T) etBB soient donnés. Alors pour toutPP on a

P(AB)=A1BfPdP=AEP[1BfPT]dP=AP(BT)fPdP=Ar(B,T)fPdP=Ar(B,T)dP.
Cela montre quer(B,T)est une version deP(BT)pour toutPPet toutBB, et la preuve est faite.

Sommaire. Le résultat technique important qui sous-tend le théorème de Halmos-Savage tel que présenté ici est le fait qu'une famille dominée de mesures de probabilité est en réalité dominée par une combinaison convexe dénombrable de mesures de probabilité de cette famille. Compte tenu de ce résultat, le reste du théorème de Halmos-Savage n'est principalement que des manipulations avec les propriétés de base des dérivés de Radon-Nikodym et les attentes conditionnelles.

Artem Mavrin
la source