Famille exponentielle: statistiques suffisantes observées et attendues

10

Ma question découle de la lecture de la lecture de «L'estimation d'une distribution de Dirichlet» de Minka , qui énonce ce qui suit sans preuve dans le contexte de la dérivation d'un estimateur du maximum de vraisemblance pour une distribution de Dirichlet basée sur des observations de vecteurs aléatoires:

Comme toujours avec la famille exponentielle, lorsque le gradient est nul, les statistiques suffisantes attendues sont égales aux statistiques suffisantes observées.

Je n'ai pas vu d'estimation du maximum de vraisemblance dans la famille exponentielle présentée de cette façon, et je n'ai trouvé aucune explication appropriée dans ma recherche. Quelqu'un peut-il donner un aperçu de la relation entre les statistiques suffisantes observées et attendues et peut-être aider à comprendre l'estimation du maximum de vraisemblance comme minimisant leur différence?

Ben Bray
la source

Réponses:

11

C'est une affirmation habituelle sur la famille exponentielle, mais à mon avis, la plupart du temps, elle est énoncée d'une manière qui peut dérouter le lecteur moins expérimenté. Parce que, pris à leur valeur nominale, il pourrait être interprété comme disant "si notre variable aléatoire suit une distribution dans la famille exponentielle, alors si nous prenons un échantillon et l'insérons dans la statistique suffisante, nous obtiendrons la vraie valeur attendue de la statistique ". Si seulement il en était ainsi ... De plus, il ne prend pas en compte la taille de l'échantillon, ce qui peut créer encore plus de confusion.

La fonction de densité exponentielle est

(1)fX(x)=h(x)eη(θ)T(x)eA(θ)

où est la statistique suffisante.T(x)

Puisque c'est une densité, elle doit s'intégrer à l'unité, donc ( est le support de ) XSxX

(2)Sxh(x)eη(θ)T(x)eA(θ)dx=1

Eq. est valable pour tous les afin que nous puissions différencier les deux côtés par rapport à lui:θ(2)θ

(3)θSxh(x)eη(θ)T(x)eA(θ)dx=(1)θ=0

En échangeant l'ordre de différenciation et d'intégration, on obtient

(4)Sxθ(h(x)eη(θ)T(x)eA(θ))dx=0

Effectuer la différenciation que nous avons

(5)θ(h(x)eη(θ)T(x)eA(θ))=fX(x)[T(x)η(θ)A(θ)]

En insérant dans on obtient(5)(4)

SxfX(x)[T(x)η(θ)A(θ)]dx=0

(6)η(θ)E[T(X)]A(θ)=0E[T(X)]=A(θ)η(θ)

Maintenant, nous demandons: le côté gauche de est un nombre réel. Ainsi, le côté droit doit également être un nombre réel et non une fonction . Par conséquent, il doit être évalué à un spécifique , et ce devrait être le "vrai" , sinon dans le côté gauche, nous n'aurions pas la vraie valeur attendue de . Pour souligner cela, nous notons la vraie valeur par , et nous réécrivons comme(6)θθT(X)θ0(6)

(6a)Eθ0[T(X)]=A(θ)η(θ)|θ=θ0

Nous passons maintenant à l' estimation du maximum de vraisemblance . La log-vraisemblance pour un échantillon de taille estn

L(θx)=i=1nlnh(xi)+η(θ)i=1nT(xi)nA(θ)

En fixant sa dérivée par rapport à égale à nous obtenons le MLEθ0

(7)θ^(x):1ni=1nT(xi)=A(θ)η(θ)|θ=θ^(x)

Comparez avec . Les côtés droits ne sont pas égaux, car nous ne pouvons pas affirmer que l'estimateur MLE a atteint la vraie valeur. Il en va de même pour la gauche. Mais rappelez-vous que l'éq. vaut pour tous les et donc pour également. Ainsi, les étapes de l'éq. peut être pris par rapport à et nous pouvons donc écrire eq. pour :( 6 a ) 2 θ θ 3 , 4 , 5 , 6 θ 6 a θ(7)(6a)2 θθ^3,4,5,6θ^6aθ^

(6b)Eθ^(x)[T(X)]=A(θ)η(θ)|θ=θ^(x)

ce qui, combiné avec , nous conduit à la relation valide(7)

Eθ^(x)[T(X)]=1ni=1nT(xi)

c'est ce que dit réellement l'assertion à l'examen: la valeur attendue de la statistique suffisante sous le MLE pour les paramètres inconnus (en d'autres termes, la valeur du premier moment brut de la distribution que nous obtiendrons si nous utilisons à la place de ), est égal (et il n'est pas simplement approximé par) la moyenne de la statistique suffisante calculée à partir de l'échantillon . θ^(x)θx

De plus, seulement si la taille de l'échantillon est alors nous pourrions dire avec précision que "la valeur attendue de la statistique suffisante sous le MLE est égale à la statistique suffisante".n=1

Alecos Papadopoulos
la source
Pourriez-vous nous expliquer pourquoi la transition du 6a au 6b est valide, s'il vous plaît?
Theoden
1
@Theoden Entre les éq. et J'écris "l'équation est valable pour tous les " - et donc pour également. Donc, toutes les étapes de l'éq. peut être pris par rapport à . J'ai répété cette remarque dans le texte pour plus de clarté. ( 3 ) ( 2 ) θ θ 3 , 4 , 5 , 6 θ(2)(3)(2) θθ^3,4,5,6θ^
Alecos Papadopoulos
@AlecosPapadopoulos votre preuve ci-dessous semble suggérer que ce que vous dites au début - "si notre variable aléatoire suit une distribution dans la famille exponentielle, alors si nous prenons un échantillon et l'insérons dans la statistique suffisante, nous obtiendrons la vraie valeur attendue de la statistique "est vrai. Je veux dire que je peux toujours le faire pour (2), en le remplaçant par une statistique suffisante observée et obtenir le résultat. Qu'est-ce que j'oublie ici? Je ne comprends pas très bien.
user10024395
@ user136266 La vraie valeur attendue de la statistique est , et pour être calculée, il faut connaître le paramètre , par conception inconnue . Donc, ce que nous pouvons réellement calculer est qui est la valeur attendue de la statistique sous l'hypothèse que notre estimation ponctuelle a atteint la vraie valeur . θ 6 b6aθ6b
Alecos Papadopoulos
1
Pourriez-vous expliquer pourquoi nous pouvons échanger l'ordre de différenciation et d'intégration dans l'eq. (3) s'il vous plaît?
Markus777