Comment faire une estimation, lorsque seules des statistiques sommaires sont disponibles?

17

Ceci est en partie motivé par la question suivante et la discussion qui suit.

Supposons que l'échantillon iid soit observé, XiF(x,θ) . Le but est d'estimer θ . Mais l'échantillon d'origine n'est pas disponible. Ce que nous avons à la place, ce sont quelques statistiques de l'échantillon . Supposons que soit fixe. Comment estimons-nous ? Quel serait l'estimateur du maximum de vraisemblance dans ce cas?T1,...,Tkkθ

mpiktas
la source
1
Si Ti=f(Xi) pour une fonction connue f alors vous pouvez noter la distribution de et l'estimateur du maximum de vraisemblance est dérivé de la manière habituelle. Mais vous n'avez pas précisé ce que sont les ? TiTi
Stéphane Laurent
3
Je m'intéresse au cas où pour connu . C'est ce que je voulais dire quand j'ai dit que sont des exemples de statistiques. Ti=f(X1,...,Xn)fTi
mpiktas
Quelle est donc la différence entre et ? TiTj
Stéphane Laurent
2
Désolé, cela aurait dû être , pas un . Nous avons plusieurs fonctions , qui prennent comme argument un échantillon entier. f f ififfi
mpiktas
N'est-ce pas pour cela que l'entropie maximale a été conçue?
probabilityislogic

Réponses:

14

Dans ce cas, vous pouvez considérer une approximation ABC de la probabilité (et par conséquent du MLE ) sous l'hypothèse / restriction suivante:

Supposition. La taille d'échantillon d'origine est connue.n

Ce n'est pas une hypothèse folle étant donné que la qualité, en termes de convergence, des estimateurs fréquentistes dépend de la taille de l'échantillon, donc on ne peut pas obtenir des estimateurs arbitrairement bons sans connaître la taille de l'échantillon d'origine.

L'idée est de générer un échantillon à partir de la distribution postérieure de et, afin de produire une approximation du MLE , vous pouvez utiliser une technique d'échantillonnage d'importance comme dans [1] ou considérer un a priori uniforme sur θ avec un support sur un réglé comme dans [2] .θθ

Je vais décrire la méthode dans [2]. Tout d'abord, permettez-moi de décrire l'échantillonneur ABC.

Échantillonneur ABC

Soit le modèle qui génère l'échantillon où θ Θ est un paramètre (à estimer), T une statistique (fonction de l'échantillon) et T 0 la statistique observée, dans le jargon ABC c'est ce qu'on appelle une statistique récapitulative , ρ être une métrique, π ( θ ) une distribution a priori sur θ et ϵ > 0 une tolérance. Ensuite, l'échantillonneur de rejet ABC peut être implémenté comme suit.f(|θ)θΘTT0ρπ(θ)θϵ>0

  1. Échantillon de π ( ) .θπ()
  2. Générez un échantillon de taille n à partir du modèle f ( | θ ) .xnf(|θ)
  3. Calculez .T=T(x)
  4. Si , acceptez θ comme simulation à partir de la partie postérieure de θ .ρ(T,T0)<ϵθθ

Cet algorithme génère un échantillon approximatif à partir de la distribution postérieure de étant donné T ( x ) = T 0 . Par conséquent, le meilleur scénario est lorsque la statistique T est suffisante mais que d'autres statistiques peuvent être utilisées. Pour une description plus détaillée de ceci, voir cet article .θT(x)=T0T

Maintenant, dans un cadre général, si l'on utilise un a priori uniforme qui contient le MLE dans son support, le Maximum a posteriori (MAP) coïncide avec l'estimateur du maximum de vraisemblance (MLE). Par conséquent, si vous considérez un uniforme approprié avant dans l'échantillonneur ABC, vous pouvez générer un échantillon approximatif d'une distribution postérieure dont la MAP coïncide avec le MLE. L'étape restante consiste à estimer ce mode. Ce problème a été discuté dans CV, par exemple dans "Estimation efficace du mode multivarié par calcul" .

Un exemple de jouet

Laissez soit un échantillon d'un N ( μ , 1 ) et supposons que la seule information disponible à partir de cet échantillon est ˉ x = 1(x1,...,xn)N(μ,1). Soitρla métrique euclidienne dansRetϵ=0,001. Le code R suivant montre comment obtenir une MLE approximative en utilisant les méthodes décrites ci-dessus en utilisant un échantillon simulé avecn=100etμ=0, un échantillon de la distribution postérieure de taille1000, un a priori uniforme pourμon(-0,3,0,3), et un estimateur de densité de noyau pour l'estimation du mode de l'échantillon postérieur (MAP = MLE).x¯=1nj=1nxjρRϵ=0.001n=100μ=01000μ(0.3,0.3)

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

Comme vous pouvez le voir, en utilisant une petite tolérance, nous obtenons une très bonne approximation du MLE (qui dans cet exemple trivial peut être calculé à partir de la statistique étant donné qu'elle est suffisante). Il est important de noter que le choix de la statistique récapitulative est crucial. Les quantiles sont généralement un bon choix pour la statistique récapitulative, mais tous les choix ne produisent pas une bonne approximation. Il se peut que la statistique récapitulative ne soit pas très informative et que la qualité de l'approximation soit alors médiocre, ce qui est bien connu dans la communauté ABC.

Mise à jour: Une approche similaire a récemment été publiée dans Fan et al. (2012) . Voir cette entrée pour une discussion sur le document.

Communauté
la source
2
(+1) Pour indiquer le résultat correct concernant la relation entre MLE et MAP et pour l'avertissement dans le dernier paragraphe (entre autres raisons). Pour rendre cet avertissement plus explicite, cette approche (ou n'importe quelle autre!) Échouera lamentablement si les statistiques disponibles sont accessoires ou presque. On peut considérer votre exemple de jouet et , par exemple. T=i(XiX¯)2
Cardinal
1
+1 @procrastinator J'allais simplement dire oui, vous pouvez utiliser les statistiques suffisantes si elles sont disponibles pour votre modèle. Mais vos réponses détaillées semblent avoir couvert cela.
Michael R. Chernick
Une question simple, vous mentionnez que l'uniforme préalable doit contenir MLE dans son support. Mais MLE est une variable aléatoire qui n'est bornée que de façon stochastique, c'est-à-dire qu'elle peut être en dehors de tout ensemble borné avec une probabilité positive.
mpiktas
1
@mpiktas Pour un échantillon spécifique, vous devez choisir le support approprié de l'uniforme préalable. Cela peut changer si vous modifiez l'échantillon. Il est important de noter qu'il ne s'agit pas d'une procédure bayésienne, nous l'utilisons simplement comme méthode numérique, donc il n'y a pas de problème à jouer avec le choix de l'a priori. Plus le support du prieur est petit, mieux c'est. Cela augmenterait la vitesse de l'échantillonneur ABC, mais lorsque vos informations sont vagues dans le sens où vous n'avez pas d'indice fiable sur l'emplacement du MLE, vous pourriez avoir besoin d'un support plus important (et en paiera le prix).
@mpiktas Dans l'exemple de jouet, vous pouvez utiliser, par exemple, un a priori uniforme avec support sur ou un a priori uniforme avec support sur ( 0,1 , 0,15 ) obtenant les mêmes résultats mais avec des taux d'acceptation extrêmement différents. Le choix de ce support est ad hoc et il est impossible de trouver une priorité générale étant donné que le MLE n'est pas limité de manière stochastique, comme vous le mentionnez. Ce choix peut être considéré comme un levier de la méthode qui doit être ajusté dans chaque cas particulier. (1000000,1000000)(0.1,0.15)
5

Tout dépend de la distribution conjointe de ceux ou non « s est connue. Si c'est le cas, par exemple, ( T 1 , , T k ) g ( t 1 , , t k | θ , n ), vous pouvez effectuer une estimation du maximum de vraisemblance sur la base de cette distribution conjointe. Notez que, à moins que ( T 1 , , T k ) soit suffisant, ce sera presque toujours une probabilité maximale différente que lors de l'utilisation des données brutes (Ti

(T1,,Tk)g(t1,,tk|θ,n)
(T1,,Tk) . Elle sera nécessairement moins efficace, avec une variance asymptotique plus importante.(X1,,Xn)

Si la distribution conjointe ci-dessus avec la densité n'est pas disponible, la solution proposée par Procrastinator est tout à fait appropriée.g

Xi'an
la source
1

L'estimateur du maximum de vraisemblance (fréquentiste) est le suivant:

F

l(θ|T)=exp(ψ(θ)+T,ϕ(θ)),
,Tψ()ϕ() sont continuellement deux fois différenciables.

La façon dont vous maximisez réellement la probabilité dépend principalement de la possibilité d'écrire la probabilité de manière analytique de manière maniable. Si cela est possible, vous pourrez envisager des algorithmes d'optimisation généraux (newton-raphson, simplex ...). Si vous n'avez pas de vraisemblance traitable, vous trouverez peut-être plus facile de calculer une espérance conditionnelle comme dans l'algorithme EM, qui produira également des estimations de vraisemblance maximale sous des hypothèses plutôt abordables.

Meilleur

julien stirnemann
la source
Pour les problèmes qui m'intéressent, la tractabilité analytique n'est pas possible.
mpiktas
La raison de la non-tractabilité conditionne alors le schéma d'optimisation. Cependant, les extensions de l'EM permettent généralement de contourner la plupart de ces raisons. Je ne pense pas pouvoir être plus précis dans mes suggestions sans voir le modèle lui
julien stirnemann