Pourquoi une statistique suffisante contient toutes les informations nécessaires pour calculer une estimation du paramètre?

16

Je viens de commencer à étudier les statistiques et je n'arrive pas à comprendre intuitivement la suffisance. Pour être plus précis, je ne comprends pas comment montrer que les deux paragraphes suivants sont équivalents:

En gros, étant donné un ensemble X de données indépendantes distribuées de manière identique conditionnées sur un paramètre inconnu θ, une statistique suffisante est une fonction T (X) dont la valeur contient toutes les informations nécessaires pour calculer toute estimation du paramètre.

Une statistique T (X) est suffisante pour le paramètre sous-jacent θ précisément si la distribution de probabilité conditionnelle des données X, compte tenu de la statistique T (X), ne dépend pas du paramètre θ.

(J'ai pris les citations de statistique suffisante )

Bien que je comprenne la deuxième affirmation et que je puisse utiliser le théorème de factorisation pour montrer si une statistique donnée est suffisante, je ne peux pas comprendre pourquoi une statistique avec une telle propriété a également la propriété qu'elle "contient toutes les informations nécessaires pour calculer tout estimation du paramètre ". Je ne cherche pas de preuve formelle, ce qui aiderait de toute façon à affiner ma compréhension, je voudrais obtenir une explication intuitive de la raison pour laquelle les deux déclarations sont équivalentes.

Pour récapituler, mes questions sont: pourquoi les deux affirmations sont équivalentes? Quelqu'un pourrait-il fournir une explication intuitive de leur équivalence?

gcoll
la source
1
L'idée intuitive principale est que vous n'avez parfois pas besoin de voir l'échantillon entier, car vous pouvez trouver une statistique qui résume toutes les informations nécessaires à partir de l'échantillon. Prenons, par exemple, une distribution binomiale: tout ce que vous devez savoir pour votre modèle est la somme des succès. Vous ne perdez pas quelque chose de valeur si je ne vous dis que jenXje=c , au lieu de vous montrer l'ensemble des valeurs échantillonnées X={1,0,0,1,0,1,...} .
mugen
Je comprends pourquoi j'aurais besoin de statistiques suffisantes et comment montrer que la somme des succès est une statistique suffisante pour p dans un processus de Bernoulli. Ce que je ne comprends pas, c'est pourquoi une statistique comme celle décrite dans le deuxième paragraphe contient toutes les informations nécessaires pour calculer une estimation du paramètre.
gcoll
3
À strictement parler, la première citation est tout simplement fausse. Il existe de nombreux estimateurs qui peuvent être calculés à partir de l'ensemble de données qui ne peuvent pas être calculés uniquement à partir de statistiques suffisantes. C'est une des raisons pour lesquelles la citation commence "à peu près". Une autre raison est qu'elle ne fournit pas de définition quantitative ou rigoureuse de «l'information». Puisqu'une caractérisation beaucoup plus précise (mais toujours intuitive) avait été donnée dans le paragraphe précédent, cependant, il n'y a pas de problème avec cette citation dans le contexte approprié.
whuber
1
Il a un lien avec le maximum de vraisemblance et il s'agit essentiellement des informations nécessaires dans le maximum de vraisemblance
Kamster
1
Suite aux commentaires de whuber et @Kamster, j'ai probablement mieux compris. Lorsque nous disons qu'une statistique suffisante contient toutes les informations nécessaires pour calculer une estimation du paramètre, voulons-nous réellement dire qu'il suffit de calculer l'estimateur du maximum de vraisemblance (qui est fonction de toutes les statistiques suffisantes)? Il est vrai que le problème était lié à la (non) définition des "informations", comme cela a été suggéré, et il est répondu à ma question.
gcoll

Réponses:

3

Suite aux commentaires de @whuber et @Kamster, j'ai probablement mieux compris. Lorsque nous disons qu'une statistique suffisante contient toutes les informations nécessaires pour calculer une estimation du paramètre, ce que nous voulons dire en réalité, c'est qu'il suffit de calculer l'estimateur du maximum de vraisemblance (qui est une fonction de toutes les statistiques suffisantes).

Étant donné que je réponds à ma propre question et que je ne suis donc pas sûr à 100% de la réponse, je ne la marquerai pas comme correcte tant que je n'aurai pas reçu de commentaires. Veuillez ajouter tout commentaire et voter si vous pensez que je me trompe / imprécis / etc ...

(Faites-moi savoir si cela n'est pas compatible avec l'étiquette SE, étant ma première question, je vous demande votre clémence si je viole une règle)

gcoll
la source
1

Pendant que j'étudiais la suffisance, je suis tombé sur votre question parce que je voulais aussi comprendre l'intuition de ce que j'ai rassemblé, c'est ce que je trouve (faites-moi savoir ce que vous pensez, si je fais des erreurs, etc.).

Soit un échantillon aléatoire d'une distribution de Poisson avec une moyenne θ > 0 .X1,,Xnθ>0

Nous savons que est une statistique suffisante pour θ , puisque la distribution conditionnelle de X 1 , , X n étant donné que T ( X ) est libre de θ , en d'autres termes, ne signifie pas dépendent de θ .T(X)=je=1nXjeθX1,,XnT(X)θθ

Or, le statisticien sait que X 1 , , X n i . i . d P o i s s o n ( 4 ) et crée n = 400 valeurs aléatoires à partir de cette distribution:UNE X1,,Xni.i.dPoisson(4)n=400

n<-400
theta<-4
set.seed(1234)
x<-rpois(n,theta)
y=sum(x)

freq.x<-table(x) # We will use this latter on
rel.freq.x<-freq.x/sum(freq.x)

Pour les valeurs créées par le statisticien , il en prend la somme et demande au statisticien B :AB

"J'ai ces valeurs d'échantillon tirées d'une distribution de Poisson. Sachant que n i = 1 x i = y = 4068 , que pouvez-vous me dire à propos de cette distribution?"x1,,xni=1nxi=y=4068

Donc, sachant seulement que (et le fait que l'échantillon provienne d'une distribution de Poisson) est-il suffisant pour que le statisticien B dise quelque chose sur θ ? Puisque nous savons qu'il s'agit d'une statistique suffisante, nous savons que la réponse est "oui".i=1nxi=y=4068Bθ

Pour obtenir des informations sur la signification de ceci, procédons comme suit (extrait de "Introduction to Mathematical Statistics" de Hogg & Mckean & Craig, 7ème édition, exercice 7.1.9):

" décide de créer de fausses observations, qu'il appelle z 1 , z 2 , , z n (comme il le sait, elles ne seront probablement pas égales aux valeurs x d' origine ) comme suit. Il note que la probabilité conditionnelle de Poisson indépendant les variables aléatoires Z 1 , Z 2, Z n étant égal à z 1 , z 2 , , z n , étant donné z i = y , estBz1,z2,,znxZ1,Z2,Znz1,z2,,znzi=y

θz1eθz1!θz2e-θz2!θzne-θzn!nθye-nθy!=y!z1!z2!zn!(1n)z1(1n)z2(1n)zn

puisque a une distribution de Poisson avec une moyenne n θ . Cette dernière distribution est multinomiale avec y essais indépendants, chacun se terminant de l'une des n manières mutuellement exclusives et exhaustives, chacune ayant la même probabilité 1 / n . En conséquence, B exécute une telle expérience multinomiale y des essais indépendants et obtient z 1 , , z n . "Oui=Zjenθyn1/nByz1,,zn

C'est ce que dit l'exercice. Alors, faisons exactement cela:

# Fake observations from multinomial experiment
prob<-rep(1/n,n)
set.seed(1234)
z<-as.numeric(t(rmultinom(y,n=c(1:n),prob)))
y.fake<-sum(z) # y and y.fake must be equal
freq.z<-table(z)
rel.freq.z<-freq.z/sum(freq.z)

Et voyons à quoi ressemble (je trace également la densité réelle de Poisson (4) pour k = 0 , 1 , , 13 - tout ce qui est supérieur à 13 est pratiquement nul -, pour comparaison):Zk=0,1,,13

# Verifying distributions
k<-13
plot(x=c(0:k),y=dpois(c(0:k), lambda=theta, log = FALSE),t="o",ylab="Probability",xlab="k",
     xlim=c(0,k),ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(8,0.2, legend=c("Real Poisson","Random Z given y"), 
       col = c("black","green"),pch=c(1,4))

entrez la description de l'image ici

Donc, ne connaissant rien à et ne connaissant que la statistique suffisante Y = X i, nous avons pu récupérer une "distribution" qui ressemble beaucoup à une distribution de Poisson (4) (à mesure que n augmente, les deux courbes deviennent plus similaires).θY=Xin

Maintenant, comparant et Z | y :XZ|y

plot(rel.freq.x,t="o",pch=16,col="red",ylab="Relative Frequency",xlab="k",
     ylim=c(0,max(c(rel.freq.x,rel.freq.z))))
lines(rel.freq.z,t="o",col="green",pch=4)
legend(7,0.2, legend=c("Random X","Random Z given y"), col = c("red","green"),pch=c(16,4))

entrez la description de l'image ici

Nous voyons qu'ils sont assez similaires aussi (comme prévu)

XiY=X1+X2++Xn

Gus_est
la source
0

Permettez-moi de vous donner une autre perspective qui pourrait vous aider. Ceci est également qualitatif, mais il existe une version rigoureuse de celle-ci particulièrement importante dans la théorie de l'information - connue sous le nom de propriété Markov.

θθθθest concerné. Notez que dans les probabilités, c'est là que toutes les incertitudes sont capturées, et donc "toute estimation" lorsque les probabilités (conditionnelles) sont indépendantes (par exemple, les densités conditionnelles factorisent).

Mahdi
la source