Quel est le sens intuitif derrière le but et la mécanique des statistiques suffisantes?

9

La définition d'une statistique suffisante est: Soit X1,...,Xn être un échantillon aléatoire d'une distribution indexée par un paramètre θ. LaisserTêtre une statistique. Supposons que, pour chaqueθ et toutes les valeurs possibles t de T, la distribution conjointe conditionnelle de X1,...,Xn étant donné que T=t ne dépend que de t mais pas sur θ. Alors,T est une statistique suffisante pour le paramètre θ.

J'ai l'impression de connaître plusieurs pièces du puzzle (comme le théorème de factorisation) pour comprendre des statistiques suffisantes mais je n'ai pas la théorie globale en panne.

Mes principales questions sont:

1) Pourquoi disent-ils que Test une statistique suffisante pour le paramètreθ? Siθ étaient la moyenne de la population d'une distribution normale, disons μ, cela signifie-t-il que chaque fois que nous voulons trouver la probabilité, disons, X1,...,Xn se produisant d'une certaine manière, que nous n'avons pas besoin de la valeur de la moyenne de la population?

2) Dans la vie réelle, pourquoi voulons-nous utiliser une statistique suffisante? Il semble que le simple calcul de la statistique ne devrait pas représenter beaucoup de travail (comme la somme des X), alors pourquoi en avons-nous besoin?

Merci!

user123276
la source

Réponses:

7
  1. Non. Ce qu'ils disent c'est que X1,,Xn est un autre échantillon aléatoire de la même population que les données d'origine X1,,Xn, il contient une quantité égale d'informations probabilistes sur θ. Par conséquent, nous pouvons "récupérer les données" si nous conservonsT et jeter X1,,Xn. Voilà pourquoiT est "su ffi cient".

  2. Réduction de donnée. SiT est su ffi sant, les «informations supplémentaires» X est sans valeur tant que θest concerné. Il est alors tout à fait naturel d'envisager des procédures d'inférence qui n'utilisent pas ces informations supplémentaires non pertinentes. Cela conduit au principe de suffisance: toute procédure d'inférence ne devrait dépendre des données que par le biais de statistiques su ffi santes.

Voir ici pour plus de détails sur les principes impliqués dans la réduction des données.

Hibernation
la source