Problèmes statistiques, de spécificité / d'intuition suffisants

16

Je m'apprends quelques statistiques pour le plaisir et j'ai une certaine confusion concernant des statistiques suffisantes . Je vais écrire mes confusions sous forme de liste:

  1. Si une distribution a paramètres, aura-t-elle statistiques suffisantes?nn

  2. Existe-t-il une sorte de correspondance directe entre les statistiques suffisantes et les paramètres? Ou bien les statistiques suffisantes servent-elles simplement de pool "d'informations" afin que nous puissions recréer le paramètre afin de pouvoir calculer les mêmes estimations pour les paramètres de la distribution sous-jacente.

  3. Toutes les distributions ont-elles des statistiques suffisantes? c'est à dire. le théorème de factorisation peut-il jamais échouer?

  4. En utilisant notre échantillon de données, nous supposons une distribution dont les données sont les plus susceptibles de provenir et puis pouvons calculer des estimations (par exemple le MLE) pour les paramètres de la distribution. Des statistiques suffisantes sont un moyen de pouvoir calculer les mêmes estimations pour les paramètres sans avoir à s'appuyer sur les données elles-mêmes, non?

  5. Tous les ensembles de statistiques suffisantes auront-ils une statistique minimale suffisante?

C'est le matériel que j'utilise pour essayer de comprendre le sujet: https://onlinecourses.science.psu.edu/stat414/node/283

D'après ce que je comprends, nous avons un théorème de factorisation qui sépare la distribution conjointe en deux fonctions, mais je ne comprends pas comment nous pouvons extraire la statistique suffisante après factorisation de la distribution dans nos fonctions.

  1. La question de Poisson donnée dans cet exemple avait une factorisation claire, mais il a ensuite été déclaré que les statistiques suffisantes étaient la moyenne de l'échantillon et la somme de l'échantillon. Comment savions-nous que ces statistiques étaient suffisantes rien qu'en regardant la forme de la première équation?

  2. Comment est-il possible d'effectuer les mêmes estimations MLE en utilisant des statistiques suffisantes si la deuxième équation du résultat de la factorisation dépend parfois des valeurs de données elles-mêmes? Par exemple dans le cas de Poisson, la deuxième fonction dépendait de l'inverse du produit des factorielles des données, et nous n'aurions plus les données!Xi

  3. Pourquoi la taille d'échantillon ne serait-elle pas une statistique suffisante par rapport à l'exemple de Poisson sur la page Web ? Nous aurions besoin de pour reconstruire certaines parties de la première fonction, alors pourquoi n'est-ce pas également une statistique suffisante?nn

Kimchi
la source
Juste une petite question de clarification - de quel "angle" venez-vous en suffisance? Plausibilité maximum? Bayésien? Entropie maximale? Théorie de l'échantillonnage? Autre chose?
Probabilislogic
Je venais du point de vue de MLE, désolé si ma publication n'était pas la meilleure, c'est mon premier post sur ce forum!
Kimchi

Réponses:

12

Vous auriez probablement intérêt à lire sur la suffisance dans n'importe quel manuel de statistiques théoriques, où la plupart de ces questions seront traitées en détail. En bref ...

  1. Pas nécessairement. Ce sont des cas particuliers: des distributions où le support (la plage de valeurs que les données peuvent prendre) ne dépendent pas du ou des paramètres inconnus, seules celles de la famille exponentielle ont une statistique suffisante de la même dimensionnalité que le nombre de paramètres. Ainsi, pour estimer la forme et l'échelle d'une distribution de Weibull ou l'emplacement et l'échelle d'une distribution logistique à partir d'observations indépendantes, la statistique d'ordre (l'ensemble des observations sans tenir compte de leur séquence) est minimale suffisante - vous ne pouvez pas la réduire davantage sans perdre informations sur les paramètres. Lorsque le support dépend du ou des paramètres inconnus, il varie: pour une distribution uniforme sur , le maximum d'échantillon est suffisant pour θ(0,θ)θ; pour une distribution uniforme sur le minimum et le maximum de l'échantillon sont ensemble suffisants.(θ1,θ+1)

  2. Je ne sais pas ce que vous entendez par «correspondance directe»; l'alternative que vous donnez semble être une manière juste de décrire des statistiques suffisantes.

  3. Oui: trivialement, les données dans leur ensemble sont suffisantes. (Si vous entendez quelqu'un dire qu'il n'y a pas de statistiques suffisantes, cela signifie qu'il n'y en a pas de faible dimension.)

  4. Oui, c'est l'idée. (Ce qui reste - la distribution des données conditionnelle à la statistique suffisante - peut être utilisé pour vérifier l'hypothèse de distribution indépendamment du ou des paramètres inconnus.)

  5. Apparemment non, même si je suppose que les contre-exemples ne sont pas des distributions que vous voudrez probablement utiliser dans la pratique. [Ce serait bien si quelqu'un pouvait expliquer cela sans entrer trop dans la théorie de la mesure.]

En réponse aux autres questions ...

  1. Le premier facteur, , ne dépend de λ que par x i . Donc, toute fonction biunivoque de x i est suffisante: x i , x i / n , ( x i ) 2 , etc.enλλxiλxixixixi/n(xi)2

  2. Le deuxième facteur, 1x1!x2!xn!λλf(x;λ)

  3. n

xi

n N(xi,n)nθxi

Scortchi - Réintégrer Monica
la source
1
J'adorerais voir les contre-exemples à 5. J'ai essayé de prouver le contraire pendant un certain temps avec le lemme de Zorn mais il tombe en panne à un moment donné. Mais d'après ce que j'ai rassemblé, le contre-exemple devrait être vraiment délirant. Avez-vous un point de référence où je pourrais le trouver? Cela ne me dérange pas que ce soit lourd sur la théorie de la mesure.
sjm.majewski
@ sjm.majewski: Lehmann donne Pitcher (1957), "Ensembles de mesures n'admettant pas les statistiques ou sous-domaines nécessaires et suffisants", Ann. Math. Statist. , 28 , pages 267 à 268; et Landers et Rogge (1973). "Sur la suffisance et l'invariance", Ann. Statist. , 1 , p543-544.
Scortchi - Réintégrer Monica