Je m'apprends quelques statistiques pour le plaisir et j'ai une certaine confusion concernant des statistiques suffisantes . Je vais écrire mes confusions sous forme de liste:
Si une distribution a paramètres, aura-t-elle statistiques suffisantes?
Existe-t-il une sorte de correspondance directe entre les statistiques suffisantes et les paramètres? Ou bien les statistiques suffisantes servent-elles simplement de pool "d'informations" afin que nous puissions recréer le paramètre afin de pouvoir calculer les mêmes estimations pour les paramètres de la distribution sous-jacente.
Toutes les distributions ont-elles des statistiques suffisantes? c'est à dire. le théorème de factorisation peut-il jamais échouer?
En utilisant notre échantillon de données, nous supposons une distribution dont les données sont les plus susceptibles de provenir et puis pouvons calculer des estimations (par exemple le MLE) pour les paramètres de la distribution. Des statistiques suffisantes sont un moyen de pouvoir calculer les mêmes estimations pour les paramètres sans avoir à s'appuyer sur les données elles-mêmes, non?
Tous les ensembles de statistiques suffisantes auront-ils une statistique minimale suffisante?
C'est le matériel que j'utilise pour essayer de comprendre le sujet: https://onlinecourses.science.psu.edu/stat414/node/283
D'après ce que je comprends, nous avons un théorème de factorisation qui sépare la distribution conjointe en deux fonctions, mais je ne comprends pas comment nous pouvons extraire la statistique suffisante après factorisation de la distribution dans nos fonctions.
La question de Poisson donnée dans cet exemple avait une factorisation claire, mais il a ensuite été déclaré que les statistiques suffisantes étaient la moyenne de l'échantillon et la somme de l'échantillon. Comment savions-nous que ces statistiques étaient suffisantes rien qu'en regardant la forme de la première équation?
Comment est-il possible d'effectuer les mêmes estimations MLE en utilisant des statistiques suffisantes si la deuxième équation du résultat de la factorisation dépend parfois des valeurs de données elles-mêmes? Par exemple dans le cas de Poisson, la deuxième fonction dépendait de l'inverse du produit des factorielles des données, et nous n'aurions plus les données!
Pourquoi la taille d'échantillon ne serait-elle pas une statistique suffisante par rapport à l'exemple de Poisson sur la page Web ? Nous aurions besoin de pour reconstruire certaines parties de la première fonction, alors pourquoi n'est-ce pas également une statistique suffisante?
Réponses:
Vous auriez probablement intérêt à lire sur la suffisance dans n'importe quel manuel de statistiques théoriques, où la plupart de ces questions seront traitées en détail. En bref ...
Pas nécessairement. Ce sont des cas particuliers: des distributions où le support (la plage de valeurs que les données peuvent prendre) ne dépendent pas du ou des paramètres inconnus, seules celles de la famille exponentielle ont une statistique suffisante de la même dimensionnalité que le nombre de paramètres. Ainsi, pour estimer la forme et l'échelle d'une distribution de Weibull ou l'emplacement et l'échelle d'une distribution logistique à partir d'observations indépendantes, la statistique d'ordre (l'ensemble des observations sans tenir compte de leur séquence) est minimale suffisante - vous ne pouvez pas la réduire davantage sans perdre informations sur les paramètres. Lorsque le support dépend du ou des paramètres inconnus, il varie: pour une distribution uniforme sur , le maximum d'échantillon est suffisant pour θ(0,θ) θ ; pour une distribution uniforme sur le minimum et le maximum de l'échantillon sont ensemble suffisants.(θ−1,θ+1)
Je ne sais pas ce que vous entendez par «correspondance directe»; l'alternative que vous donnez semble être une manière juste de décrire des statistiques suffisantes.
Oui: trivialement, les données dans leur ensemble sont suffisantes. (Si vous entendez quelqu'un dire qu'il n'y a pas de statistiques suffisantes, cela signifie qu'il n'y en a pas de faible dimension.)
Oui, c'est l'idée. (Ce qui reste - la distribution des données conditionnelle à la statistique suffisante - peut être utilisé pour vérifier l'hypothèse de distribution indépendamment du ou des paramètres inconnus.)
Apparemment non, même si je suppose que les contre-exemples ne sont pas des distributions que vous voudrez probablement utiliser dans la pratique. [Ce serait bien si quelqu'un pouvait expliquer cela sans entrer trop dans la théorie de la mesure.]
En réponse aux autres questions ...
Le premier facteur, , ne dépend de λ que par ∑ x i . Donc, toute fonction biunivoque de ∑ x i est suffisante: ∑ x i , ∑ x i / n , ( ∑ x i ) 2 † , etc.e−nλ⋅λ∑xi λ ∑xi ∑xi ∑xi ∑xi/n (∑xi)2
Le deuxième facteur,1x1!x2!…xn! λ λ f(x;λ)
la source