Quelle est la différence entre un estimateur et une statistique?

30

J'ai appris qu'une statistique est un attribut que vous pouvez obtenir à partir d'échantillons.En prenant de nombreux échantillons de même taille, en calculant cet attribut pour chacun d'eux et en traçant le pdf, nous obtenons la distribution de l'attribut correspondant ou la distribution des statistiques correspondantes.

J'ai aussi entendu dire que les statistiques sont faites pour être des estimateurs, en quoi ces deux concepts diffèrent-ils?

gutto
la source
2
Merci pour toutes les réponses ... Le concept est beaucoup plus clair pour moi maintenant ..
gutto

Réponses:

17

Définition

De Wikipédia:

Une statistique est [...] une mesure unique d'un attribut d'un échantillon (par exemple, sa valeur arithmétique moyenne).

Et

L' estimateur [A] n est une règle permettant de calculer une estimation d'une quantité donnée [de la distribution sous-jacente] à partir des données observées.

La différence importante est:

  • Une statistique est fonction d'un échantillon.
  • Un estimateur est fonction d'un échantillon lié à une certaine quantité de la distribution .

(Pour ce que signifie "Quantité", voir la section ci-dessous.)

Une statistique n'est pas un estimateur

Un estimateur est une statistique avec quelque chose ajouté. Pour transformer une statistique en estimateur, vous indiquez simplement la quantité cible que vous souhaitez estimer. C'est déroutant, car vous n'ajoutez rien de «réel» à la statistique, mais seulement certains ont l'intention.

Pour voir que la différence est importante, vous devez réaliser que vous ne pouvez pas calculer les propriétés d'un estimateur (par exemple, biais , variance , etc.) pour une simple statistique. Pour calculer le biais , vous devez trouver la différence entre la valeur que votre statistique vous donne et la vraie valeur. Seul un estimateur est livré avec une "vraie valeur" qui permet de calculer un biais. Une statistique n'est qu'une fonction des données, et elle n'est ni correcte ni erronée.

Différents estimateurs basés sur la même statistique

Vous pouvez définir différentes quantités cibles pour la même statistique, ce qui donne des estimateurs différents. Chacun de ces estimateurs a son propre biais, bien qu'ils soient tous (basés sur) la même valeur, la même statistique.

  • Vous pouvez utiliser la moyenne de l'échantillon comme estimateur de la moyenne de distribution . Cet estimateur a un biais nul .
  • Vous pouvez également utiliser la moyenne de l'échantillon comme estimateur de la variance de la distribution . Cet estimateur est biaisé pour la plupart des distributions.

Il n'est donc pas logique de dire "la moyenne de l'échantillon n'est pas biaisée". La moyenne de l'échantillon n'est pas biaisée lorsque vous l'utilisez pour estimer la moyenne de distribution. Mais en même temps, il est biaisé lors de son utilisation pour estimer la variance de la distribution.

Quantités de distributions et quantités d'échantillons

Ici, la quantité se réfère à une propriété de la distribution, qui est généralement inconnue et doit donc être estimée. Cela contraste avec une statistique , qui est une propriété d'un échantillon, par exemple la moyenne de distribution est une quantité de votre distribution, tandis que la moyenne de l' échantillon est une statistique (une quantité de votre échantillon).

ziggystar
la source
1
Il n'y a rien de mal à ces citations, mais elles me laissent perplexe sur ce que l'on entend exactement par «quantité». Par exemple, les citations ne semblent pas exclure la possibilité qu'une "quantité" soit une autre statistique basée sur les mêmes données ou peut-être une autre statistique basée sur un ensemble distinct de données similaires. (Dans ce dernier cas, la première statistique pourrait être utilisée comme un prédicteur. Dans le premier cas, je ne pense pas qu'il y ait un nom pour cela, mais ce n'est certainement pas un «estimateur».)
whuber
@whuber Voir modifier. Au départ, je voulais donner une réponse courte ... :(
ziggystar
Vraisemblablement, la moyenne et la médiane de l'échantillon estimeront la même valeur sous-jacente uniquement si la distribution est celle où la médiane = la moyenne ...
Stumpy Joe Pete
Ma critique a moins de sens à la lumière de votre montage. Je disais simplement que dans de nombreuses distributions, la médiane! = Moyenne, de sorte que la médiane et la moyenne de l'échantillon ne convergeront pas vers la même valeur dans de tels cas (c'est-à-dire, ne pas estimer la même chose).
Stumpy Joe Pete
1
@ Stumpy Je pense que vous avez une légère idée fausse ici. Peu importe que la médiane et la moyenne «convergent» vers la même chose (ou vers quoi que ce soit). Pour clarifier cela, permettez-moi d'être un peu ridicule: je peux, si je le souhaite, utiliser la variance de l' échantillon pour estimer la moyenne. Il n'y a absolument aucune restriction théorique - et il ne peut y en avoir - qui dit que je ne peux pas faire cela. Ma procédure remplit toutes les parties de la définition: la variance de l'échantillon est vraiment une statistique et la moyenne est vraiment une propriété de la distribution sous-jacente. Pour les définitions, il n'est pas pertinent que ce soit (souvent) une procédure terrible.
whuber
15

Ce fil est un peu vieux, mais il semble que Wikipédia ait changé sa définition et s'il est précis, il l'explique plus clairement pour moi:

Un «estimateur» ou «estimation ponctuelle» est une statistique (c'est-à-dire une fonction des données) qui est utilisée pour déduire la valeur d'un paramètre inconnu dans un modèle statistique.

Une statistique fait donc référence aux données elles-mêmes et à un calcul avec ces données. Alors qu'un estimateur fait référence à un paramètre dans un modèle.

Si je comprends bien, alors, la moyenne est une statistique et peut aussi être un estimateur. La moyenne d'un échantillon est une statistique (somme de l'échantillon divisée par la taille de l'échantillon). La moyenne d'un échantillon est également un estimateur de la moyenne de la population, en supposant qu'il est normalement distribué.

Je demanderais à @whuber et à d'autres qui connaissent vraiment ce genre de choses si la (nouvelle?) Citation de Wikipedia est exacte.

Wayne
la source
6
+1 Je pense que vous avez tout à fait raison. Vous pourriez être intéressé de savoir que la cible d'un estimateur ne doit pas nécessairement être un "paramètre" particulier d'un modèle: il peut s'agir de n'importe quelle propriété du modèle, comme une fonction de ses paramètres. Par exemple, n'est pas un paramètre pour un modèle Normal ( μ , σ 2 ) , mais il peut être estimé. μ2(μ,σ2)
whuber
5

Étant donné que d'autres réponses disant qu'elles sont identiques ne donnent aucune référence faisant autorité, permettez-moi de vous donner deux citations du manuel d' inférence statistique de Casella et Berger:

Définition 5.2.1 Soit un échantillon aléatoire de taille n d'une population et soit T ( x 1 , , x n ) une fonction à valeur réelle ou à valeur vectorielle dont le domaine comprend l'espace d'échantillonnage de ( X 1 , , X n ) . La variable aléatoire ou le vecteur aléatoire Y = T ( X 1 , , X n ) est alors appeléX1,,XnnT(x1,,xn)(X1,,Xn)Y=T(X1,,Xn)statistique. La distribution de probabilité de la statistique est appelée distribution d'échantillonnage de Y .YY

et

Définition 7.1.1 Un estimateur ponctuel est toute fonction d'un échantillon; c'est-à-dire que toute statistique est un estimateur ponctuel.W(X1,,Xn)

Je ne dis pas ici que c'est la réponse définitive à la question, car je semble être d'accord avec les deux réponses les plus votées qui suggèrent qu'il y a une différence, juste donner une référence qui dit le contraire pour souligner que ce n'est pas un boîtier clair.

Tim
la source
4

"6" est un exemple d'estimateur. Disons que votre question était: "quelle est la pente de la meilleure fonction linéaire mappant x à y?" Votre réponse pourrait être "6". Ou peut - être . Les deux sont des estimateurs. Lequel est le meilleur vous appartient de décider. (XX)1XY

Un très bon assistant technique m'a expliqué le concept d'estimateur de cette façon.

Fondamentalement, un estimateur est une chose que vous appliquez aux données pour obtenir une quantité dont vous ne connaissez pas la valeur. Vous connaissez la valeur d'une statistique - c'est une fonction des données sans "meilleur" ou "optimal" à ce sujet. Il n'y a pas de "meilleur" moyen. Il y a juste un moyen.

Supposons que vous ayez un ensemble de données sur le nombre de chèvres possédées par personne et le bonheur de chaque personne. Vous souhaitez savoir comment le bonheur des gens change en fonction du nombre de chèvres qu'ils possèdent. Un estimateur peut vous aider à estimer cette relation à partir de vos données. Les statistiques ne sont que des fonctions des données dont vous disposez. Par exemple, la variance de la propriété des chèvres peut être égale à 7. La formule de calcul de la variance serait identique entre les chèvres et les grille-pain, ou si vous êtes intéressé par le bonheur ou la propension à contracter le cancer. En ce sens, tous les estimateurs raisonnables sont des statistiques.

utilisateur_générique
la source
3

Question interessante. Cependant, les estimateurs et les statistiques ne doivent pas nécessairement être différents. Ce sont des concepts différents.

Une statistique est une fonction (en termes généraux) dans laquelle les données d'entrée sont (statistiques). L'effet est que vous obtenez un résultat, généralement un nombre, à partir de cette statistique. Dans un terme plus abstrait, une statistique peut produire plusieurs nombres. La statistique dépend des données, mais la procédure est déterministe. La statistique peut donc être: «Additionner tous les nombres et diviser par le nombre» ou, au sens large, «prendre les données du pib et préparer un rapport à ce sujet».
Au sens statistique, nous parlons bien sûr d'une fonction mathématique en tant que statistique.

La signification de ceci est que si vous connaissez les propriétés des données que vous saisissez (par exemple, s'il s'agit d'une variable aléatoire), vous pouvez alors calculer les propriétés de votre statistique, sans réellement insérer de données empiriques.

Les estimateurs sont des estimateurs à cause de votre intention: estimer une propriété. Il s'avère que certaines statistiques sont de bons estimateurs.
Par exemple, si vous extrayez des points de données d'un pool de variables iid, la moyenne arithmétique - une statistique basée sur les données que vous extrayez, sera probablement un bon estimateur de la valeur attendue de cette distribution. Mais là encore, tout ce qui produit une estimation est un estimateur.

En pratique, les estimateurs que vous utilisez seront des statistiques, mais il existe des statistiques qui ne sont pas des estimateurs. Par exemple, les statistiques de test - bien que l'on puisse discuter de la sémantique de cette affirmation et aggraver les choses, une statistique de test peut non seulement être, mais aussi inclure des estimateurs. Bien que conceptuellement, cela ne doive pas être le cas.

Et bien sûr, vous pouvez avoir des estimateurs qui ne sont pas des statistiques, bien qu'ils ne soient probablement pas très bons pour estimer.

IMA
la source
1
2nnn+1 ère plus grandes valeurs de l'échantillon. Selon votre définition ce n'est pas une statistique, car il n'est pas une procédure « déterministe » (bien qu'il est une statistique selon une commune de définition plus générale). C'est également un estimateur raisonnablement bon. Je me demande donc à quel type d'objet vous pensez lorsque vous faites référence à un «estimateur» qui n'est pas une «statistique».
whuber
Oui, je dirais que "choisir une valeur" est la statistique déterministe et tout ce qui est lié à la modification de l'échantillon que vous avez choisi. Là encore, puisque la "procédure", si vous voulez - est déterministe, je peux simplement autoriser des éléments stochastiques tels que celui-ci dans ma définition de la statistique ... Il convient de noter que les estimateurs qui ne sont pas des statistiques pourraient être au moins ceux qui sont indépendants de toute donnée. Par exemple, le nombre "6" dans la réponse ci-dessous. Veuillez noter que je n'ai pas dit que les estimateurs non statistiques sont nécessairement mauvais.
IMA
1
Je pense que vous faites peut-être trop de distinctions fines qui ne sont pas nécessaires et, en fin de compte, compliquent votre exposé. Par exemple, "1/2" est un excellent estimateur du paramètre d'une variable de Bernoulli (c'est minimax pour la perte quadratique), il serait donc dommage de l'exclure simplement parce qu'il est indépendant des données. (Cela reviendrait à exclure les carrés comme exemples de rectangles dans la géométrie euclidienne: vous pourriez le faire, mais cela doublerait alors la longueur de la plupart des déclarations concernant les propriétés des rectangles.) De même, cela aide à ne pas exclure les statistiques aléatoires.
whuber
Je ne pense pas que nous parlons vraiment de la même chose. Où puis-je exclure quoi que ce soit? Si la moitié est un excellent estimateur, alors c'est le cas. Je ne pense tout simplement pas que la majorité des estimateurs possibles qui ne sont pas des statistiques soient plutôt bons. Pour un Bernoulli, la variable "1/2" est bonne. Mais - tout à fait - quelques autres estimateurs de la classe «Un vrai nombre» ne sont pas très bons, n'est-ce pas? En ce qui concerne les statistiques randomisées toujours basées sur des données, je ne l'ai pas exclu car je dirais toujours que vous aurez besoin d'une procédure déterministe. Mais je concède que je devrais ajouter ceci ci-dessus.
IMA
2

Je pense qu'une meilleure compréhension de ce qu'est un échantillon aide.

[Mise à jour: L'échantillon est un concept très large, je parlais de "l'échantillon aléatoire". Je ne sais pas si un estimateur a du sens ou non lorsque l'échantillon n'est pas aléatoire .]

de wikipedia :

Un échantillon aléatoire est défini comme un échantillon dans lequel chaque membre de la population a une chance connue, non nulle, d'être sélectionné dans le cadre de l'échantillon.

nnnnn

Nous remplaçons l'échantillon dans l'estimateur par la valeur de l'échantillon. Nous obtenons une valeur de l'estimateur, il s'agit d'une mesure spécifique. Et cette mesure spécifique est une statistique.

(Consultez ce lien pour la définition d'un estimateur, la dernière phrase révèle pourquoi nous sommes toujours confus.)

alexyangfox
la source
1

Le but de ce morceau d'écriture:

Ce que je veux faire ici est de vous fournir les similitudes et les différences entre les deux concepts intimement liés appelés «statistique» et «estimateur». Cependant, je ne veux pas passer en revue les différences entre un paramètre et une statistique, qui, je suppose, sont suffisamment claires pour tous ceux qui luttent avec les différences entre une statistique et un estimateur. Si ce n'est pas le cas pour vous, vous devez d'abord étudier les articles précédents, puis commencer à étudier ce poste.

Relation:

Fondamentalement, toute fonction à valeur réelle de variables aléatoires observables dans un échantillon est appelée statistique. Il existe certaines statistiques qui, si elles sont bien conçues et ont de bonnes propriétés (par exemple la cohérence, ...), peuvent être utilisées pour estimer les paramètres de la distribution sous-jacente de la population. Par conséquent, les statistiques sont un grand ensemble et les estimateurs sont un sous-ensemble à l'intérieur de l'ensemble des statistiques. Par conséquent, chaque estimateur est une statistique, mais toutes les statistiques ne sont pas un estimateur.

Similitudes:

En parlant des similitudes, comme mentionné précédemment, les deux sont des fonctions de variables aléatoires. De plus, les deux ont des distributions appelées «distributions d'échantillonnage».

Différences:

En parlant de différences, ils sont différents en termes d'objectifs et de tâches. Les objectifs et les tâches d'une statistique pourraient être de résumer les informations d'un échantillon (en utilisant des statistiques suffisantes), et parfois de faire des tests d'hypothèse, etc. En revanche, l'objectif et la tâche principaux d'un estimateur, comme son nom l'indique, est d'estimer les paramètres de la population étudiée. Il est important de mentionner qu'il existe une grande variété d'estimateurs, chacun ayant sa propre logique de calcul, comme les estimateurs MOME, MLE, OLS, etc. Une autre différence entre ces deux concepts tient à leurs propriétés souhaitées. Alors que l'une des propriétés les plus recherchées d'une statistique est la «suffisance», les propriétés souhaitées d'un estimateur sont des choses comme la «cohérence», «l'impartialité», la «précision», etc.

Mise en garde:

Par conséquent, vous devez faire attention à ne pas utiliser correctement la terminologie lorsque vous traitez avec des statistiques et des estimateurs. Par exemple, il n'est pas très logique de parler de biais d'une simple statistique, qui n'est en aucun cas un estimateur, car aucun paramètre n'est impliqué dans un tel contexte pour que nous puissions calculer le biais, et parler de ça. Ainsi, vous devez faire attention à la terminologie!

En résumé:

Pour résumer, toute fonction de variables aléatoires observables dans un échantillon est une statistique. Si une statistique a la capacité d'estimer un paramètre d'une population, alors nous l'appelons un estimateur (du paramètre d'intérêt). Cependant, il existe certaines statistiques qui ne sont pas conçues pour estimer les paramètres, donc ces statistiques ne sont pas des estimateurs, et ici nous les appelons "de simples statistiques".

Ce que j'ai proposé ci-dessus est la façon dont je regarde et pense à ces deux concepts, et j'ai fait de mon mieux pour le dire en termes simples. J'espère que ça aide!

Ali Zeytoon Nejad
la source
0

Nouvelle réponse à un ancien Q:

Définition 1. Une statistique est une fonction qui mappe chaque échantillon à un nombre réel.

Chaque estimateur est une statistique.

Mais nous avons tendance à appeler uniquement les statistiques utilisées pour générer des estimations ("suppositions") certains paramètres un estimateur.

Ainsi, par exemple, la statistique t et la moyenne de l'échantillon sont les deux statistiques. La moyenne de l'échantillon est également un estimateur (car nous l'utilisons souvent pour estimer la vraie moyenne de la population).

En revanche, nous appelons rarement / jamais la statistique t un estimateur, car nous l'utilisons rarement / jamais pour estimer un paramètre.

PQ est à la fois une statistique et un estimateur.

Exemple_

Supposons que notre paramètre d'intérêt soit le résultat moyen θ d'un jet de dé.

θest un certain nombre réel fixe qui n'est peut-être connu que de Dieu. Néanmoins, nous pouvons essayer de l'estimer.

Voici une méthode possible. Nous lançons un dé 3 fois.

Un échantillon est tout s=(X1,X2,X3), où X1 est le résultat du premier rouleau, X2 celle du second, et X3 celle du troisième.

Voici trois exemples d'échantillons: s1=(5,4,1),s2=(4,1,6), et s3=(6,3,2).

Voici deux exemples de statistiques P et Q(rappelez-vous qu'une statistique est simplement une fonction). DéfinirP et Q par: Pour tout s=(X1,X2,X3),

P(s)=X1ln(X2+X3),
Q(s)=X1+X2+X33.

La statistique Pest une statistique plutôt bizarre et n'est probablement pas très utile pour rien. Néanmoins, il s'agit tout de même d'une statistique, simplement parce qu'elle satisfait la définition d'une statistique (c'est une fonction qui mappe chaque échantillon à un nombre réel).

Qest aussi une statistique. Mais en plus, c'est aussi un estimateur du paramètreθ.

(Nous pourrions bien sûr affirmer que P est également un estimateur de θ. Mais ce serait un très mauvais estimateur que personne ne voudrait utiliser.)

Kenny LJ
la source
1
Cette réponse va dans le bon sens. La «définition 2», cependant, ne semble pas être une définition valable, en raison de sa circularité (elle définit «estimateur» en termes d '«estimation» sans expliquer cette dernière). Pour être efficace, vous devez expliquer ce qu'est une «estimation d'un paramètre» avec suffisamment de détails et de clarté pour que les gens puissent formuler des mesures quantitatives de l'efficacité d'un estimateur.
whuber
@whuber: J'essaie de rester simple. Un paramètre est un nombre réel (par exemple, le résultat moyenθd'un jet de dé). De manière informelle, une estimation pour un paramètre est simplement une "estimation" de ce qu'est un paramètre. Une estimation est donc simplement aussi un nombre réel. (Par exemple, une estimation deθ est 5.) // La question de "comment formuler des mesures quantitatives du fonctionnement d'un estimateur" est entièrement distincte de la question plus simple et plus fondamentale de la distinction entre une statistique et un estimateur. Quelle est la question ici.
Kenny LJ
2
Malheureusement, comme j'essayais de le suggérer, quelque chose d'essentiel semble avoir été perdu dans la simplification, car votre deuxième définition ne distingue pas du tout un estimateur d'une autre statistique.
whuber
@whuber: C'est vrai. Formellement, un estimateur est simplement une statistique. Mais nous avons tendance à utiliser le mot «estimateur» pour désigner une statistique si cette statistique est utilisée pour estimer un paramètre d'intérêt. J'ai modifié ma réponse pour clarifier ce point.
Kenny LJ
-3

Dans les tests d'hypothèses :

Une statistique de test concerne le test d'hypothèse. Une statistique de test est une variable aléatoire donnée / sous l'hypothèse nulle. Maintenant, certains peuvent appeler une statistique la valeur / mesure de la statistique de test compte tenu de l'échantillon.

Avec ces deux, vous pouvez obtenir la valeur de p qui est une mesure qui permet de rejeter ou de ne pas rejeter l'hypothèse nulle. Dans l'ensemble, une statistique est une estimation de la distance ou de la proximité de votre hypothèse.

Ce lien peut être utile.

dfhgfh
la source
2
Vous semblez aborder une question différente, quelque chose liée aux tests d'hypothèse plutôt qu'à l'estimation. Votre définition de "statistique" est beaucoup plus restreinte que les définitions standard: les statistiques s'appliquent à toutes les formes de prise de décision, pas seulement aux cas très limités de tests d'hypothèses et d'hypothèses nulles. De plus, les tests d'hypothèse ne sont pas les mêmes que les estimateurs et la plupart des statistiques ne sont pas utilisées comme estimateurs de la proximité d'une hypothèse.
whuber
Je ne dirais pas que c'est une question différente. Il donne une image de ce que c'est dans le contexte du test d'hypothèse au moins!
dfhgfh
2
Parce que cette réponse se concentre sur une version limitée et spécialisée de la question et utilise les termes clés "estimateur" et "statistique" de manière non conventionnelle, sans alerter le lecteur de ce fait, je crains que cela puisse induire en erreur ou dérouter les gens.
whuber
Je pensais que le test d'hypothèse était loin d'être un domaine limité et spécialisé de la statistique.
dfhgfh