J'ai appris qu'une statistique est un attribut que vous pouvez obtenir à partir d'échantillons.En prenant de nombreux échantillons de même taille, en calculant cet attribut pour chacun d'eux et en traçant le pdf, nous obtenons la distribution de l'attribut correspondant ou la distribution des statistiques correspondantes.
J'ai aussi entendu dire que les statistiques sont faites pour être des estimateurs, en quoi ces deux concepts diffèrent-ils?
Réponses:
Définition
De Wikipédia:
Et
La différence importante est:
(Pour ce que signifie "Quantité", voir la section ci-dessous.)
Une statistique n'est pas un estimateur
Un estimateur est une statistique avec quelque chose ajouté. Pour transformer une statistique en estimateur, vous indiquez simplement la quantité cible que vous souhaitez estimer. C'est déroutant, car vous n'ajoutez rien de «réel» à la statistique, mais seulement certains ont l'intention.
Pour voir que la différence est importante, vous devez réaliser que vous ne pouvez pas calculer les propriétés d'un estimateur (par exemple, biais , variance , etc.) pour une simple statistique. Pour calculer le biais , vous devez trouver la différence entre la valeur que votre statistique vous donne et la vraie valeur. Seul un estimateur est livré avec une "vraie valeur" qui permet de calculer un biais. Une statistique n'est qu'une fonction des données, et elle n'est ni correcte ni erronée.
Différents estimateurs basés sur la même statistique
Vous pouvez définir différentes quantités cibles pour la même statistique, ce qui donne des estimateurs différents. Chacun de ces estimateurs a son propre biais, bien qu'ils soient tous (basés sur) la même valeur, la même statistique.
Il n'est donc pas logique de dire "la moyenne de l'échantillon n'est pas biaisée". La moyenne de l'échantillon n'est pas biaisée lorsque vous l'utilisez pour estimer la moyenne de distribution. Mais en même temps, il est biaisé lors de son utilisation pour estimer la variance de la distribution.
Quantités de distributions et quantités d'échantillons
Ici, la quantité se réfère à une propriété de la distribution, qui est généralement inconnue et doit donc être estimée. Cela contraste avec une statistique , qui est une propriété d'un échantillon, par exemple la moyenne de distribution est une quantité de votre distribution, tandis que la moyenne de l' échantillon est une statistique (une quantité de votre échantillon).
la source
Ce fil est un peu vieux, mais il semble que Wikipédia ait changé sa définition et s'il est précis, il l'explique plus clairement pour moi:
Une statistique fait donc référence aux données elles-mêmes et à un calcul avec ces données. Alors qu'un estimateur fait référence à un paramètre dans un modèle.
Si je comprends bien, alors, la moyenne est une statistique et peut aussi être un estimateur. La moyenne d'un échantillon est une statistique (somme de l'échantillon divisée par la taille de l'échantillon). La moyenne d'un échantillon est également un estimateur de la moyenne de la population, en supposant qu'il est normalement distribué.
Je demanderais à @whuber et à d'autres qui connaissent vraiment ce genre de choses si la (nouvelle?) Citation de Wikipedia est exacte.
la source
Étant donné que d'autres réponses disant qu'elles sont identiques ne donnent aucune référence faisant autorité, permettez-moi de vous donner deux citations du manuel d' inférence statistique de Casella et Berger:
et
Je ne dis pas ici que c'est la réponse définitive à la question, car je semble être d'accord avec les deux réponses les plus votées qui suggèrent qu'il y a une différence, juste donner une référence qui dit le contraire pour souligner que ce n'est pas un boîtier clair.
la source
"6" est un exemple d'estimateur. Disons que votre question était: "quelle est la pente de la meilleure fonction linéaire mappant x à y?" Votre réponse pourrait être "6". Ou peut - être . Les deux sont des estimateurs. Lequel est le meilleur vous appartient de décider.(X′X)−1X′Y
Un très bon assistant technique m'a expliqué le concept d'estimateur de cette façon.
Fondamentalement, un estimateur est une chose que vous appliquez aux données pour obtenir une quantité dont vous ne connaissez pas la valeur. Vous connaissez la valeur d'une statistique - c'est une fonction des données sans "meilleur" ou "optimal" à ce sujet. Il n'y a pas de "meilleur" moyen. Il y a juste un moyen.
Supposons que vous ayez un ensemble de données sur le nombre de chèvres possédées par personne et le bonheur de chaque personne. Vous souhaitez savoir comment le bonheur des gens change en fonction du nombre de chèvres qu'ils possèdent. Un estimateur peut vous aider à estimer cette relation à partir de vos données. Les statistiques ne sont que des fonctions des données dont vous disposez. Par exemple, la variance de la propriété des chèvres peut être égale à 7. La formule de calcul de la variance serait identique entre les chèvres et les grille-pain, ou si vous êtes intéressé par le bonheur ou la propension à contracter le cancer. En ce sens, tous les estimateurs raisonnables sont des statistiques.
la source
Question interessante. Cependant, les estimateurs et les statistiques ne doivent pas nécessairement être différents. Ce sont des concepts différents.
Une statistique est une fonction (en termes généraux) dans laquelle les données d'entrée sont (statistiques). L'effet est que vous obtenez un résultat, généralement un nombre, à partir de cette statistique. Dans un terme plus abstrait, une statistique peut produire plusieurs nombres. La statistique dépend des données, mais la procédure est déterministe. La statistique peut donc être: «Additionner tous les nombres et diviser par le nombre» ou, au sens large, «prendre les données du pib et préparer un rapport à ce sujet».
Au sens statistique, nous parlons bien sûr d'une fonction mathématique en tant que statistique.
La signification de ceci est que si vous connaissez les propriétés des données que vous saisissez (par exemple, s'il s'agit d'une variable aléatoire), vous pouvez alors calculer les propriétés de votre statistique, sans réellement insérer de données empiriques.
Les estimateurs sont des estimateurs à cause de votre intention: estimer une propriété. Il s'avère que certaines statistiques sont de bons estimateurs.
Par exemple, si vous extrayez des points de données d'un pool de variables iid, la moyenne arithmétique - une statistique basée sur les données que vous extrayez, sera probablement un bon estimateur de la valeur attendue de cette distribution. Mais là encore, tout ce qui produit une estimation est un estimateur.
En pratique, les estimateurs que vous utilisez seront des statistiques, mais il existe des statistiques qui ne sont pas des estimateurs. Par exemple, les statistiques de test - bien que l'on puisse discuter de la sémantique de cette affirmation et aggraver les choses, une statistique de test peut non seulement être, mais aussi inclure des estimateurs. Bien que conceptuellement, cela ne doive pas être le cas.
Et bien sûr, vous pouvez avoir des estimateurs qui ne sont pas des statistiques, bien qu'ils ne soient probablement pas très bons pour estimer.
la source
Je pense qu'une meilleure compréhension de ce qu'est un échantillon aide.
[Mise à jour: L'échantillon est un concept très large, je parlais de "l'échantillon aléatoire". Je ne sais pas si un estimateur a du sens ou non lorsque l'échantillon n'est pas aléatoire .]
de wikipedia :
Nous remplaçons l'échantillon dans l'estimateur par la valeur de l'échantillon. Nous obtenons une valeur de l'estimateur, il s'agit d'une mesure spécifique. Et cette mesure spécifique est une statistique.
(Consultez ce lien pour la définition d'un estimateur, la dernière phrase révèle pourquoi nous sommes toujours confus.)
la source
Le but de ce morceau d'écriture:
Ce que je veux faire ici est de vous fournir les similitudes et les différences entre les deux concepts intimement liés appelés «statistique» et «estimateur». Cependant, je ne veux pas passer en revue les différences entre un paramètre et une statistique, qui, je suppose, sont suffisamment claires pour tous ceux qui luttent avec les différences entre une statistique et un estimateur. Si ce n'est pas le cas pour vous, vous devez d'abord étudier les articles précédents, puis commencer à étudier ce poste.
Relation:
Fondamentalement, toute fonction à valeur réelle de variables aléatoires observables dans un échantillon est appelée statistique. Il existe certaines statistiques qui, si elles sont bien conçues et ont de bonnes propriétés (par exemple la cohérence, ...), peuvent être utilisées pour estimer les paramètres de la distribution sous-jacente de la population. Par conséquent, les statistiques sont un grand ensemble et les estimateurs sont un sous-ensemble à l'intérieur de l'ensemble des statistiques. Par conséquent, chaque estimateur est une statistique, mais toutes les statistiques ne sont pas un estimateur.
Similitudes:
En parlant des similitudes, comme mentionné précédemment, les deux sont des fonctions de variables aléatoires. De plus, les deux ont des distributions appelées «distributions d'échantillonnage».
Différences:
En parlant de différences, ils sont différents en termes d'objectifs et de tâches. Les objectifs et les tâches d'une statistique pourraient être de résumer les informations d'un échantillon (en utilisant des statistiques suffisantes), et parfois de faire des tests d'hypothèse, etc. En revanche, l'objectif et la tâche principaux d'un estimateur, comme son nom l'indique, est d'estimer les paramètres de la population étudiée. Il est important de mentionner qu'il existe une grande variété d'estimateurs, chacun ayant sa propre logique de calcul, comme les estimateurs MOME, MLE, OLS, etc. Une autre différence entre ces deux concepts tient à leurs propriétés souhaitées. Alors que l'une des propriétés les plus recherchées d'une statistique est la «suffisance», les propriétés souhaitées d'un estimateur sont des choses comme la «cohérence», «l'impartialité», la «précision», etc.
Mise en garde:
Par conséquent, vous devez faire attention à ne pas utiliser correctement la terminologie lorsque vous traitez avec des statistiques et des estimateurs. Par exemple, il n'est pas très logique de parler de biais d'une simple statistique, qui n'est en aucun cas un estimateur, car aucun paramètre n'est impliqué dans un tel contexte pour que nous puissions calculer le biais, et parler de ça. Ainsi, vous devez faire attention à la terminologie!
En résumé:
Pour résumer, toute fonction de variables aléatoires observables dans un échantillon est une statistique. Si une statistique a la capacité d'estimer un paramètre d'une population, alors nous l'appelons un estimateur (du paramètre d'intérêt). Cependant, il existe certaines statistiques qui ne sont pas conçues pour estimer les paramètres, donc ces statistiques ne sont pas des estimateurs, et ici nous les appelons "de simples statistiques".
Ce que j'ai proposé ci-dessus est la façon dont je regarde et pense à ces deux concepts, et j'ai fait de mon mieux pour le dire en termes simples. J'espère que ça aide!
la source
Nouvelle réponse à un ancien Q:
Définition 1. Une statistique est une fonction qui mappe chaque échantillon à un nombre réel.
Chaque estimateur est une statistique.
Mais nous avons tendance à appeler uniquement les statistiques utilisées pour générer des estimations ("suppositions") certains paramètres un estimateur.
Ainsi, par exemple, la statistique t et la moyenne de l'échantillon sont les deux statistiques. La moyenne de l'échantillon est également un estimateur (car nous l'utilisons souvent pour estimer la vraie moyenne de la population).
En revanche, nous appelons rarement / jamais la statistique t un estimateur, car nous l'utilisons rarement / jamais pour estimer un paramètre.
la source
Dans les tests d'hypothèses :
Une statistique de test concerne le test d'hypothèse. Une statistique de test est une variable aléatoire donnée / sous l'hypothèse nulle. Maintenant, certains peuvent appeler une statistique la valeur / mesure de la statistique de test compte tenu de l'échantillon.
Avec ces deux, vous pouvez obtenir la valeur de p qui est une mesure qui permet de rejeter ou de ne pas rejeter l'hypothèse nulle. Dans l'ensemble, une statistique est une estimation de la distance ou de la proximité de votre hypothèse.
Ce lien peut être utile.
la source