Pourquoi cet extrait indique-t-il que l'estimation non biaisée de l'écart-type n'est généralement pas pertinente?

14

Je lisais sur le calcul de l'estimation non biaisée de l'écart-type et la source que j'ai lue a déclaré

(...) sauf dans certaines situations importantes, la tâche a peu de pertinence pour les applications de la statistique car son besoin est évité par des procédures standard, telles que l'utilisation de tests de signification et d'intervalles de confiance, ou en utilisant l'analyse bayésienne.

Je me demandais si quelqu'un pouvait expliquer le raisonnement derrière cette déclaration, par exemple, l'intervalle de confiance n'utilise-t-il pas l'écart-type dans le calcul? Par conséquent, les intervalles de confiance ne seraient-ils pas affectés par un écart-type biaisé?

ÉDITER:

Merci pour les réponses jusqu'à présent, mais je ne suis pas sûr de suivre certains des raisonnements à leur sujet, je vais donc ajouter un exemple très simple. Le fait est que si la source est correcte, alors quelque chose ne va pas de ma conclusion à l'exemple et j'aimerais que quelqu'un montre comment la valeur p ne dépend pas de l'écart-type.

Supposons qu'un chercheur souhaite tester si le score moyen des élèves de cinquième année à un test dans sa ville diffère de la moyenne nationale de 76 avec un niveau de signification de 0,05. Le chercheur a échantillonné au hasard les scores de 20 étudiants. La moyenne de l'échantillon était de 80,85 avec un écart-type de l'échantillon de 8,87. Cela signifie: t = (80,85-76) / (8,87 / sqrt (20)) = 2,44. Une table t est ensuite utilisée pour calculer que la valeur de probabilité bilatérale de à de 2,44 avec 19 df est de 0,025. Ceci est inférieur à notre niveau de signification de 0,05, nous rejetons donc l'hypothèse nulle.

Donc, dans cet exemple, la valeur de p (et peut-être votre conclusion) ne changerait-elle pas selon la façon dont vous avez estimé l'écart-type de votre échantillon?

BYS2
la source
2
Cela semble étrange, pour la raison que vous donnez. Peut-être pourriez-vous également nous donner le paragraphe précédent au cas où quelque chose nous manquerait? Une chose qui fait que le biais n'est pas très important est qu'il devient assez peu important à mesure que la taille de l'échantillon augmente, et qu'il n'est probablement pas important par rapport à tous les autres problèmes, par exemple les spécifications erronées du modèle que nous avons normalement - mais ce n'est pas la raison donné dans votre source.
Peter Ellis
1
@PeterEllis, il s'agit en fait de la page wikipedia sur "l'estimation impartiale de l'écart type" ( en.wikipedia.org/wiki/Unbias_estimation_of_standard_deviation ).
BYS2

Réponses:

17

Je suis d'accord avec Glen_b à ce sujet. Je peux peut-être ajouter quelques mots pour rendre le point encore plus clair. Si les données proviennent d'une distribution normale (situation iid) avec une variance inconnue, la statistique t est la quantité pivot utilisée pour générer des intervalles de confiance et effectuer des tests d'hypothèse. La seule chose qui compte pour cette inférence est sa distribution sous l'hypothèse nulle (pour déterminer la valeur critique) et sous l'alternative (pour déterminer la puissance et l'échantillon). Ce sont les distributions t centrale et non centrale, respectivement. Considérant maintenant un instant le problème d'un échantillon, le test t a même des propriétés optimales comme test pour la moyenne d'une distribution normale. Maintenant, la variance de l'échantillon est un estimateur non biaisé de la variance de la population, mais sa racine carrée est un estimateur biaisé de l'écart-type de la population. C'est pas ca' t importe que cet estimateur BIASED entre dans le dénominateur de la quantité pivot. Maintenant, il joue un rôle dans la mesure où il s'agit d'un estimateur cohérent. C'est ce qui permet à la distribution t d'approcher la normale standard lorsque la taille de l'échantillon va à l'infini. Mais étant biaisé pour tout fixe n'affecte pas les belles propriétés du test.n

À mon avis, l'impartialité est surestimée dans les cours d'introduction à la statistique. La précision et la cohérence des estimateurs sont les propriétés réelles qui méritent d'être soulignées.

Pour d'autres problèmes où des méthodes paramétriques ou non paramétriques sont appliquées, une estimation de l'écart type n'entre même pas dans la formule.

Michael R. Chernick
la source
7
Cela dépend de l'estimation, mais il n'y a qu'une seule estimation pour laquelle le t avec 19 degrés de liberté s'applique et cette estimation est la racine carrée de l'estimation habituelle de la variance de l'échantillon. Si vous utilisez une estimation différente de l'écart-type, vous avez une distribution de référence différente pour la statistique de test sous l'hypothèse nulle. Ce n'est pas le t.
Michael R. Chernick
2
@ BYS2: Notez qu'en termes d'intervalle construit dans l'exemple que vous donnez, rien ne change en multipliant l'écart-type de l'échantillon par un facteur d'échelle (par exemple, pour le rendre non biaisé). La distribution de la statistique de test changerait (légèrement) dans ce cas, mais l'IC construit finirait par être exactement le même! Maintenant, si vous faisiez une "correction" qui dépendait des données elles-mêmes, cela donnerait quelque chose de différent (en général). Voir mon commentaire sous la réponse de Glen.
cardinal
4
@ BYS2: Dans le cas du modèle normal utilisant la statistique , il y a une belle correspondance entre les CI et la valeur p . Ainsi, la valeur p ne changera pas si vous "redimensionnez" l'écart-type de l'échantillon par une constante connue. Par exemple: Soit ~ T b = ( ˉ X - μ ) / ( b σ ) = T / b pour fixe b > 0 . Alors, P ( ˜ T b > u ) = P (tppT~b=(X¯μ)/(bσ^)=T/bb>0 et donc la valeur critique ˜ t b , α = b t α , c'est-à-dire qu'il y a une correspondance un à un entre eux. Cela a-t-il du sens?
P(T~b>u)=P(T>bu)
t~b,α=btα
cardinal
1
Ce que Cardinal souligne correctement, c'est qu'il est possible de multiplier la statistique t par une constante pour utiliser essentiellement une estimation différente de l'écart-type. La statistique de test n'a plus la distribution t. C'est une distribution légèrement différente en raison de la constante. La moyenne change d'un facteur b, de même que l'écart-type. Lorsque vous calculez la valeur critique de la statistique de test, elle change de manière appropriée, comme il le démontre ci-dessus.
Michael R. Chernick
1
@ BYS2 Oui c'est vrai.
Michael R. Chernick
5

Considérons un intervalle calculé sur la base d'une quantité pivot, comme une statistique t. La valeur moyenne de l'estimateur pour l'écart type n'entre pas vraiment en ligne de compte - l'intervalle est basé sur la distribution de la statistique. Donc, la déclaration est exacte dans la mesure où cela va.

Glen_b -Reinstate Monica
la source
1
Oui, mais la distribution de la statistique ne dépend-elle pas de son écart-type qui est inconnu dans la plupart des cas, vous devez donc utiliser un estimateur?
BYS2
4
(+1) Glen. Pour @ BYS2: Il y a quelques points clés ici. Premièrement, si nous avons une quantité pivot à portée de main, elle fournit un moyen très pratique pour construire des ensembles de confiance, mais ils n'existent pas souvent. Le point de l' ensemble d'une quantité essentielle est que la distribution dépend uniquement de connaître les quantités. Deuxièmement, la quantité pivot est intimement liée au modèle sous-jacent. Si les données s'écartent du modèle supposé, la distribution de la statistique de test peut aussi bien et sa caractérisation en tant que quantité pivot peut ne pas être tout à fait aussi pertinente. :)
Cardinal
4

L'interprétation est toujours une partie de la spéculation, mais je pense que la signification implicite est que souvent vous pouvez obtenir le résultat souhaité sans estimer explicitement l'écart type. En d'autres termes, je pense que l'auteur fait référence à des situations où vous n'utiliseriez pas d' estimation de l'écart-type, plutôt qu'une estimation biaisée.

Par exemple, si vous pouvez construire une estimation de la distribution entière d'une statistique, vous pouvez calculer des intervalles de confiance sans utiliser l'écart-type. En fait, pour de nombreuses distributions (non normales), l'écart-type lui-même (et la moyenne) n'est pas suffisant pour calculer une estimation de l'intervalle de confiance. Dans d'autres cas, comme un test de signe , vous n'avez pas besoin non plus d'estimation de l'écart-type.

(Bien sûr, il n'est pas trivial de construire une estimation non biaisée d'une distribution complète, et dans les statistiques bayésiennes, il est en fait assez courant d'introduire explicitement un biais dans l'a priori.)

MLS
la source
1
Il pourrait être intéressant de développer un peu plus en détail ce que vous entendiez par le dernier paragraphe. Par exemple, si je peux échantillonner à partir de la distribution de la statistique en question, alors le cdf empirique fournit un moyen très simple et très simple de générer une estimation non biaisée ponctuelle de la fonction de distribution. :)
cardinal
1
maxiXimaxiXiXi
1
XiimaxiXi
2
C'est vrai et proche du point que j'essayais de tirer. La première phrase du dernier paragraphe fait référence à la construction d'une estimation non biaisée d'une fonction statistique non linéaire à partir, par exemple, d'un seul échantillon aléatoire. Ceci est très différent de la construction d'une estimation non biaisée d'une distribution complète à partir d'un échantillon aléatoire de la fonction elle-même. :-)
Cardinal