Comment expliquer ce qu'est un estimateur non biaisé à un profane?

10

On suppose que θ est un estimateur non biaisé pour θ . Alors bien sûr, E [ θ | θ ] = θ .θ^θE[θ^θ]=θ

Comment expliquer cela à un profane? Dans le passé, ce que je l' ai dit est si vous en moyenne un groupe de valeurs de θ , comme la taille de l' échantillon est grande, plus vous obtenez une meilleure approximation de θ .θ^θ

limnE[θ^θ]=θ,
nθ^n

Alors, comment expliquer ce qu'est un estimateur non biaisé à un profane?

Clarinettiste
la source
2
C'est une façon de faire une estimation qui est à peu près juste: ce n'est généralement pas tout à fait exact, mais dans l'ensemble, cela ne produit pas de surestimations plus souvent que de sous-estimations. Je me rends compte que cela donne plus l'impression que est la médiane de que la moyenne, mais je pense que cela capture l'essentiel. & thetavθθ^
jwimberley
3
J'aime la blague "trois statisticiens chassant" (une version ici ) pour ça ...
Ben Bolker
2
Votre explication est la loi des grands nombres, cela n'a rien à voir avec l'impartialité.
Xi'an
@ Xi'an: Si l'estimateur était biaisé, la limite ne serait pas . θ
user2357112 prend en charge Monica
@ user2357112: à ma connaissance (et celle des autres, comme le montrent les réponses jusqu'à présent), comme la taille de l'échantillon augmente, cela signifie que comme croît à l'infini, c'est-à-dire un estimateur basé sur observations. Je vois maintenant que la phrase peut être interprétée différemment. nnθ^nnn
Xi'an

Réponses:

14

Techniquement, ce que vous décrivez lorsque vous dites que votre estimateur se rapproche de la valeur réelle à mesure que la taille de l'échantillon augmente est (comme d'autres l'ont mentionné) la cohérence ou la convergence des estimateurs statistiques. Cette convergence peut être soit une convergence de probabilité, qui dit que pour chaque , ou presque convergence certaine qui dit que . Remarquez comment la limite est réellement à l' intérieurε > 0 P ( lim n | & thetav n - & thetav | > ε ) = 0limnP(|θ^nθ|>ϵ)=0ϵ>0P(limn|θ^nθ|>ϵ)=0la probabilité dans le deuxième cas. Il s'avère que cette dernière forme de convergence est plus forte que l'autre, mais les deux signifient essentiellement la même chose, c'est-à-dire que l'estimation tend à se rapprocher de plus en plus de la chose que nous estimons lorsque nous recueillons plus d'échantillons.

Un point subtil ici est que même lorsque soit en probabilité ou presque sûrement, il n'est pas vrai en général que , donc la cohérence n'implique pas l'impartialité asymptotique comme vous le suggérez. Vous devez être prudent lorsque vous passez d'une séquence de variables aléatoires (qui sont des fonctions) à une séquence d'attentes (qui sont des intégrales).limnE( θ n)=θθ^nθlimnE(θ^n)=θ

Tous les aspects techniques mis à part, impartial signifie uniquement que . Donc, quand vous l'expliquez à quelqu'un, dites simplement que si l'expérience était répétée plusieurs fois dans des conditions identiques, la valeur moyenne de l'estimation serait proche de la vraie valeur.E(θ^n)=θ

dsaxton
la source
5
Votre vision du profane est tout à fait admirable. Il sait ce qu'est "convergence en probabilité", "en tant que convergence", limite ... C'est l'homme du futur.
Aksakal
2
Je ne pense pas qu'un profane sache aucune de ces choses, j'essayais de corriger un malentendu dans le message d'origine. Ma suggestion sur la façon d'expliquer les choses à un profane se trouve dans le dernier paragraphe.
dsaxton
ce dernier paragraphe mêle cependant le concept de biais à la cohérence d'un estimateur, ce qui était probablement une des confusions d'OP au départ.
Aksakal
3
Comment? La répétition d'une expérience dans des conditions identiques signifierait que la taille de l'échantillon est fixe, donc nous ne parlons évidemment pas de cohérence.
dsaxton
1
Ok, vous avez raison à ce sujet, mais cela signifie que vous apportez une vision fréquentiste d'une probabilité
Aksakal
9

Je ne sais pas si vous confondez cohérence et impartialité.

Cohérence: plus la taille de l'échantillon est grande, plus la variance de l'estimateur est faible.

  • Dépend de la taille de l'échantillon

Impartialité: la valeur attendue de l'estimateur est égale à la valeur réelle des paramètres

  • Ne dépend pas de la taille de l'échantillon

Alors ta phrase

si vous faites la moyenne d'un tas de valeurs de , à mesure que la taille de l'échantillon augmente, vous obtenez une meilleure approximation de .θ^θ

N'est pas correcte. Même si la taille de l'échantillon devient infinie, un estimateur non biaisé restera un estimateur non biaisé. Par exemple, si vous estimez la moyenne comme "moyenne +1", vous pouvez ajouter un milliard d'observations à votre échantillon et votre estimateur ne vous donnera toujours pas la vraie valeur.

Vous trouverez ici une discussion plus approfondie sur la différence entre cohérence et impartialité.

Quelle est la différence entre un estimateur cohérent et un estimateur sans biais?

Ferdi
la source
2
En fait, je ne sais rien de la cohérence, mais merci quand même.
Clarinettiste
1
@Clarinetist Consistency est peut-être la propriété la plus importante d'un estimateur, qu'avec suffisamment de données, vous vous rapprocherez arbitrairement de la bonne réponse.
Matthew Gunn
7

@Ferdi a déjà fourni une réponse claire à votre question, mais rendons-la un peu plus formelle.

Laissez être votre échantillon de variables aléatoires indépendantes et identiquement distribuées de la distribution . Vous souhaitez estimer une quantité inconnue mais fixe , en utilisant l' estimateur étant une fonction de . Puisque est une fonction de variables aléatoires, estimezX1,,XnFθg X 1 , , X n g gX1,,Xng

θ^n=g(X1,,Xn)

est également une variable aléatoire. Nous définissons le biais comme

bias(θ^n)=Eθ(θ^n)θ

l'estimateur est sans biais lorsque .Eθ(θ^n)=θ

En termes simples: nous avons affaire à des variables aléatoires , donc à moins qu'elles ne dégénèrent , si nous prenons des échantillons différents, nous pouvons nous attendre à observer des données différentes et donc des estimations différentes. Néanmoins, nous pourrions nous attendre à ce que sur différents échantillons "en moyenne" estimés serait "correct" si l'estimateur n'est pas biaisé. Ce ne serait donc pas toujours vrai, mais "en moyenne", ce serait bien. Elle ne peut tout simplement pas toujours être «correcte» en raison du caractère aléatoire associé aux données.θ^n

Comme d'autres l'ont déjà noté, le fait que votre estimation se "rapproche" de la quantité estimée à mesure que votre échantillon croît, c'est-à-dire qu'en converge en probabilité

θ^nPθ

a à voir avec la cohérence des estimateurs , non avec la non-impartialité. L'impartialité seule ne nous dit rien sur la taille de l'échantillon et sa relation avec les estimations obtenues. De plus, les estimateurs non biaisés ne sont pas toujours disponibles et pas toujours préférables aux estimés biaisés. Par exemple, après avoir considéré le compromis biais-variance, vous pouvez envisager d'utiliser un estimateur avec un biais plus important, mais une variance plus petite - donc "en moyenne", il serait plus éloigné de la valeur réelle, mais plus souvent (variance plus petite), les estimations seraient être plus proche de la valeur réelle, puis en cas d'estimateur sans biais.

Tim
la source
(+1): très bon point de souligner qu'il existe rarement des estimateurs non biaisés. Et en mentionnant l'opposition biais / variance.
Xi'an
2

Vous devez d'abord distinguer le biais d'incompréhension du biais statistique, en particulier pour un profane.

Le choix de dire utiliser la médiane, la moyenne ou le mode comme estimateur pour une moyenne de la population , contient souvent un biais de croyance en théorie politique, religieuse ou scientifique. Le calcul de l'estimateur qui constitue la meilleure forme de moyenne est d'un type différent de l'arithmétique qui affecte le biais statistique.

Une fois que vous avez dépassé le biais de sélection de la méthode, vous pouvez alors traiter les biais potentiels dans la méthode d'estimation. Vous devez d'abord choisir une méthode qui peut avoir un biais et un mécanisme qui mène facilement à ce biais.

Il peut être plus facile d'utiliser un point de vue diviser un point de vue où il devient évident à mesure que la taille de l'échantillon diminue, l'estimation devient clairement biaisée. Par exemple, le facteur n-1 (vs le facteur «n») dans les estimateurs de l'écart d'échantillonnage devient évident lorsque n passe de 3 à 2 à 1!

Tout dépend de la façon dont la personne est «laïque».

Philip Oakley
la source
Je crains que vous ne parliez de différents types de biais que celui de la question. Pourriez-vous essayer d'être plus précis sur ce qu'est le parti pris? Vous écrivez sur les "biais potentiels dans la méthode d'estimation" et cela ne semble pas correspondre à la définition du biais (donnée dans la question et les réponses ci-dessus). En fin de compte, cela rend votre réponse confuse ...
Tim
@Tim, la première étape consistait simplement à s'assurer que les préjugés humains avaient été couverts. La deuxième étape était (et suit partiellement les questions de l'étape 1) pour s'assurer que l'enseignement du profane n'était pas déjà la méthode X (celle impartiale) qui devait être choisie. Par exemple, l'écart type est de 1 / n * somme ((x-moyenne) ^ 2), mais cela (soigneusement) ne fait pas de distinction entre la population et l'échantillon. La plupart des «laïcs» apprennent la version irréfléchie 1 / (N-1) pour un échantillon. Si vous n'avez qu'une seule méthode, vous (le profane) n'avez pas le choix, donc le biais d'estimateur ne peut pas être un problème ... C'est l'étape Kruger-Dunning.
Philip Oakley