Je suis mathématicien autodidacte en statistique et je lutte particulièrement avec la langue.
Dans le livre que j'utilise, il y a le problème suivant:
Une variable aléatoire est donnée sous la forme -distribuée avec . (Bien sûr, vous pouvez prendre n'importe quelle distribution en fonction d'un paramètre pour cette question.) Ensuite, un échantillon de cinq valeurs , , , , est donné.
Première partie: "En utilisant la méthode du maximum de vraisemblance, trouvez une estimation de basée sur [l'échantillon]." Ce n'était pas un problème. La réponse est .
Mais ensuite: "Donnez une estimation de l'erreur type de ."
Qu'entend-on par là? Étant donné que est juste un nombre réel fixe, je ne vois pas en quoi il pourrait avoir une erreur standard. Dois-je déterminer l'écart type de ?
Si vous pensez que la question n'est pas claire, ces informations m'aideraient également.
la source
Réponses:
L'autre réponse a couvert la dérivation de l'erreur standard, je veux juste vous aider avec la notation:
Votre confusion est due au fait que dans Statistics, nous utilisons exactement le même symbole pour désigner l'estimateur (qui est une fonction) et une estimation spécifique (qui est la valeur que l'estimateur prend lorsqu'il reçoit en entrée un échantillon réalisé spécifique).
Donc et pour . Donc est une fonction de variables aléatoires et donc une variable aléatoire elle-même, qui a certainement une variance. α (X=x)=4,6931x={14,α^= h ( X ) α^( X = x ) = 4,6931 α ( X )x ={14,21 ,6 ,32 ,2 } α^( X)
Dans l'estimation ML, dans de nombreux cas, ce que nous pouvons calculer est l' erreur standard asymptotique , car la distribution d'échantillons finis de l'estimateur n'est pas connue (ne peut pas être dérivée).
À proprement parler, n'a pas de distribution asymptotique, car il converge vers un nombre réel (le vrai nombre dans presque tous les cas d'estimation ML). Mais la quantité converge vers une variable aléatoire normale (par application du théorème de la limite centrale). √α^ n--√( α^- α )
Un deuxième point de confusion de notation : la plupart, sinon tous les textes, écriront ("Avar" = variance asymptotique ") tandis que ce qu'ils signifient est , c'est-à-dire qu'ils se réfèrent à la variance asymptotique de la quantité , pas de ... Pour le cas d'une Pareto de base la distribution que nous avonsavar ( √Avar ( α^) √Avar ( n--√( α^- α ) ) αn--√( α^- α ) α^
et ainsi
(mais ce que vous trouverez écrit est )Avar ( α^) = α2
Maintenant, dans quel sens l'estimateur a une "variance asymptotique", car comme dit, il converge asymptotiquement vers une constante? Eh bien, dans un sens approximatif et pour des échantillons volumineux mais finis . C'est-à-dire quelque part entre un "petit" échantillon, où l'estimateur est une variable aléatoire avec une distribution (généralement) inconnue, et un échantillon "infini", où l'estimateur est une constante, il y a ce "territoire d'échantillon grand mais fini" où l'estimateur n'est pas encore devenu une constante et où sa distribution et sa variance sont dérivées de manière détournée, en utilisant d'abord le théorème de la limite centrale pour dériver la distribution correctement asymptotique de la quantité Z=√α^ α = 1Z= n--√( α^- α ) (ce qui est normal en raison du CLT), puis inverser les choses et écrire (tout en prenant un pas en arrière et en traitant comme fini) qui montre tant que fonction affine de la variable aléatoire normale , et donc se distribue normalement (toujours approximativement).nαZα^= 1n√Z+α n α^ Z
la source
alphaα^ - un estimateur du maximum de vraisemblance - est une fonction d'un échantillon aléatoire, et est donc également aléatoire (non fixe). Une estimation de l'erreur type de pourrait être obtenue à partir des informations de Fisher,α^
Où est un paramètre et est la fonction log-vraisemblance de conditionnelle à un échantillon aléatoire . Intuitivement, les informations de Fisher indiquent la raideur de la courbure de la surface log-vraisemblable autour du MLE, et donc la quantité d '«informations» que fournit sur .L ( θ | Y = y ) θ y y θθ L (θ | Y= y) θ y y θ
Pour une distribution avec une seule réalisation , la log-vraisemblance où est connue:Y = y y 0P a r e t o (α, y0) Oui= y y0
I(α)=1
la source