Pourquoi la définition d'un estimateur cohérent est-elle la même? Qu'en est-il des définitions alternatives de la cohérence?

14

Citation de wikipedia:

En statistique, un estimateur cohérent ou un estimateur asymptotiquement cohérent est un estimateur - une règle pour calculer les estimations d'un paramètre ayant la propriété que, comme le nombre de points de données utilisés augmente indéfiniment, la séquence résultante d'estimations converge en probabilité vers .θθθ

Pour rendre cette déclaration précise, soit θ soit la valeur du vrai paramètre que vous voulez estimer et soit θ^(Sn) la règle d'estimation de ce paramètre en fonction des données. La définition de la cohérence d'un estimateur peut alors être exprimée de la manière suivante:

limnPr[|θ(Sn^)-θ|ϵ]=0

ma question semble superficielle à première vue mais elle est: pourquoi le mot «cohérence / cohérence» a-t-il été utilisé pour décrire ce comportement d'un estimateur?

La raison pour laquelle je me soucie de cela est que pour moi, intuitivement, le mot cohérent signifie quelque chose de différent (ou du moins il me semble différent, peut-être peut-on montrer qu'ils sont égaux). Permettez-moi de vous dire ce que cela signifie au moyen d'un exemple. Dites «vous» êtes toujours «bon» (pour une certaine définition du bien), puis cohérent signifie que chaque fois que vous avez la possibilité de prouver / me montrer que vous êtes bon, vous me prouvez en effet que vous êtes bon, à chaque fois (ou du moins la plupart du temps).

Appliquons mon intuition pour définir la cohérence d'un estimateur. Soit "vous" la fonction calculant et que "bon" signifie à quelle distance vous êtes de la vraie estimation (bien, au sens de la norme , pourquoi pas). Une meilleure définition de la cohérence serait alors: & thetav*θ^θl1

n,Sn,Pr[|θ(Sn^)-θ|ϵ]<δ

Même si cela pourrait être une définition moins utile de la cohérence, cela me semble plus logique dans la manière dont je définirais la cohérence, car pour tout ensemble de formation / échantillon que vous jetez à mon estimateur , je serai en mesure de faire un bon travail, c'est-à-dire que je ferai toujours bien. Je suis conscient que c'est un peu irréaliste de le faire pour tout n (probablement impossible), mais nous pouvons fixer cette définition en disant:θ^

n0,nn0,Sn,Pr[|θ(Sn^)-θ|ϵ]<δ

c'est-à-dire que pour un n suffisamment grand, notre estimateur ne fera pas pire que (c'est-à-dire pas plus de loin de la "vérité") du vrai (le essaie de capturer l'intuition dont vous avez besoin au moins un certain nombre d'exemples pour apprendre / estimer quelque chose, et une fois que vous avez atteint ce nombre, votre estimateur fera bien la plupart du temps s'il est cohérent dans la façon dont nous essayons de le définir).ϵ θ n 0ϵϵθn0

Cependant, la définition précédente est trop forte, nous pourrions peut-être nous permettre d'avoir une faible probabilité d'être loin de pour la plupart des ensembles d'entraînement de taille (c'est-à-dire ne pas l'exiger pour tous les , mais sur la distribution de ou quelque chose comme ça). Nous aurons donc très rarement une erreur élevée pour la plupart des ensembles d'échantillons / de formation que nous avons. n n 0 S n S nθnn0SnSn

Quoi qu'il en soit, ma question est la suivante: ces définitions proposées de la "cohérence" sont-elles réellement les mêmes que la définition "officielle" de la cohérence, mais l'équivalence est difficile à prouver? Si vous connaissez la preuve, partagez-la! Ou mon intuition est-elle complètement éteinte et y a-t-il une raison plus profonde pour choisir la cohérence de la définition de la manière dont elle est généralement définie? Pourquoi la cohérence ("officielle") est-elle définie comme elle est?

Certaines de mes réflexions sur une preuve candidate pour une sorte d'équivalence, ou peut-être une similitude entre ma notion de cohérence et la notion acceptée de cohérence pourraient être de démêler la définition d'une limite dans la définition officielle de cohérence en utilisant le définition d'une limite. Cependant, je ne savais pas à 100% comment faire cela et même si j'essayais, la définition officielle de la cohérence ne semble pas prendre en compte le fait de parler de tous les ensembles de formation / d'échantillons potentiels. Étant donné que je pense qu'ils sont équivalents, la définition officielle que j'ai fournie est-elle incomplète (c'est-à-dire pourquoi ne parle-t-elle pas des ensembles de données que nous pourrions ou de tous les différents ensembles de données qui pourraient générer nos ensembles d'échantillons)?(ϵ,δ)-

L'une de mes dernières réflexions est que toute définition que nous fournissons doit également être précise par rapport à la distribution de probabilité dont nous parlons, est-ce ou . Je pense qu'un candidat doit également être précis si ce qu'il garantit, s'il le garantit par rapport à une distribution fixe ou par rapport à toutes les distributions possibles sur les ensembles de formation ... n'est-ce pas?P S nPXPSn

Charlie Parker
la source
3
(+1) Pensée créative. Merci d'avoir partagé ceci avec nous. Je crois que je serai en mesure de fournir quelques réflexions comme réponse ici.
Alecos Papadopoulos
2
La première définition est peu utile car elle nécessite que tous les estimateurs soient très précis. Le second n'a pas de sens , car il tente de contrôler une variable logique unique avec plusieurs quantificateurs. n
whuber

Réponses:

9

Considérons la deuxième déclaration provisoire du PO, légèrement modifiée,

(1)θΘ,ϵ>0,δ>0,Sn,n0(θ,ϵ,δ):nn0,Pn[|θ^(Sn)-θ|ϵ]<δ

Nous examinons la séquence bornée dans de nombres réels { P n [ | Θ ( S[0,1]

{Pn[|θ^(Sn)θ|ϵ]}

indexé par . Si cette séquence a une limite comme , appelez-la simplement , nous aurons celannp

(2)θΘ,ϵ>0,δ>0,Sn,n0(θ,ϵ,δ):nn0,|Pn[|θ(Sn^)-θ|ϵ]-p|<δ

Donc, si nous supposons (ou demandons) , nous supposons (ou demandons) essentiellement que la limite telle que existe et est égale à zéro, .(1)np=0

Donc lit "la limite de car est ". Quelle est exactement la définition actuelle de la cohérence (et oui, elle couvre "tous les échantillons possibles")(1)Pn[|θ(Sn^)θ|ϵ]n0

Il apparaît donc que l'OP a essentiellement proposé une expression alternative pour la même propriété exacte, et non une propriété différente, de l'estimateur.

ADDENDUM (oublié la partie historique)

Dans ses "Fondements de la théorie de la probabilité" (1933), Kolmogorov mentionne dans une note de bas de page que (le concept de convergence en probabilité)

"... est dû à Bernoulli; son traitement complètement général a été introduit par EESlutsky".

(en 1925). Le travail de Slutsky est en allemand - il peut même y avoir un problème de la façon dont le mot allemand a été traduit en anglais (ou le terme utilisé par Bernoulli). Mais n'essayez pas de trop lire dans un mot.

Alecos Papadopoulos
la source