Pourquoi avons-nous besoin d'un estimateur pour être cohérent?

15

Je pense que j'ai déjà compris la définition mathématique d'un estimateur cohérent. Corrige moi si je me trompe:

Wn est un estimateur cohérent pour siθϵ>0

limnP(|Wnθ|>ϵ)=0,θΘ

Où, Θ est l'espace paramétrique. Mais je veux comprendre la nécessité pour un estimateur d'être cohérent. Pourquoi un estimateur qui n'est pas cohérent est mauvais? Pourriez-vous me donner quelques exemples?

J'accepte les simulations en R ou en python.

Fam
la source
3
Un estimateur qui n'est pas cohérent n'est pas toujours mauvais. Prenons par exemple un estimateur incohérent mais non biaisé. Voir l'article de Wikipédia sur Consistent Estimator en.wikipedia.org/wiki/Consistent_estimator , en particulier la section sur le biais par rapport à la cohérence
compbiostats
La cohérence est en gros un comportement asymptotique optimal d'un estimateur. Nous choisissons un estimateur qui approche la vraie valeur de à long terme. Comme il ne s'agit que de convergence de probabilité, ce fil pourrait être utile: stats.stackexchange.com/questions/134701/… . θ
StubbornAtom
@StubbornAtom, je prendrais soin d'appeler un estimateur aussi cohérent "optimal", car ce terme est généralement réservé aux estimateurs qui sont également, dans un certain sens, efficaces.
Christoph Hanck

Réponses:

22

Si l'estimateur n'est pas cohérent, il ne convergera pas vers la vraie valeur de probabilité . En d'autres termes, il y a toujours une probabilité que votre estimateur et votre valeur réelle aient une différence, quel que soit le nombre de points de données dont vous disposez. C'est en fait mauvais, car même si vous collectez une énorme quantité de données, votre estimation aura toujours une probabilité positive d'être différente de de la valeur réelle. En pratique, vous pouvez considérer cette situation comme si vous utilisez un estimateur d'une quantité telle que même enquêter sur toute la population, au lieu d'un petit échantillon, ne vous aidera pas.ϵ>0

gunes
la source
21

Considérons observations de la distribution standard de Cauchy, qui est la même que la distribution t de Student avec 1 degré de liberté. Les queues de cette distribution sont suffisamment lourdes pour n'avoir aucun moyen; la distribution est centrée à sa médianen=10000η=0.

Une séquence d'échantillon signifie que n'est pas cohérent pour le centre de la distribution de Cauchy. En gros, la difficulté est que des observations très extrêmes (positives ou négatives) se produisent avec une régularité suffisante pour qu'il n'y ait aucune chance pour que converge vers (Les ne sont pas seulement lents à converger, ils ne La distribution de est à nouveau standard Cauchy [ preuve ].)Aj=1ji=1jXiXiAjη=0.AjAj

En revanche, à n'importe quelle étape d'un processus d'échantillonnage continu, environ la moitié des observations se de chaque côté de sorte que la séquence des médianes de l'échantillon converge versXiη,Hjη.

Ce manque de convergence de et de convergence de est illustré par la simulation suivante.AjHj

set.seed(2019)  # for reproducibility
n = 10000;  x = rt(n, 1);  j = 1:n
a = cumsum(x)/j
h = numeric(n)
for (i in 1:n) {
  h[i] = median(x[1:i])  } 
par(mfrow=c(1,2))
 plot(j,a, type="l", ylim=c(-5,5), lwd=2,
    main="Trace of Sample Mean")
  abline(h=0, col="green2")
  k = j[abs(x)>1000] 
  abline(v=k, col="red", lty="dotted")
 plot(j,h, type="l", ylim=c(-5,5), lwd=2,
     main="Trace of Sample Median")
  abline(h=0, col="green2") 
par(mfrow=c(1,1))

entrez la description de l'image ici

Voici une liste d'étapes auxquelles Vous pouvez voir l'effet de certaines de ces observations extrêmes sur les moyennes mobiles dans le graphique de gauche (sur les lignes verticales en pointillés rouges).|Xi|>1000.

k = j[abs(x)>1000]
rbind(k, round(x[k]))
   [,1] [,2] [,3]  [,4] [,5]  [,6]   [,7]  [,8]
k   291  898 1293  1602 2547  5472   6079  9158
  -5440 2502 5421 -2231 1635 -2644 -10194 -3137

Cohérence dans les estimations importantes: Dans l'échantillonnage d'une population de Cauchy, la moyenne d'échantillon d'un échantillon de observations n'est pas meilleure pour estimer le centre qu'une seule observation. En revanche, la médiane de l'échantillon cohérent converge vers sorte que des échantillons plus grands produisent de meilleures estimations.n=10000ηη,

BruceET
la source
1
Nitpicking un peu, mais votre simulation illustre l'échec de la moyenne de l'échantillon à converger presque sûrement, pas en probabilité, vers le centre de Cauchy (cohérence forte vs faible).
aleshing
9

Un exemple très simple de la raison pour laquelle il est important de penser à la cohérence, qui, je pense, ne retient pas suffisamment l'attention, est celui d'un modèle trop simplifié.

À titre d'exemple théorique, supposons que vous vouliez ajuster un modèle de régression linéaire sur certaines données, dans lesquelles les vrais effets étaient en fait non linéaires. Ensuite, vos prévisions ne peuvent pas être cohérentes pour la vraie moyenne de toutes les combinaisons de covariables, alors qu'une plus flexible peut le faire. En d'autres termes, le modèle simplifié comportera des lacunes qui ne peuvent être surmontées en utilisant davantage de données.

Cliff AB
la source
Ce n'est pas nécessairement vrai, car les modèles de régression linéaire "correspondent toujours", dans le sens où . on pourrait dire que le modèle est bon, mais l '"erreur" suppose en fait que les résidus ont une distribution normale iid. yi=y^i+e^i
probabilitéislogic
8

@BruceET a déjà donné une excellente réponse technique, mais je voudrais ajouter un point sur l'interprétation de tout cela.

L'un des concepts fondamentaux de la statistique est qu'à mesure que la taille de notre échantillon augmente, nous pouvons tirer des conclusions plus précises sur notre distribution sous-jacente. Vous pourriez penser que c'est la notion que le fait de prendre beaucoup d'échantillons élimine la gigue aléatoire dans les données, nous obtenons donc une meilleure notion de la structure sous-jacente.

Les exemples de théorèmes dans cette veine sont nombreux, mais le plus connu est la loi des grands nombres, affirmant que si nous avons une famille de variables aléatoires iid and , puis(Xi)iN E[X1]<

1nk=1nXkE[X]   a.s.

Maintenant, exiger qu'un estimateur soit cohérent, c'est exiger qu'il suive également cette règle: comme son travail consiste à estimer un paramètre inconnu, nous aimerions qu'il converge vers ce paramètre (lire: estimer ce paramètre arbitrairement bien) comme notre échantillon. la taille tend vers l'infini.

L'équation

limnP(|Wnθ|>ϵ)=0,ϵ>0 θ Θ

n'est rien d'autre que la convergence en probabilité des variables aléatoires vers , ce qui signifie que dans un certain sens , un échantillon plus grand nous rapprochera de plus en plus de la vraie valeur.Wnθ

Maintenant, si vous le souhaitez, vous pouvez le regarder à l'inverse: si cette condition échouait, alors même avec une taille d'échantillon infinie, il y aurait un "couloir" de largeur positive autour de et une probabilité non nulle que même avec une taille d'échantillon arbitrairement grande, notre estimateur tombera en dehors de ce couloir. Et cela violerait évidemment l'idée susmentionnée, donc la cohérence est une condition très naturelle pour les estimateurs de vouloir et d'appliquer.[θε,θ+ε]θ

Marc Vaisband
la source