Je lis l'apprentissage en profondeur par Ian Goodfellow et al. Il introduit un biais car
La cohérence, d'autre part, est définie par
ce qui signifie que pour tout , as
Ensuite, il dit que la cohérence implique l'impartialité, mais pas l'inverse:
La cohérence garantit que le biais induit par l'estimateur diminue à mesure que le nombre d'exemples de données augmente. Cependant, l'inverse n'est pas vrai - l'impartialité asymptotique n'implique pas la cohérence. Par exemple, considérons l'estimation du paramètre moyen μ d'une distribution normale N (x; μ, σ2), avec un ensemble de données composé de m échantillons: . Nous pourrions utiliser le premier échantillon de l'ensemble de données comme estimateur non biaisé: \ hatθ = x ^ {(1)} . Dans ce cas, E (\ hat θ_m) = θ donc l'estimateur est sans biais, quel que soit le nombre de points de données visibles. Cela implique bien sûr que l'estimation est asymptotiquement non biaisée. Cependant, ce n'est pas un estimateur cohérent car il n'est pas vrai que \ hatθ_m → θ as
Je ne sais pas si j'ai bien compris le paragraphe ci-dessus et les concepts d'impartialité et de cohérence, j'espère que quelqu'un pourrait m'aider à le vérifier. Merci d'avance.
D'après ce que je comprends, la cohérence implique à la fois un caractère non biaisé et une faible variance et, par conséquent, le caractère non biaisé seul n'est pas suffisant pour impliquer la cohérence.
la source
Réponses:
Dans ce paragraphe, les auteurs donnent un exemple extrême pour montrer comment le fait d'être impartial ne signifie pas qu'une variable aléatoire converge vers quoi que ce soit.
Les auteurs prennent un échantillon aléatoire et veulent estimer . En notant que , nous pourrions produire un estimateur non biaisé de en ignorant simplement toutes nos données à l'exception du premier point . Mais c'est clairement une idée terrible, donc l'impartialité seule n'est pas un bon critère pour évaluer un estimateur. D'une manière ou d'une autre, à mesure que nous obtenons plus de données, nous voulons que notre estimateur varie de moins en moins de , et c'est exactement ce que dit la cohérence: pour toute distance , la probabilité que soit plus que éloigné deX1,…,Xn∼N(μ,σ2) μ E(X1)=μ μ X1 μ ε θ^n ε θ se dirige vers comme . Et cela peut arriver même si pour tout fini est biaisé. Un exemple de ceci est l'estimateur de variance dans un échantillon normal. Ceci est biaisé mais cohérent.0 n→∞ n θ^ σ^2n=1n∑ni=1(yi−y¯n)2
Intuitivement, une statistique est non biaisée si elle est exactement égale à la quantité cible lorsqu'elle est calculée en moyenne sur tous les échantillons possibles. Mais nous savons que la moyenne d'un tas de choses n'a pas besoin d'être proche de la moyenne des choses; c'est juste une version plus sophistiquée de la façon dont la moyenne de et est , bien que ni ni soient particulièrement proches de (selon la façon dont vous mesurez "proche").0 1 1/2 0 1 1/2
Voici un autre exemple (bien que ce soit presque le même exemple déguisé). Soit et laissez . Notre estimateur de sera . Notez que nous avons donc en effet un estimateur sans biais. Mais donc cet estimateur ne converge certainement pas vers quelque chose de proche de , et pour chaque nous avons en fait encore .X1∼Bern(θ) X2=X3=⋯=X1 θ θ^(X)=X¯n EX¯n=p X¯n=X1∈{0,1} θ∈(0,1) n X¯n∼Bern(θ)
la source
Droite. Ou en utilisant les termes un peu plus profanes de «précision» pour un faible biais et de «précision» pour une faible variance, la cohérence exige que nous soyons à la fois précis et précis. Être juste ne signifie pas que nous atteignons la cible. C'est comme la vieille blague sur deux statisticiens qui partent à la chasse. On manque un cerf à dix pieds à gauche. L'autre manque dix pieds à droite. Ils se félicitent ensuite les uns les autres sur la base qu'en moyenne, ils ont frappé le cerf. Même si leur biais est nul, pour toucher réellement le cerf, ils ont également besoin d'une faible variance.
la source