Si vous avez deux estimateurs concurrents thetav 1 et θ 2 ou non, M S E ( θ 1 ) < M S E ( θ 2 ) vous indique que θ 1 est le meilleur estimateur dépend entièrement de votre définition "meilleur". Par exemple, si vous comparez estimateurs sans biais et par « mieux » signifie que vous a une variance plus faible alors, oui, cela impliquerait que θ 1 est mieux. M S Eθ^1θ^2
MSE(θ^1)<MSE(θ^2)
θ^1θ^1MSEest un critère populaire en raison de sa connexion avec les moindres carrés et la log-vraisemblance gaussienne mais, comme de nombreux critères statistiques, il convient de ne pas utiliser
MSE aveuglément comme mesure de la qualité de l'estimateur sans prêter attention à l'application.
Il existe certaines situations où le choix d'un estimateur pour minimiser peut ne pas être une chose particulièrement judicieuse à faire. Deux scénarios me viennent à l'esprit:MSE
S'il y a de très grandes valeurs aberrantes dans un ensemble de données, elles peuvent affecter considérablement l'ESM et donc l'estimateur qui minimise l'ESM peut être indûment influencé par ces valeurs aberrantes. Dans de telles situations, le fait qu'un estimateur minimise le MSE ne vous dit pas grand-chose, car si vous supprimez les valeurs aberrantes, vous pouvez obtenir une estimation très différente. En ce sens, le MSE n'est pas "robuste" aux valeurs aberrantes. Dans le contexte de la régression, c'est ce qui a motivé le Huber M-Estimator (dont je parle dans cette réponse), qui minimise une fonction de critère différente (c'est-à-dire un mélange entre l'erreur quadratique et l'erreur absolue) lorsqu'il y a des erreurs à longue queue .
Si vous estimez un paramètre borné, la comparaison des peut ne pas être appropriée car elle pénalise la surestimation et la sous-estimation différemment dans ce cas. Par exemple, supposons que vous estimez une variance, σ 2 . Ensuite, si vous sous-estimez consciemment la quantité, votre M S E peut être au plus σ 4 , tandis que la surestimation peut produire un M S E qui dépasse de loin σ 4 , peut-être même d'une quantité illimitée.MSEσ2MSEσ4MSEσ4
Pour clarifier ces inconvénients, je vais donner un exemple concret du moment où, en raison de ces problèmes, le peut ne pas être une mesure appropriée de la qualité de l'estimateur.MSE
Supposons que vous ayez un échantillon partir d'une distribution t avec ν > 2 degrés de liberté et nous essayons d'estimer la variance, qui est ν / ( ν - 2 ) . Considérons deux estimateurs en compétition: thetav 1 : t h e u n b i a s e d d' un m p l e v a r iX1,...,Xntν>2ν/(ν−2)et
θ^1:the unbiased sample variance
clair
MSE( θ 2)=ν2θ^2=0, regardless of the data
et il est un fait que
MSE( θ 1)={ ∞ si ν ≤ 4 ν 2MSE(θ^2)=ν2(ν−2)2MSE(θ^1)={∞ν2(ν−2)2(2n−1+6n(ν−4))if ν≤4if ν>4.
t-distribution .
Ainsi, l'estimateur naïf surpasse en termes deM S E quelle que soit la taille de l'échantillon à chaque fois ν< 4, ce qui est plutôt déconcertant. Il surpasse également lorsque
( 2n - 1+ 6n ( ν- 4 )) >1mais cela ne concerne que les très petits échantillons. Ce qui précède se produit en raison de la nature à longue queue du
t distribution avec de faibles degrés de liberté, ce qui rend
θ^2 sujettes à de très grandes valeurs et
M S E pénalise fortement la surestimation, tandis que
θ^1 n'a pas ce problème.
L'essentiel ici est que M S En'est pas une performance d'estimateur de mesure appropriée dans ce scénario . Cela est clair parce que l'estimateur qui domine en termes deM S Eest ridicule (d'autant plus qu'il n'y a aucune chance qu'elle soit correcte s'il y a une variabilité dans les données observées). Peut-être qu'une approche plus appropriée (comme l'ont souligné Casella et Berger) serait de choisir l'estimateur de variance,θ^ qui minimise la perte de Stein:
S(θ^)=θ^ν/(ν−2)−1−log(θ^ν/(ν−2))
which penalizes underestimation equally to overestimation. It also brings us back to sanity since S(θ^1)=∞ :)
MSE corresponds to the risk (expected loss) for the squared error loss functionL(αi)=(αi−α)2 . The squared error loss function is very popular but only one choice of many. The procedure you describe is correct under squared error loss; the question is whether that's appropriate in your problem or not.
la source
Because the functionf(x)=x2 is differentiable, it makes finding the minimum MSE easier from both a theoretical and numerical standpoint. For example, in ordinary least squares you can solve explicity for the fitted slope and intercept. From a numerical standpoint, you have more efficient solvers when you have a derivative as well.
Mean square error typically overweights outliers in my opinion. This is why it is often more robust to use the mean absolute error, i.e. usef(x)=|x| as your error function. However, since it is non-differentiable it makes the solutions more difficult to work with.
MSE is probably a good choice if the error terms are normally distributed. If they have fatter tails, a more robust choice such as absolute value is preferable.
la source
Dans Case & Berger Statistical Inference 2nd edition, la page 332 déclare que le MSE pénalise également la surestimation et la sous-estimation, ce qui est bien dans le cas de la localisation. Dans le cas de l'échelle, cependant, 0 est une borne inférieure naturelle, donc le problème d'estimation n'est pas symétrique. Dans ce cas, l'utilisation de MSE tend à pardonner la sous-estimation.
Vous voudrez peut-être vérifier quel estimateur satisfait les propriétés UMVUE, ce qui signifie utiliser la borne inférieure de Cramer-Rao. Page 341.
la source