Il y a déjà un article sur ce site qui parle du même problème: pourquoi le retrait fonctionne-t-il?
Mais, même si les réponses sont populaires, je ne crois pas que l'essentiel de la question soit vraiment abordé. Il est assez clair que l'introduction d'un biais dans l'estimation entraîne une réduction de la variance et peut améliorer la qualité de l'estimation. Pourtant:
1) Pourquoi les dommages causés par l'introduction de biais sont-ils moins importants que le gain de variance?
2) Pourquoi ça marche toujours? Par exemple en cas de Ridge Regression: le théorème d'existence
3) Qu'est-ce qui est si intéressant à propos de 0 (l'origine)? De toute évidence, nous pouvons rétrécir où nous voulons (c.-à-d. L' estimateur Stein ), mais cela fonctionnera-t-il aussi bien que l'origine?
4) Pourquoi divers schémas de codage universels préfèrent-ils un nombre de bits inférieur autour de l'origine? Ces hypothèses sont-elles simplement plus probables?
Des réponses contenant des références à des théorèmes éprouvés ou à des résultats établis sont attendues.
la source
Réponses:
Ce n'est pas nécessaire, c'est généralement le cas . Que le compromis en vaille la peine dépend de la fonction de perte. Mais les choses dont nous nous soucions dans la vie réelle sont souvent similaires à l'erreur quadratique (par exemple, nous nous soucions plus d'une grosse erreur que d'environ deux erreurs de la moitié de la taille).
À titre de contre-exemple - imaginez que pour les admissions à l'université, nous réduisons un peu les scores SAT des gens vers le SAT moyen pour leur démographie (quelle que soit la définition). Si cela est fait correctement, cela réduira la variance et l'erreur quadratique moyenne des estimations de (une sorte de) capacité de la personne tout en introduisant un biais. La plupart des gens estiment à mon humble avis qu'un tel compromis est inacceptable.
Je pense que c'est parce que nous réduisons généralement les coefficients ou les estimations des effets. Il y a des raisons de croire que la plupart des effets ne sont pas importants (voir par exemple la prise d' Andrew Gelman ). Une façon de le dire est qu'un monde où tout influence tout avec un fort effet est un monde violent et imprévisible. Puisque notre monde est suffisamment prévisible pour nous permettre de vivre longtemps et de construire des civilisations semi-stables, il s'ensuit que la plupart des effets ne sont pas importants.
Comme la plupart des effets ne sont pas importants, il est utile de réduire à tort les quelques très gros effets tout en réduisant correctement les charges d'effets négligeables.
Je crois que c'est juste une propriété de notre monde et vous pourriez probablement construire des mondes auto-cohérents où le retrait n'est pas pratique (très probablement en faisant de l'erreur quadratique moyenne une fonction de perte impossible). Ce n'est tout simplement pas le monde dans lequel nous vivons.
D'un autre côté, lorsque nous considérons le retrait comme une distribution antérieure dans l'analyse bayésienne, il y a des cas où le retrait à 0 est activement nuisible dans la pratique.
Un exemple est l'échelle de longueur dans les processus gaussiens (où 0 est problématique) la recommandation dans le manuel de Stan est d'utiliser un a priori qui met un poids négligeable proche de zéro, c'est-à-dire "rétrécissant" efficacement les petites valeurs à partir de zéro. De même, les antérieurs recommandés pour la dispersion dans la distribution binomiale négative se rétractent efficacement à partir de zéro. Enfin et surtout, chaque fois que la distribution normale est paramétrée avec précision (comme dans INLA), il est utile d'utiliser le gamma inverse ou d'autres distributions antérieures qui s'éloignent de zéro.
Maintenant, c'est loin de ma profondeur, mais Wikipedia dit que dans le schéma de codage universel, nous attendons ( par définition ) pour tout positif donc cette propriété semble être une simple conséquence de la définition et pas lié au retrait (ou est-ce que je manque quelque chose?)P( i ) ≥ P( i + 1 ) je
la source
La crête, le lasso et le filet élastique sont similaires aux méthodes bayésiennes avec des a priori centrés sur zéro - voir, par exemple, Statistical Learning with Sparsity de Hastie, Tibshirani et Wainwright, section
2.9 Lq Penalties and Bayes Estimates
: "Il existe également une vue bayésienne de ces estimateurs. ... Cela signifie que l'estimation au lasso est l'estimateur bayésien MAP (maximum aposteriori) utilisant un a priori laplacien. "Une façon de répondre à votre question (
what's so special about zero?
) est que les effets que nous estimons sont en moyenne nuls, et ils ont tendance à être petits (c'est-à-dire que nos priorités doivent être centrées autour de zéro). Le rétrécissement des estimations vers zéro est alors optimal au sens bayésien, et le lasso et la crête et les filets élastiques peuvent être pensés à travers cette lentille.la source