Biais vers les nombres naturels dans le cas des moindres carrés

14

Pourquoi cherchons-nous à minimiser x^2au lieu de minimiser |x|^1.95ou |x|^2.05. Y a-t-il des raisons pour lesquelles le nombre devrait être exactement deux ou est-ce simplement une convention qui a l'avantage de simplifier les calculs?

Christian
la source

Réponses:

5

Cette question est assez ancienne mais j'ai en fait une réponse qui n'apparaît pas ici, et qui donne une raison convaincante pour laquelle (sous certaines hypothèses raisonnables) l'erreur quadratique est correcte, tandis que tout autre pouvoir est incorrect.

Disons que nous avons certaines données et veulent trouver la fonction linéaire (ou autre) f qui prédit le mieux les données, en ce sens que la densité de probabilité p f ( D ) pour l'observation de ces données doit être maximale par rapport à f (cela s'appelle leD=(x1,y1),(x2,y2),...,(xn,yn)fpf(D)festimation du maximum de vraisemblance ). Si nous supposons que les données sont données par plus un terme d'erreur normalement distribué avec l'écart-type σ , alors p f ( D ) = n i = 1 1Fσ Cela équivaut à 1

pf(D)=i=1n1σ2πe(yif(xi))22σ2.
On maximise doncpf(D)en minimisant n i = 1 (yi-f(xi))2, c'est-à-dire la somme des termes d'erreur au carré.
1σn(2π)n/2e12σ2i=1n(yif(xi))2.
pf(D)i=1n(yif(xi))2

la source
Cela semble circulaire, pourquoi devriez-vous supposer un terme d'erreur normalement distribué?
Joe
@Joe Vous ne devriez pas toujours, mais si la seule chose que vous savez sur le terme d'erreur est qu'il a une moyenne de 0 et une valeur absolue attendue finie, alors c'est l'hypothèse d'entropie maximale, donc il peut remplacer tout ce qui est inconnu. fonction d'erreur que vous avez réellement. Si vous avez des informations supplémentaires sur la distribution des erreurs, je suppose que vous pouvez l'utiliser et trouver un estimateur du maximum de vraisemblance plus précis.
"si la seule chose que vous savez sur le terme d'erreur est qu'il a une moyenne de 0 et une valeur absolue attendue finie, alors c'est l'hypothèse d'entropie maximale" - chaque dérivation des distributions d'entropie maximales que j'ai vues dérive la distribution de Laplace comme distribution maxent pour une valeur absolue attendue finie (connue), tandis que le gaussien est le maxent pour une valeur absolue attendue finie (connue) finie, voir à titre d'exemple stats.stackexchange.com/questions/82410/… avez-vous des citations en désaccord ?
Joe
Tu sais, non. Je suppose que tu as raison. (Bien que je ne
14

Il n'y a aucune raison que vous ne puissiez pas essayer de minimiser les normes autres que x ^ 2, il y a eu des livres entiers écrits sur la régression quantile, par exemple, qui est plus ou moins minimisant | x | si vous travaillez avec la médiane. C'est généralement plus difficile à faire et, selon le modèle d'erreur, peut ne pas donner de bons estimateurs (selon que cela signifie des estimateurs à faible variance ou sans biais ou à faible MSE dans le contexte).

Quant à savoir pourquoi nous préférons les moments entiers aux moments de valeur réelle, la principale raison est probable que si les puissances entières de nombres réels donnent toujours des nombres réels, les puissances non entières de nombres réels négatifs créent des nombres complexes, nécessitant ainsi l'utilisation de une valeur absolue. En d'autres termes, alors que le 3ème moment d'une variable aléatoire à valeur réelle est réel, le 3,2ème moment n'est pas nécessairement réel, et donc pose des problèmes d'interprétation.

Autre que ça...

  1. Les expressions analytiques pour les moments entiers de variables aléatoires sont généralement beaucoup plus faciles à trouver que les moments réels, que ce soit en générant des fonctions ou une autre méthode. Les méthodes pour les minimiser sont donc plus faciles à écrire.
  2. L'utilisation de moments entiers conduit à des expressions qui sont plus maniables que les moments de valeur réelle.
  3. Je ne peux pas penser à une raison convaincante que (par exemple) le 1,95e moment de la valeur absolue de X fournirait de meilleures propriétés d'ajustement que (par exemple) le 2e moment de X, bien que cela puisse être intéressant à étudier
  4. Spécifique à la norme L2 (ou erreur quadratique), il peut être écrit via des produits scalaires, ce qui peut conduire à de grandes améliorations de la vitesse de calcul. C'est également le seul espace Lp qui est un espace Hilbert, ce qui est une fonctionnalité intéressante à avoir.
Riches
la source
8

Nous essayons de minimiser la variance qui reste dans les descripteurs. Pourquoi la variance? Lisez cette question ; cela vient également avec l'hypothèse (généralement silencieuse) que les erreurs sont normalement distribuées.

Extension:
deux arguments supplémentaires:

  1. Pour les variances, nous avons cette belle "loi" selon laquelle la somme des variances est égale à la variance de la somme, pour les échantillons non corrélés. Si nous supposons que l'erreur n'est pas corrélée avec le cas, la minimisation du résidu des carrés fonctionnera directement pour maximiser la variance expliquée, ce qui est peut-être une mesure de qualité pas si bonne mais toujours populaire.

  2. Si nous supposons la normalité d'une erreur, l'estimateur d'erreur des moindres carrés est une vraisemblance maximale.

Communauté
la source
1
La réponse dans cet autre thread n'explique pas vraiment pourquoi 2 est une meilleure valeur que d'autres valeurs très proches de 2 mais qui ne sont pas des nombres naturels.
Christian
Je pense que oui; je vais quand même essayer d'étendre la réponse.
Donc, si les erreurs ne sont pas normalement distribuées, mais par exemple selon une autre distribution stable de Lévy, cela pourrait être payant d'utiliser un exposant différent de 2?
Raskolnikov
Rappelez-vous que la distribution normale est la plus "prudente" pour la variance connue (car elle a une entropie maximale parmi toutes les densités à variance fixe). Il laisse le plus à dire par les données. Ou, autrement dit, pour les "grands" ensembles de données avec la même variance, "vous" devez "essayer" incroyablement fort pour obtenir une distribution qui est différente d'une normale.
probabilislogic
8

Dans les moindres carrés ordinaires, la solution de (A'A) ^ (- 1) x = A'b minimise la perte d'erreur au carré, et est la solution du maximum de vraisemblance.

Donc, en grande partie parce que les calculs étaient faciles dans ce cas historique.

Mais généralement, les gens minimisent de nombreuses fonctions de perte différentes , telles que exponentielle, logistique, cauchy, laplace, huber, etc. Ces fonctions de perte plus exotiques nécessitent généralement beaucoup de ressources de calcul et n'ont pas de solutions sous forme fermée (en général), donc ils commencent seulement à devenir plus populaires maintenant.

Joe
la source
1
+1 pour avoir introduit l'idée de perte. (Mais les distributions «exponentielles», etc., ne sont-elles pas des fonctions de perte?) Historiquement, la perte linéaire a été la première approche formellement développée, en 1750, et une solution géométrique simple était disponible. Je crois que Laplace a établi la relation entre cela et la distribution double exponentielle dans une publication de 1809 (pour laquelle le MLE minimisera l'erreur absolue, pas l'erreur quadratique). Ainsi, la perte au carré ne se distingue pas uniquement par les critères d'avoir un MLE et d'être mathématiquement facile.
whuber
Ce sont à la fois des distributions et des fonctions de perte dans différents contextes.
Joe
J'ai appuyé trop rapidement sur la réponse précédente - la perte exponentielle est largement associée au renforcement (voir Friedman Hastie et Tibshirani's Statistical View of Boosting), où il s'agit d'une perte plutôt que d'une distribution, la régression logistique correspond à la perte de journal, laplace est une distribution mais correspond à une perte de valeur absolue - donc pour la plupart, j'étais extrêmement bâclé, merci de l'avoir signalé. Mais alors que la perte L1 a une solution géométrique, ce n'est pas une forme analytiquement fermée, donc j'appellerais difficilement sa solution facile.
Joe
1

Je crois comprendre que parce que nous essayons de minimiser les erreurs, nous devons trouver un moyen de ne pas nous mettre dans une situation où la somme de la différence négative d'erreurs est égale à la somme de la différence positive d'erreurs mais nous ne l'avons pas trouvé un bon ajustement. Nous faisons cela en mettant au carré la somme de la différence d'erreurs, ce qui signifie que la différence négative et positive d'erreurs devient positive (-1×-1=1). Si nous avons soulevéX à la puissance de tout autre chose qu'un entier positif, nous ne réglerions pas ce problème parce que les erreurs n'auraient pas le même signe, ou si nous élevions à la puissance de quelque chose qui n'est pas un entier, nous entrerions dans les domaines du complexe Nombres.

Ian Turner
la source