Pourquoi la régression linéaire utilise-t-elle une fonction de coût basée sur la distance verticale entre l'hypothèse et le point de données d'entrée?

14

Disons que nous avons les points de données d'entrée (prédicteur) et de sortie (réponse) A, B, C, D, E et que nous voulons ajuster une ligne à travers les points. Il s'agit d'un problème simple pour illustrer la question, mais il peut également être étendu à des dimensions plus élevées.

Énoncé du problème

entrez la description de l'image ici

La meilleure adaptation ou hypothèse actuelle est représentée par la ligne noire ci-dessus. La flèche bleue ( ) représente la distance verticale entre le point de données et le meilleur ajustement actuel, en traçant une ligne verticale à partir du point jusqu'à ce qu'elle coupe la ligne.

La flèche verte ( ) est dessinée de manière à ce qu'elle soit perpendiculaire à l'hypothèse courante au point d'intersection, et représente ainsi la distance la plus faible entre le point de données et l'hypothèse courante. Pour les points A et B, une ligne tracée de telle sorte qu'elle soit verticale par rapport à la meilleure estimation actuelle et similaire à une ligne verticale par rapport à l'axe x. Pour ces deux points, les lignes bleues et vertes se chevauchent, mais pas pour les points C, D et E.

Le principe des moindres carrés définit la fonction de coût pour la régression linéaire en traçant une ligne verticale passant par les points de données (A, B, C, D ou E) jusqu'à l'hypothèse estimée ( ), à tout cycle de formation donné, et est représenté par

CostFunction=i=1N(yihθ(xi))2

Ici représente les points de données, et h θ ( x i ) représente le meilleur ajustement.(xi,yi)hθ(xi)

La distance minimale entre un point (A, B, C, D ou E) est représentée par une ligne perpendiculaire tracée à partir de ce point jusqu'à la meilleure estimation actuelle (flèches vertes).

Le but de la fonction des moindres carrés est de définir une fonction objective qui, lorsqu'elle est minimisée, donnerait lieu à la moindre distance entre l'hypothèse et tous les points combinés, mais ne minimisera pas nécessairement la distance entre l'hypothèse et un seul point d'entrée.

**Question**

Pourquoi ne définissons-nous pas la fonction de coût pour la régression linéaire comme la moindre distance entre le point de données d'entrée et l'hypothèse (définie par une ligne perpendiculaire à l'hypothèse) passant par le point de données d'entrée, comme indiqué par ( )?

alpha_989
la source
5
Une régression linéaire simple suppose qu'il n'y a pas d'erreur dans les valeurs des coordonnées x des observations (par exemple parce qu'il s'agit de manipulations expérimentales). S'il y a des erreurs sur l'axe des x, on peut les expliquer en minimisant une fonction de coût similaire à celle que vous proposez; cela nécessite de définir le rapport entre la variance des erreurs sur les axes x et y. Si le rapport =1 , cela revient à minimiser la distance perpendiculaire entre les points et la droite (régression orthogonale). Si le rapport est appelé régression Deeming1
matteo
Voir cet article sur PCA: cerebralmastication.com/2010/09/…
James

Réponses:

13

Lorsque vous avez du bruit dans la variable dépendante (erreurs verticales) et dans la variable indépendante (erreurs horizontales), la fonction objectif des moindres carrés peut être modifiée pour incorporer ces erreurs horizontales. Le problème de la pondération de ces deux types d'erreurs. Cette pondération dépend généralement du rapport des variances des deux erreurs:

  1. Si la variance de l'erreur verticale est extrêmement importante par rapport à la variance de l'erreur horizontale, OLS est correct.
  2. Si la variance de l'erreur horizontale est extrêmement grande par rapport à la variance de l'erreur verticale, les moindres carrés inverses (dans lesquels est régressé sur y et l'inverse de l'estimation du coefficient pour y est utilisé comme estimation de βxyyβ ) sont appropriés.
  3. Si le rapport de la variance de l'erreur verticale à la variance de l'erreur horizontale est égal au rapport des variances des variables dépendantes et indépendantes, on a le cas de la régression "diagonale", dans laquelle une estimation cohérente se révèle être être la moyenne géométrique des estimateurs OLS et des moindres carrés inverses.
  4. Si le rapport de ces variances d'erreur est un, alors nous avons le cas de la régression "orthogonale", dans laquelle la somme des erreurs quadratiques mesurées le long d'une ligne perpendiculaire à la ligne d'estimation est minimisée. Voilà ce que vous aviez en tête.

En pratique, le grand inconvénient de cette procédure est que le rapport des variances d'erreur n'est généralement pas connu et ne peut généralement pas être estimé, de sorte que la voie à suivre n'est pas claire.

Dimitriy V. Masterov
la source
J'ai essayé de modifier pour changer "dépendant" en "indépendant" dans la première phrase, mais les modifications doivent comporter 6 caractères. Peut-être mettre à jour la réponse pour corriger la faute de frappe?
Ryan Stout
@RyanStout Merci, et c'est fait. Je pense que l'insertion d'espaces vous permettra de contourner cela.
Dimitriy V. Masterov
Maintenant, je suis un peu confus: les erreurs verticales ne sont-elles pas les erreurs de la variable dépendante (y) et les erreurs horizontales de la variable indépendante (x)?
Ryan Stout
@RyanStout Je l'ai encore gâché
Dimitriy V. Masterov
9

i=1N(yihθ(xi))2
i=1Nminx,y[(yihθ(x))2+(xix)2]
hθ(x)
Moormanly
la source
C'est un bon point. Je réfléchissais à la manière de calculer la fonction de coût en général.
alpha_989
Je ne sais pas nécessairement comment évaluer la distance entre le point et un plan / surface non linéaire, mais pour évaluer la distance entre un point et un plan / surface linéaire, nous n'avons peut-être pas besoin d'une minimisation imbriquée: mathinsight.org/distance_point_plane
alpha_989
Deuxièmement, lorsque nous utilisons la régression, notre objectif est d'évaluer les poids pour trouver le meilleur ajustement. D'après ce que je comprends, lors du calcul réel, nous évaluons rarement la fonction de coût, mais une dérivée de la fonction de coût?
alpha_989
1
@whuber. Je vois. Une fois que nous avons établi ces significations pour ces deux termes, je conviens que les problèmes à résoudre sont différents (existe-t-il ou non la possibilité d'une erreur dans x). Je ne pense pas que vous obtiendrez un large consensus de la part de personnes bien informées sur le sens de ces termes, mais c'est un point secondaire.
stochastique
1
@Stochastic Je conviens qu'il peut y avoir du flou dans le concept de "courbe d'ajustement", mais le concept de régression que j'invoque apparaît dans les écrits des meilleures autorités.
whuber
2

La version simplifiée est que X est supposé n'avoir aucune erreur. Donc, si vous regardez le point E dans votre tracé par exemple, on suppose que sa coordonnée X est précise avec précision. C'est généralement le cas lorsque nous pouvons contrôler X, en d'autres termes lorsque nous pouvons le définir sur une valeur spécifique. Dans ce cas, la seule erreur qui peut exister est dans la direction Y, et c'est pourquoi la fonction erreur / coût inclut uniquement la direction Y.

Chaque fois que ce n'est pas le cas, chaque fois que nous ne contrôlons pas X et X peuvent avoir des erreurs, les gens incorporent la direction X dans la fonction d'erreur dans quelque chose appelé régression de type II ou modèle II, et ses variantes. Cela peut être difficile à faire si X et Y ont des échelles différentes, alors vous devez penser aux normalisations et autres.

CHP
la source
1

Au risque d'être prosaïque, la raison de la fonction d'erreur est que l'interprétation standard est que le x est donné et que l'on essaie de décrire (ou de prédire) au mieux la composante y. Il n'y a donc pas d'erreur dans le «x». Par exemple, vous pouvez essayer de comprendre (ou prédire) le cours de clôture d'un stock demain en fonction du cours de clôture d'aujourd'hui. De même, on pourrait essayer de comprendre la température moyenne de demain en termes de température moyenne d'aujourd'hui. Évidemment, ces exemples sont simples d'esprit, mais c'est l'idée. Soit dit en passant, la plupart des gens ne réalisent pas, mais je pense que cela ressort clairement de vos exemples, que si l'on régresse y contre x, la droite de régression ne doit pas avoir de ressemblance particulière avec la régression de x contre y. La régression orthogonale est le terme pour une régression où l'on essaie de trouver la ligne qui minimise la distance des points d'une ligne. Par exemple, si l'on essayait de comprendre la relation entre le prix du stock IBM et le prix du stock AAPL, ce serait la méthode appropriée.

meh
la source
1

Vous avez raison de dire que lorsque vous ajustez une ligne par des points, la distance orthogonale est la fonction de perte la plus naturelle qui peut être appliquée à des lignes arbitraires (notez que la distance y perd tout son sens pour les lignes perpendiculaires à l'axe des x). Ce problème est connu sous un certain nombre de noms, par exemple «régression orthogonale» ou (le terme le plus utilisé, AFAIK) «Analyse en composantes principales» (ACP). Pour une discussion de ce problème dans des dimensions arbitraires, voir

Späth: "Les moindres carrés orthogonaux s'adaptant aux collecteurs linéaires." Numerische Mathematik 48, p. 441–445, 1986

Comme @aginensky déjà souligné, l'idée derrière la régression linéaire est de ne pas tenir une ligne par des points, mais pour prédire des valeurs y pour des valeurs x données. C'est pourquoi seule la distance en y est utilisée, qui est la précision de prédiction.

Reformuler le problème de l'ajustement d'une courbe X(t) à travers des points pje, je=1N comme un problème de prédiction rend les choses compliquées, car le prédicteur test inconnue et même dans une certaine mesure arbitraire. Pour les courbes autres que les lignes droites, c'est toujours un problème qui fait l'objet de recherches actives. Une approche possible (incomplète) est décrite dans l'article suivant, qui est incomplète car elle ne fournit pas de solution pour trouver une estimation initiale de la courbe, mais seulement comment améliorer itérativement une telle estimation initiale:

Wang, Pottmann, Liu: "Ajustement des courbes B-spline aux nuages ​​de points par minimisation de la distance au carré basée sur la courbure." ACM Transactions on Graphics 25.2, pp. 214-238, 2006

cdalitz
la source