Je commence tout juste avec un apprentissage en machine et, jusqu'à présent, je m'occupais de la régression linéaire sur une variable.
J'ai appris qu'il y a une hypothèse qui est:
Pour trouver de bonnes valeurs pour les paramètres et nous souhaitons minimiser la différence entre le résultat calculé et le résultat réel de nos données de test. Alors on soustraitθ 1
pour tout de à . Nous calculons donc la somme sur cette différence, puis calculons la moyenne en multipliant la somme par . Jusqu'ici tout va bien. Cela se traduirait par:1 m 1
Mais ce n'est pas ce qui a été suggéré. Au lieu de cela, le cours suggère de prendre le carré de la différence et de le multiplier par . Donc la formule est:
Pourquoi donc? Pourquoi utilisons-nous la fonction carrée ici et pourquoi multiplions-nous par au lieu de ? 1
la source
Réponses:
Votre fonction de perte ne fonctionnerait pas car elle incitait à définirθ1 sur une valeur finie et θ0 à - ∞ .
Appelonsr ( x , y) = 1mΣmi = 1hθ( x( i )) -y lerésidudeh .
Votre objectif est de rendrer plus proche possible de zéro , pas seulement de le minimiser . Une valeur négative élevée est aussi mauvaise qu'une valeur positive élevée.
EDIT: Vous pouvez y remédier en limitant artificiellement l'espace des paramètresΘ (par exemple, vous voulez | θ0| <10 ). Dans ce cas, les paramètres optimaux se situeraient sur certains points de la limite de l’espace paramétrique. Voir https://math.stackexchange.com/q/896388/12467 . Ce n'est pas ce que tu veux.
Pourquoi utilisons-nous la perte carrée
L'erreur au carré obligeh ( x ) et y à correspondre. Elle est minimisée à u = v , si possible, et vaut toujours ≥ 0 , car c'est un carré du nombre réel u - v .
Alors, pourquoi la perte au carré est-elle meilleure que celles-ci? C'est une question profonde liée au lien entre l' inférence Frequentist et Bayésienne . En bref, l'erreur au carré concerne le bruit gaussien .
Si vos données ne correspondent pas exactement à tous les points, c'est-à-dire queh(x)−y n'est pas nul quel que soit le θ vous choisissez (comme cela se produira toujours dans la pratique), cela peut être dû au bruit . Dans tout système complexe, il existe de nombreuses petites causes indépendantes de la différence entre votre modèle h et la réalité y : erreur de mesure, facteurs environnementaux, etc. Selon le théorème de la limite centrale (CLT), le bruit total serait réparti Normalement , c.-à-d. Distribution gaussienne . Nous voulons choisir le meilleur ajustement θ en tenant compte de cette répartition du bruit. Supposons que R=h(X)−Y , la partie de y que votre modèle ne peut pas expliquer, suit la distribution gaussienne N(μ,σ) . Nous utilisons des majuscules parce que nous parlons maintenant de variables aléatoires.
La distribution gaussienne a deux paramètres, moyenneμ=E[R]=1m∑ihθ(X(i))−Y(i)) et varianceσ2=E[R2]=1m∑i(hθ(X(i))−Y(i)))2 . Voiricipour mieux comprendre ces termes.
Considérezμ , c’est l’ erreur systématique de nos mesures. Utilisez h′(x)=h(x)−μ pour corriger l’erreur systématique, de sorte que μ′=E[R′]=0 (exercice pour le lecteur). Rien d'autre à faire ici.
Pour prendre en compte simultanément la moyenne et la variance, nous incluons un terme de biais dans notre classificateur (afin de traiter l'erreur systématiqueμ ), puis nous minimisons la perte en carrés.
Questions de suivi:
Perte des moindres carrés = erreur gaussienne. Est-ce que chaque autre fonction de perte correspond également à une certaine distribution de bruit? Oui. Par exemple, la perteℓ1 (minimisation de la valeur absolue au lieu de l'erreur au carré) correspond à la distribution de Laplace (regardez la formule du PDF dans l'infobox - il s'agit simplement de la gaussienne avec | x-μ | au lieu de ( x - μ )2 ). Une perte populaire pour les distributions de probabilité est la divergence KL . -La distribution gaussienne est très motivée par le théorème de la limite centrale, dont nous avons discuté plus tôt. Quand la distribution de Laplace est-elle le bon modèle de bruit? Il y a des circonstances où il se réalise naturellement, mais il est plus communément comme régularisateur pour faire respecter la parcimonie : la ℓ1 perte est le moins convexe parmi toutes les pertes convexes.
Existe-t-il des situations dans lesquelles nous minimisons à la fois la moyenne et la variance? Oui. Cherchez le compromis biais-variance . Ici, nous regardons un ensemble de classificateurshθ∈ H et parmi eux demander quel est le meilleur. Si nous demandons quel ensemble de classificateurs est le meilleur pour un problème, minimiser à la fois le biais et la variance devient important. Il s'avère qu'il y a toujours un compromis entre eux et nous utilisons la régularisation pour parvenir à un compromis.
En ce qui concerne le12 terme
Le 1/2 n'a pas d'importance et en fait, ni lem - ce sont deux constantes. La valeur optimale de θ resterait la même dans les deux cas.
L’expression du dégradé devient plus jolie avec le12 , car le 2 du terme carré s'annule.
Lem est utile si vous résolvez ce problème avec la descente de gradient. Ensuite, votre dégradé devient la moyenne de m termes au lieu d'une somme. Son échelle ne change donc pas lorsque vous ajoutez plus de points de données.
nan
ouinf
. Pour éviter cela, normalisez simplement le nombre de points de données.Ces décisions esthétiques sont utilisées ici pour maintenir la cohérence avec les équations futures dans lesquelles vous allez ajouter des termes de régularisation . Si vous incluez lem , le paramètre de régularisation λ ne dépendra pas de la taille du jeu de données m et sera plus interprétable pour tous les problèmes.
la source
Le coefficient 1/2 est simplement pour plus de commodité; cela rend la dérivée, qui est la fonction en cours d'optimisation, plus jolie. Le 1 / m est plus fondamental; il suggère que nous nous intéressons à la moyenne erreur quadratique. Cela vous permet de faire des comparaisons justes lorsque vous modifiez la taille de l'échantillon et d'éviter tout débordement. Les optimiseurs dits "stochastiques" utilisent un sous-ensemble de l'ensemble de données (m '<m). Lorsque vous introduisez un régularisateur (terme additif à la fonction objectif), l’utilisation du facteur 1 / m vous permet d’utiliser le même coefficient pour le régularisateur quelle que soit la taille de l’échantillon.
Quant à la question de savoir pourquoi le carré et non pas simplement la différence: ne voulez-vous pas que les sous-estimations soient pénalisées de la même manière que les surestimations? La quadrature élimine l'effet du signe de l'erreur. Prendre la valeur absolue (norme L1) le fait aussi, mais sa dérivée n’est pas définie à l’origine, son utilisation nécessite donc plus de sophistication. La norme L1 a ses utilisations, alors gardez-la à l'esprit et demandez peut-être à l'enseignant s'il veut la couvrir.
la source
La mesure d'erreur dans la fonction de perte est une "distance statistique"; contrairement à la compréhension populaire et préliminaire de la distance entre deux vecteurs dans l’espace euclidien. Avec "distance statistique", nous essayons de cartographier la "dis-similarité" entre le modèle estimé et le modèle optimal avec l'espace euclidien.
Il n'y a pas de règle restrictive concernant la formulation de cette "distance statistique", mais si le choix est approprié, une réduction progressive de cette "distance" lors de l'optimisation se traduit par une amélioration progressive de l'estimation du modèle. Par conséquent, le choix de la "distance statistique" ou de la mesure d'erreur est lié à la distribution des données sous-jacentes.
En fait, il existe plusieurs mesures de distance / erreur bien définies pour différentes classes de distributions statistiques. Il est conseillé de sélectionner la mesure d'erreur en fonction de la distribution des données en main. Il se trouve que la distribution gaussienne est omniprésente et que, par conséquent, sa mesure de distance associée, la norme L2 est la mesure d'erreur la plus répandue. Cependant, ce n'est pas une règle et il existe des données du monde réel pour lesquelles une implémentation d'optimisation «efficace» * adopterait une mesure d'erreur différente de celle de la norme L2.
Considérons l'ensemble des divergences de Bregman . La représentation canonique de cette mesure de divergence est la norme L2 (erreur au carré). Elle inclut également l'entropie relative (divergence de Kullback-Liebler), la distance euclidienne généralisée (métrique de Mahalanobis) et la fonction d'Itakura-Saito. Vous pouvez en savoir plus à ce sujet dans cet article sur la divergence fonctionnelle de Bregman et l'estimation bayésienne des distributions .
À emporter: La norme L2 possède un ensemble intéressant de propriétés, ce qui en fait un choix populaire pour la mesure d'erreur (d'autres réponses ici en ont mentionné certaines, suffisantes à la portée de cette question), et l'erreur quadratique sera appropriée. choix la plupart du temps. Néanmoins, lorsque la distribution des données le requiert, il existe d'autres mesures d'erreur possibles, qui dépendent en grande partie de la formulation de la routine d'optimisation.
* La mesure d'erreur «appropriée» rendrait la fonction de perte convexe pour l'optimisation, ce qui est très utile, par opposition à une autre mesure d'erreur où la fonction de perte est non convexe et donc notoirement difficile.
la source
Outre les points clés soulevés par d'autres personnes, l'utilisation de l'erreur au carré met davantage l'accent sur l'erreur la plus grande (que se passe-t-il lorsque 1/2 est égal à 3/2?).
Avoir un algorithme qui déplace les erreurs fractionnaires, qui résulterait probablement en une classification correcte ou une très petite différence entre l'estimation et la vérité du sol, s'il est laissé près de zéro, tout en laissant les erreurs majeures sous forme d'erreurs importantes ou de erreurs de classification, n'est pas une caractéristique souhaitable de un algorithme.
L'utilisation de l'erreur quadratique utilise l'erreur en tant que poids d'importance implicite pour ajuster la prédiction.
la source
Dans votre formulation, vous essayez d’obtenir l’écart moyen de votre approximation par rapport aux données observées.
Si la valeur moyenne de votre approximation est proche ou égale à la valeur moyenne des données observées (ce qui est souhaitable et se produit souvent avec de nombreux schémas d'approximation), le résultat de votre formulation sera nul ou négligeable, car les erreurs positives compensent par des erreurs négatives. les erreurs. Cela pourrait conduire à la conclusion que votre approximation est excellente pour chaque échantillon observé, alors que ce n'est peut-être pas le cas. C'est pourquoi vous utilisez le carré de l'erreur à chaque échantillon et vous les additionnez (à votre tour, chaque erreur est positive).
Bien sûr, ceci n’est qu’une solution possible, car vous auriez pu utiliser la norme L1 (valeur absolue de l’erreur pour chaque échantillon) ou bien d’autres, au lieu de la norme L2.
la source