Fonction de coût dans la régression linéaire OLS

32

Je suis un peu confus avec une conférence sur la régression linéaire donnée par Andrew Ng sur Coursera sur l'apprentissage automatique. Là, il a donné une fonction de coût qui minimise la somme des carrés comme suit:

12mi=1m(hθ(X(i))Y(i))2

Je comprends où le 12 vient de. Je pense qu'il l'a fait pour que lorsqu'il effectuait un dérivé sur le terme carré, le 2 du terme carré s'annule avec la moitié. Mais je ne comprends pas où le1m viens.

Pourquoi devons-nous faire 1m ? Dans la régression linéaire standard, nous ne l'avons pas, nous minimisons simplement les résidus. Pourquoi en avons-nous besoin ici?

Petitchess
la source
1 / 2m aide à trouver l'erreur moyenne par point de données et m représente le nombre total d'observations ou le nombre d'observations.
Krishnan Achary,

Réponses:

33

Comme vous semblez le réaliser, nous n'avons certainement pas besoin du facteur pour obtenir une régression linéaire. Les minimiseurs seront bien sûr exactement les mêmes, avec ou sans. Une raison typique de normaliser par m est que nous pouvons voir la fonction de coût comme une approximation de "l'erreur de généralisation", qui est la perte carrée attendue sur un nouvel exemple choisi au hasard (pas dans l'ensemble d'apprentissage):1/mm

Supposons que soient échantillonnés iid à partir d'une certaine distribution. Ensuite, pour les grands m, nous prévoyons que 1(X,Y),(X(1),Y(1)),,(X(m),Y(m))m

1mi=1m(hθ(X(i))Y(i))2E(hθ(X)Y)2.

Plus précisément, par la loi forte des grands nombres, nous avons avec probabilité 1.

limm1mi=1m(hθ(X(i))Y(i))2=E(hθ(X)Y)2

Remarque: Chacun des énoncés ci-dessus concerne un particulier , choisi sans regarder l'ensemble d'apprentissage. Pour l' apprentissage de la machine, nous voulons que ces déclarations TIENDRA pour certains θ choisis en fonction de ses bonnes performances sur l'ensemble de la formation. Ces affirmations peuvent toujours être valables dans ce cas, bien que nous devions faire quelques hypothèses sur l'ensemble des fonctions { h θθθ^ , et nous aurons besoin de quelque chose de plus fort que la loi des grands nombres. {hθ|θΘ}

DavidR
la source
1
@StudentT C'est probablement la meilleure raison d'utiliser l'erreur moyenne sur le total. Mon explication n'est vraiment qu'une conséquence au niveau de la surface de la raison plus profonde de DavidR.
Matthew Drury
29

Tu n'es pas obligé . La fonction de perte a le même minimum si vous incluez le ou le supprimer. Si vous l'incluez cependant, vous obtenez la bonne interprétation de minimiser (la moitié) l'erreurmoyennepar point de données. Autrement dit, vous minimisez letaux d'erreuraulieu de l'erreur totale.1m

Pensez à comparer les performances de deux ensembles de données de tailles différentes. La somme brute des erreurs quadratiques n'est pas directement comparable, car les grands ensembles de données ont tendance à avoir plus d'erreurs totales simplement en raison de leur taille. En revanche, l'erreur moyenne par point de données est .

Pouvez-vous élaborer un peu?

Sûr. Votre ensemble de données est une collection de points de données . Une fois que vous avez un modèle h , l'erreur des moindres carrés de h sur un seul point de données est{xi,yi}hh

(h(xi)yi)2

cela est bien sûr différent pour chaque point de données. Maintenant, si nous résumons simplement les erreurs (et multiplions par la moitié pour la raison que vous décrivez), nous obtenons l'erreur totale

12i(h(xi)yi)2

mais si nous divisons par le nombre de sommets, nous obtenons l' erreur moyenne par point de données

12mi(h(xi)yi)2

{xi,yi}{xi,yi}

Matthew Drury
la source
1
Je peux en quelque sorte vous suivre, pouvez-vous élaborer un peu? Désolé, je suis nouveau dans l'apprentissage automatique!
SmallChess
@StudentT J'ai tenté de clarifier ma réponse.
Matthew Drury
1
La même chose s'applique également si vous expérimentez la taille du mini-lot lors de la descente de gradient stochastique, qui est le type le plus courant de descente de gradient linéaire lorsque vous travaillez avec de grands ensembles de données: vous pouvez plus facilement comparer l'erreur.
jasonszhao