Je suis un peu confus avec une conférence sur la régression linéaire donnée par Andrew Ng sur Coursera sur l'apprentissage automatique. Là, il a donné une fonction de coût qui minimise la somme des carrés comme suit:
Je comprends où le vient de. Je pense qu'il l'a fait pour que lorsqu'il effectuait un dérivé sur le terme carré, le 2 du terme carré s'annule avec la moitié. Mais je ne comprends pas où le viens.
Pourquoi devons-nous faire ? Dans la régression linéaire standard, nous ne l'avons pas, nous minimisons simplement les résidus. Pourquoi en avons-nous besoin ici?
regression
machine-learning
loss-functions
Petitchess
la source
la source
Réponses:
Comme vous semblez le réaliser, nous n'avons certainement pas besoin du facteur pour obtenir une régression linéaire. Les minimiseurs seront bien sûr exactement les mêmes, avec ou sans. Une raison typique de normaliser par m est que nous pouvons voir la fonction de coût comme une approximation de "l'erreur de généralisation", qui est la perte carrée attendue sur un nouvel exemple choisi au hasard (pas dans l'ensemble d'apprentissage):1/m m
Supposons que soient échantillonnés iid à partir d'une certaine distribution. Ensuite, pour les grands m, nous prévoyons que 1(X,Y),(X(1),Y(1)),…,(X(m),Y(m)) m
Plus précisément, par la loi forte des grands nombres, nous avons avec probabilité 1.
Remarque: Chacun des énoncés ci-dessus concerne un particulier , choisi sans regarder l'ensemble d'apprentissage. Pour l' apprentissage de la machine, nous voulons que ces déclarations TIENDRA pour certains θ choisis en fonction de ses bonnes performances sur l'ensemble de la formation. Ces affirmations peuvent toujours être valables dans ce cas, bien que nous devions faire quelques hypothèses sur l'ensemble des fonctions { h θθ θ^ , et nous aurons besoin de quelque chose de plus fort que la loi des grands nombres. {hθ|θ∈Θ}
la source
Tu n'es pas obligé . La fonction de perte a le même minimum si vous incluez le ou le supprimer. Si vous l'incluez cependant, vous obtenez la bonne interprétation de minimiser (la moitié) l'erreurmoyennepar point de données. Autrement dit, vous minimisez letaux d'erreuraulieu de l'erreur totale.1m
Pensez à comparer les performances de deux ensembles de données de tailles différentes. La somme brute des erreurs quadratiques n'est pas directement comparable, car les grands ensembles de données ont tendance à avoir plus d'erreurs totales simplement en raison de leur taille. En revanche, l'erreur moyenne par point de données est .
Sûr. Votre ensemble de données est une collection de points de données . Une fois que vous avez un modèle h , l'erreur des moindres carrés de h sur un seul point de données est{xi,yi} h h
cela est bien sûr différent pour chaque point de données. Maintenant, si nous résumons simplement les erreurs (et multiplions par la moitié pour la raison que vous décrivez), nous obtenons l'erreur totale
mais si nous divisons par le nombre de sommets, nous obtenons l' erreur moyenne par point de données
la source