Questions marquées «gradient-descent»

14
Pourquoi n'utilisons-nous pas des taux d'apprentissage non constants pour un gradient décent pour d'autres choses que les réseaux de neurones?

La littérature sur l'apprentissage en profondeur regorge de trucs astucieux avec l'utilisation de taux d'apprentissage non constants dans la descente de gradient. Des choses comme la décroissance exponentielle, RMSprop, Adagrad, etc. sont faciles à mettre en œuvre et sont disponibles dans tous les...

12
Est-il possible d'évaluer GLM en Python / scikit-learn en utilisant les distributions de Poisson, Gamma ou Tweedie comme famille pour la distribution d'erreur?

J'essaie d'apprendre un peu Python et Sklearn, mais pour mon travail, j'ai besoin d'exécuter des régressions qui utilisent des distributions d'erreur des familles Poisson, Gamma et surtout Tweedie. Je ne vois rien dans la documentation à leur sujet, mais ils se trouvent dans plusieurs parties de la...

11
R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?

Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne...

10
Un modèle de P (Y | X) peut-il être formé par descente de gradient stochastique à partir d'échantillons non iid de P (X) et d'iid échantillons de P (Y | X)?

Lors de la formation d'un modèle paramétré (par exemple pour maximiser la probabilité) par descente de gradient stochastique sur certains ensembles de données, il est communément supposé que les échantillons d'apprentissage sont tirés de la distribution des données d'apprentissage. Donc, si...

9
Optimisation de la descente de gradient

J'essaie de comprendre l'optimisation de la descente de gradient dans les algorithmes ML (machine learning). Je comprends qu'il ya une fonction où le coût l'objectif est de minimiser l'erreur y - y . Dans un scénario où les poids w 1 , w 2 sont optimisés pour donner l'erreur minimale et des...