Questions marquées «gradient-descent»

14

Pourquoi n'utilisons-nous pas des taux d'apprentissage non constants pour un gradient décent pour d'autres choses que les réseaux de neurones?

La littérature sur l'apprentissage en profondeur regorge de trucs astucieux avec l'utilisation de taux d'apprentissage non constants dans la descente de gradient. Des choses comme la décroissance exponentielle, RMSprop, Adagrad, etc. sont faciles à mettre en œuvre et sont disponibles dans tous les...

13

Pourquoi la descente de gradient est-elle inefficace pour un grand ensemble de données?

Disons que notre ensemble de données contient 1 million d'exemples, c'est-à-dire , et nous souhaitons utiliser la descente de gradient pour effectuer une régression logistique ou linéaire sur ces ensembles de données.X1, … , Xdix6x1,…,x106x_1, \ldots, x_{10^6} Qu'est-ce que la méthode de descente...

machine-learning gradient-descent large-data

13

Choix d'une taille de mini-lot appropriée pour la descente de gradient stochastique (SGD)

Existe-t-il une littérature qui examine le choix de la taille du mini-lot lors de la descente de gradient stochastique? D'après mon expérience, cela semble être un choix empirique, généralement trouvé via la validation croisée ou en utilisant différentes règles empiriques. Est-ce une bonne idée...

machine-learning gradient-descent hyperparameter deep-learning

13

Pourquoi l'algorithme de descente «Saddle-Free Newton» n'est-il pas utilisé en pratique?

Récemment, j'ai lu un article de Yann Dauphin et al. Identifier et attaquer le problème du point de selle dans l'optimisation non convexe de haute dimension , où ils introduisent un algorithme de descente intéressant appelé Saddle-Free Newton , qui semble être exactement adapté pour l'optimisation...

optimization deep-learning gradient-descent

12

Gradient pour la fonction de perte logistique

Je voudrais poser une question liée à celle-ci . J'ai trouvé un exemple d'écriture d'une fonction de perte personnalisée pour xgboost ici : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <-...

r machine-learning gradient-descent boosting loss-functions

12

Est-il possible d'évaluer GLM en Python / scikit-learn en utilisant les distributions de Poisson, Gamma ou Tweedie comme famille pour la distribution d'erreur?

J'essaie d'apprendre un peu Python et Sklearn, mais pour mon travail, j'ai besoin d'exécuter des régressions qui utilisent des distributions d'erreur des familles Poisson, Gamma et surtout Tweedie. Je ne vois rien dans la documentation à leur sujet, mais ils se trouvent dans plusieurs parties de la...

generalized-linear-model python scikit-learn gradient-descent tweedie-distribution

12

La descente en gradient ne trouve pas de solution aux moindres carrés ordinaires sur cet ensemble de données?

J'ai étudié la régression linéaire et je l'ai essayée sur l'ensemble ci-dessous {(x, y)}, où x spécifiait la superficie de la maison en pieds carrés et y spécifiait le prix en dollars. Ceci est le premier exemple dans Andrew Ng Notes . 2104,400 1600,330 2400,369 1416,232 3000,540 J'ai développé un...

regression least-squares gradient-descent supervised-learning

12

Comment la descente en gradient du mini-lot met-elle à jour les poids de chaque exemple dans un lot?

Si nous traitons par exemple 10 exemples dans un lot, je comprends que nous pouvons additionner la perte pour chaque exemple, mais comment fonctionne la rétropropagation en ce qui concerne la mise à jour des poids pour chaque exemple? Par exemple: Exemple 1 -> perte = 2 Exemple 2 -> perte =...

neural-networks gradient-descent backpropagation tensorflow

11

Quand utiliser la descente en pente vs Monte Carlo comme technique d'optimisation numérique

Lorsqu'un ensemble d'équations ne peut pas être résolu analytiquement, alors nous pouvons utiliser un algorithme de descente de gradient. Mais il semble qu'il y ait aussi la méthode de simulation de Monte Carlo qui peut être utilisée pour résoudre des problèmes qui n'ont pas de solutions...

monte-carlo gradient-descent

11

R / mgcv: Pourquoi les produits tenseurs te () et ti () produisent-ils des surfaces différentes?

Le mgcvpackage pour Ra deux fonctions pour ajuster les interactions des produits tensoriels: te()et ti(). Je comprends la division de base du travail entre les deux (ajustement d'une interaction non linéaire vs décomposition de cette interaction en effets principaux et interaction). Ce que je ne...

r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

11

Les réseaux résiduels sont-ils liés à l'augmentation du gradient?

Récemment, nous avons vu l'émergence du réseau neuronal résiduel, dans lequel, chaque couche se compose d'un module de calcul et d'une connexion de raccourci qui préserve l'entrée de la couche telle que la sortie de la ième couche présente: Le réseau permet d'extraire les caractéristiques...

machine-learning neural-networks deep-learning gradient-descent residual-networks

10

Comment former un SVM via la rétropropagation?

Je me demandais s'il était possible de former un SVM (par exemple linéaire, pour faciliter les choses) en utilisant la rétropropagation? Actuellement, je suis à un barrage routier, car je ne peux penser qu'à écrire la sortie du classificateur comme F( x ; θ , b ) = sgn ( θ ⋅ x - ( b + 1 ) ) = sgn (...

machine-learning neural-networks svm gradient-descent backpropagation

10

Comment définir la taille du mini-lot dans SGD en keras

Je suis nouveau à Keras et j'ai besoin de votre aide. J'entraîne un réseau neuronal à Keras et ma fonction de perte est la sortie et la valeur cible de la différence nette au noir et blanc. Je veux optimiser cela en utilisant Gradient Descent. Après avoir parcouru quelques liens sur le net, j'ai...

neural-networks python gradient-descent keras sgd

10

Un modèle de P (Y | X) peut-il être formé par descente de gradient stochastique à partir d'échantillons non iid de P (X) et d'iid échantillons de P (Y | X)?

Lors de la formation d'un modèle paramétré (par exemple pour maximiser la probabilité) par descente de gradient stochastique sur certains ensembles de données, il est communément supposé que les échantillons d'apprentissage sont tirés de la distribution des données d'apprentissage. Donc, si...

machine-learning conditional-probability reinforcement-learning gradient-descent

9

En quoi le gradient augmente-t-il comme la descente en gradient?

Je lis l'entrée utile de Wikipedia sur l'augmentation du gradient ( https://en.wikipedia.org/wiki/Gradient_boosting ), et j'essaie de comprendre comment / pourquoi nous pouvons approximer les résidus par l'étape de descente la plus raide (également appelée pseudo-gradient ). Quelqu'un peut-il me...

self-study gradient-descent

9

Pourquoi la descente du gradient proximal au lieu des méthodes simples de premier cycle pour le Lasso?

Je pensais résoudre le Lasso via des méthodes de premier cycle à la vanille. Mais j'ai lu des gens suggérant d'utiliser la descente du gradient proximal. Quelqu'un peut-il souligner pourquoi la méthode proximale GD au lieu de la vanille est utilisée pour le

machine-learning optimization lasso gradient-descent

9

Descente en pente ou non pour une régression linéaire simple

Il existe un certain nombre de sites Web décrivant la descente de gradient pour trouver les paramètres d'une régression linéaire simple (en voici un). Google le décrit également dans son nouveau cours de ML (au public). Cependant, sur Wikipedia , les formules suivantes pour calculer les paramètres...

regression scikit-learn gradient-descent

9

Définition de la complexité d'un arbre dans xgboost

En faisant des recherches sur l'algorithme xgboost, j'ai parcouru la documentation . Dans cette approche, les arbres sont régularisés en utilisant la définition de la complexité Ω ( f) = γT+12λ∑j = 1Tw2jΩ(f)=γT+12λ∑j=1Twj2 \Omega(f) = \gamma T + \frac12 \lambda \sum_{j=1}^T w_j^2 où γγ\gamma et...

cart regularization boosting gradient-descent overfitting

9

Optimisation de la descente de gradient

J'essaie de comprendre l'optimisation de la descente de gradient dans les algorithmes ML (machine learning). Je comprends qu'il ya une fonction où le coût l'objectif est de minimiser l'erreur y - y . Dans un scénario où les poids w 1 , w 2 sont optimisés pour donner l'erreur minimale et des...

optimization gradient-descent

9

Pourquoi mes pas deviennent-ils plus petits lorsque j'utilise une taille de pas fixe dans la descente de gradient?

Supposons que nous faisons un exemple de jouet sur un gradient décent, minimisant une fonction quadratique , en utilisant une taille de pas fixe . ( )α = 0,03 A = [ 10 , 2 ; 2 , 3 ]xTAxxTAxx^TAxα=0.03α=0.03\alpha=0.03A=[10,2;2,3]A=[10,2;2,3]A=[10, 2; 2, 3] Si nous traçons la trace de à chaque...

r machine-learning optimization gradient-descent