Questions marquées «neural-networks»

24

Quelle est la raison pour laquelle Adam Optimizer est considéré comme robuste à la valeur de ses paramètres hyper?

Je lisais sur l' optimiseur Adam pour le Deep Learning et suis tombé sur la phrase suivante dans le nouveau livre Deep Learning de Bengio, Goodfellow et Courville: Adam est généralement considéré comme assez robuste pour le choix des paramètres hyper, bien que le taux d'apprentissage doive parfois...

24

Les encodeurs automatiques ne peuvent pas apprendre de fonctionnalités significatives

J'ai 50 000 images comme celles-ci: Ils représentent des graphiques de données. Je voulais extraire des fonctionnalités de ces images, j'ai donc utilisé le code de l'encodeur automatique fourni par Theano (deeplearning.net). Le problème est que ces encodeurs automatiques ne semblent pas apprendre...

machine-learning neural-networks feature-construction rbm autoencoders

24

Comment le CNN '12 de Krizhevsky obtient-il 253 440 neurones dans la première couche?

Dans Alex Krizhevsky, et al. Classification Imagenet avec des réseaux de neurones convolutionnels profonds, ils énumèrent le nombre de neurones dans chaque couche (voir schéma ci-dessous). L'entrée du réseau est de 150528 dimensions et le nombre de neurones dans les couches restantes du réseau est...

neural-networks deep-learning conv-neural-network

24

Comment initialiser les éléments de la matrice de filtre?

J'essaie de mieux comprendre les réseaux de neurones convolutifs en écrivant du code Python qui ne dépend pas des bibliothèques (comme Convnet ou TensorFlow), et je me retrouve coincé dans la littérature sur la façon de choisir des valeurs pour la matrice du noyau, quand effectuer une convolution...

machine-learning neural-networks deep-learning feature-construction conv-neural-network

23

Comment interpréter les histogrammes donnés par TensorFlow dans TensorBoard?

Récemment, je courais et j'apprenais le flux tenseur et j'ai obtenu quelques histogrammes que je ne savais pas interpréter. Habituellement, je pense à la hauteur des barres comme à la fréquence (ou fréquence relative / comptes). Cependant, le fait qu'il n'y ait pas de barres comme dans un...

machine-learning neural-networks conv-neural-network tensorflow

23

Pouvons-nous utiliser MLE pour estimer les poids du réseau neuronal?

Je viens de commencer à étudier les statistiques et les modèles. Actuellement, je crois comprendre que nous utilisons le MLE pour estimer le ou les meilleurs paramètres d'un modèle. Cependant, lorsque j'essaie de comprendre le fonctionnement des réseaux de neurones, il semble qu'ils utilisent...

maximum-likelihood neural-networks

23

Keras, comment fonctionne la décroissance du taux d'apprentissage SGD?

Si vous regardez la documentation http://keras.io/optimizers/ il y a un paramètre dans le SGD pour la désintégration. Je sais que cela réduit le taux d'apprentissage au fil du temps. Cependant, je ne peux pas comprendre comment cela fonctionne exactement. Est-ce une valeur multipliée par le taux...

neural-networks python

23

Le format d'image (png, jpg, gif) affecte-t-il la formation d'un réseau neuronal de reconnaissance d'image?

Je suis conscient qu'il y a eu beaucoup d'avancées en matière de reconnaissance d'image, de classification d'image, etc. avec des réseaux neuronaux profonds et convolutionnels. Mais si je forme un réseau sur, disons, des images PNG, cela ne fonctionnera- t-il que pour les images ainsi encodées?...

neural-networks deep-learning image-processing

23

Quelle est l'architecture d'un auto-encodeur convolutionnel empilé?

J'essaie donc de faire de la pré-formation sur des images d'humains en utilisant des filets convolutionnels. Je lis les journaux ( article1 et Epais2 ) et ce lien stackoverflow , mais je ne suis pas sûr que je suis comprendre la structure des filets (il est pas bien défini dans les journaux). Des...

neural-networks deep-learning autoencoders deep-belief-networks

22

Relu vs Sigmoid vs Softmax en tant que neurones de couche cachés

Je jouais avec un simple réseau neuronal avec une seule couche cachée, par Tensorflow, puis j'ai essayé différentes activations pour la couche cachée: Relu Sigmoïde Softmax (enfin, habituellement softmax est utilisé dans la dernière couche ..) Relu offre la meilleure précision de train et précision...

machine-learning neural-networks conv-neural-network tensorflow sigmoid-curve

22

Pourquoi utiliser la descente de gradient avec des réseaux de neurones?

Lors de la formation d'un réseau neuronal à l'aide de l'algorithme de rétropropagation, la méthode de descente en gradient est utilisée pour déterminer les mises à jour du poids. Ma question est la suivante: Plutôt que d'utiliser la méthode de descente en gradient pour localiser lentement le point...

neural-networks gradient-descent backpropagation

22

Machines Boltzmann restreintes vs réseaux de neurones multicouches

Je voulais expérimenter avec un réseau de neurones pour un problème de classification auquel je suis confronté. Je suis tombé sur des articles qui parlent de RBM. Mais d'après ce que je peux comprendre, ils ne sont pas différents d'avoir un réseau neuronal multicouche. Est-ce exact? De plus, je...

r machine-learning classification neural-networks

22

Qu'est-ce que la pré-formation d'un réseau neuronal?

Eh bien, la question dit tout. Qu'entend-on par «pré-formation d'un réseau neuronal»? Quelqu'un peut-il expliquer en anglais simple et pur? Je n'arrive pas à trouver de ressources liées à cela. Ce serait formidable si quelqu'un pouvait me diriger vers

neural-networks pre-training

22

Règles de sélection des hyperparamètres de réseaux de neurones convolutifs

Existe-t-il de bons documents qui couvrent certaines méthodes méthodiques pour choisir les dimensions des filtres, regrouper les unités et déterminer le nombre de couches

neural-networks deep-learning conv-neural-network

22

Comment déterminer la confiance d'une prédiction de réseau neuronal?

Pour illustrer ma question, supposons que j'ai un ensemble de formation où l'entrée a un degré de bruit mais pas la sortie, par exemple; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] ici, la...

regression machine-learning neural-networks confidence-interval prediction-interval

22

Rétropropagation de dégradé via des connexions de saut ResNet

Je suis curieux de savoir comment les gradients sont propagés en retour à travers un réseau de neurones à l'aide de modules ResNet / sauter les connexions. J'ai vu quelques questions sur ResNet (par exemple, un réseau de neurones avec des connexions de couche de saut ), mais celui-ci pose...

machine-learning neural-networks conv-neural-network gradient-descent backpropagation

22

Pourquoi la fonction de coût des réseaux de neurones n'est-elle pas convexe?

Il y a un fil similaire ici (la fonction de coût du réseau de neurones n'est pas convexe? ) Mais je n'ai pas pu comprendre les points dans les réponses et ma raison de demander à nouveau en espérant que cela clarifiera certains problèmes: Si j'utilise la fonction de somme des différences de coût au...

machine-learning neural-networks optimization loss-functions convex

21

Quels sont les avantages d'utiliser ReLU sur softplus comme fonctions d'activation?

Il est souvent mentionné que les unités linéaires rectifiées (ReLU) ont remplacé les unités softplus car elles sont linéaires et plus rapides à calculer. Le softplus a-t-il toujours l'avantage d'induire la rareté ou est-ce limité au ReLU? La raison pour laquelle je pose la question est que je...

machine-learning neural-networks

21

La perte d'entraînement augmente avec le temps [doublon]

Cette question a déjà des réponses ici : Comment un changement dans la fonction de coût peut-il être positif? (1 réponse) Que dois-je faire lorsque mon réseau de neurones n'apprend pas? (5 réponses) Fermé le mois dernier . Je forme un modèle (Recurrent Neural Network) pour classer 4 types de...

machine-learning neural-networks loss-functions rnn training-error

21

De la règle du Perceptron à la descente en gradient: en quoi les Perceptrons avec une fonction d'activation sigmoïde sont-ils différents de la régression logistique?

Essentiellement, ma question est que dans les Perceptrons multicouches, les perceptrons sont utilisés avec une fonction d'activation sigmoïde. Alors que dans la règle de mise à jour y est calculée comme suity^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp⁡(−wTxi)\hat{y} =

logistic classification neural-networks gradient-descent perceptron