Questions marquées «networks»

11

Q-learning avec Neural Network comme approximation de fonction

J'essaie d'utiliser un réseau neuronal afin d'approximer la valeur Q dans l'apprentissage Q comme dans les questions sur l'apprentissage Q à l'aide des réseaux de neurones . Comme suggéré dans la première réponse, j'utilise une fonction d'activation linéaire pour la couche de sortie, tandis que...

neural-networks reinforcement-learning

11

Quelle est l'intuition derrière un réseau neuronal récurrent de mémoire à court terme (LSTM)?

L'idée derrière le réseau neuronal récurrent (RNN) est claire pour moi. Je le comprends de la manière suivante: nous avons une séquence d'observations ( ) (ou, en d'autres termes, des séries temporelles multivariées). Chaque observation est un vecteur numérique à dimensions. Dans le modèle RNN,...

time-series neural-networks predictive-models intuition rnn

11

CIFAR-10 Impossible d'obtenir une précision supérieure à 60%, Keras avec le backend Tensorflow [fermé]

Fermé. Cette question est hors sujet . Il n'accepte pas actuellement les réponses. Vous souhaitez améliorer cette question? Mettez à jour la question afin qu'elle soit sur le sujet pour la validation croisée. Fermé l'année dernière . La formation après 15 époques sur l'ensemble de données CIFAR-10...

neural-networks conv-neural-network keras

11

Réseau de neurones - signification des poids

J'utilise NN à action directe. Je comprends le concept, mais ma question concerne les poids. Comment pouvez-vous les interpréter, c'est-à-dire que représentent-ils ou comment peuvent-ils être sous-estimés (outre les coefficients de fonction)? J'ai trouvé quelque chose appelé "espace de poids", mais...

neural-networks weights

11

Les réseaux résiduels sont-ils liés à l'augmentation du gradient?

Récemment, nous avons vu l'émergence du réseau neuronal résiduel, dans lequel, chaque couche se compose d'un module de calcul et d'une connexion de raccourci qui préserve l'entrée de la couche telle que la sortie de la ième couche présente: Le réseau permet d'extraire les caractéristiques...

machine-learning neural-networks deep-learning gradient-descent residual-networks

11

Comment expliquer pourquoi la normalisation des lots doit être effectuée avec un certain soin?

Je lisais le document de normalisation par lots [1] et il y avait une section où se trouve un exemple, essayant de montrer pourquoi la normalisation doit être effectuée avec soin. Honnêtement, je ne peux pas comprendre comment l'exemple fonctionne et je suis vraiment très curieux de comprendre...

machine-learning neural-networks conv-neural-network

11

Pourquoi ne pas simplement apprendre les hyper paramètres?

J'implémentais un article assez populaire " EXPLIQUER ET EXPLIQUER DES EXEMPLES ADVERSAIRES " et dans le document, il forme une fonction objective contradictoire J '' (θ) = αJ (θ) + (1 - α) J '(θ). Il traite α comme un hyperparamètre. α peut être 0,1, 0,2, 0,3, etc. Indépendamment de cet article...

machine-learning neural-networks deep-learning hyperparameter

11

Pourquoi les CNN concluent-ils avec des couches FC?

D'après ma compréhension, les CNN se composent de deux parties. La première partie (couches conv / pool) qui fait l'extraction d'entités et la deuxième partie (couches fc) qui fait la classification des entités. Étant donné que les réseaux neuronaux entièrement connectés ne sont pas les meilleurs...

neural-networks svm random-forest conv-neural-network

11

L'analyse des composants principaux élimine le bruit dans les données

L'analyse en composantes principales (ACP) élimine-t-elle le bruit dans l'ensemble de données? Si l'ACP n'élimine pas le bruit dans l'ensemble de données, que fait réellement l'ACP à l'ensemble de données? Quelqu'un peut-il m'aider à ce

machine-learning neural-networks pca noise

10

Valeur attendue d'une variable aléatoire gaussienne transformée avec une fonction logistique

La fonction logistique et l'écart type sont généralement notés . J'utiliserai et pour l'écart-type.σ ( x ) = 1 / ( 1 + exp ( - x ) ) sσσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss J'ai un neurone logistique avec une entrée aléatoire dont la moyenne et écart - type je...

distributions normal-distribution neural-networks mathematical-statistics expected-value

10

Comment déterminer le nombre d'opérateurs convolutifs dans CNN?

Dans les tâches de vision par ordinateur, telles que la classification d'objets, avec les réseaux de neurones convolutionnels (CNN), le réseau offre une performance attrayante. Mais je ne sais pas comment configurer les paramètres dans les couches convolutives. Par exemple, une image en niveaux de...

neural-networks deep-learning conv-neural-network computer-vision

10

Comment classer un ensemble de données déséquilibré par Convolutional Neural Networks (CNN)?

J'ai un ensemble de données déséquilibré dans une tâche de classification binaire, où le montant positif contre le montant négatif est de 0,3% contre 99,7%. L'écart entre les positifs et les négatifs est énorme. Lorsque je forme un CNN avec la structure utilisée dans le problème MNIST, le résultat...

classification neural-networks deep-learning convolution computer-vision

10

Les hyperplans classent de manière optimale les données lorsque les entrées sont indépendantes conditionnellement - Pourquoi?

Dans l'article intitulé Deep Learning and the Information Bottleneck Principle, les auteurs déclarent dans la section II A) ce qui suit: Les neurones simples ne classent que les entrées séparables linéairement, car ils ne peuvent implémenter que des hyperplans dans leur espace d'entrée . Les...

bayesian neural-networks information-theory

10

Comment amorcer un perceptron simple?

Les problèmes de classification avec des limites non linéaires ne peuvent pas être résolus par un simple perceptron . Le code R suivant est à des fins d'illustration et est basé sur cet exemple en Python): nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <-...

r neural-networks svm kernel-trick perceptron

10

Structure du réseau neuronal récurrent (LSTM, GRU)

J'essaie de comprendre l'architecture des RNN. J'ai trouvé ce tutoriel qui a été très utile: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Surtout cette image: Comment cela s'intègre-t-il dans un réseau à action directe? Cette image est-elle juste un autre nœud dans chaque...

neural-networks lstm

10

WaveNet n'est pas vraiment une convolution dilatée, n'est-ce pas?

Dans le récent article WaveNet , les auteurs se réfèrent à leur modèle comme ayant des couches empilées de convolutions dilatées. Ils produisent également les graphiques suivants, expliquant la différence entre les convolutions «régulières» et les convolutions dilatées. Les convolutions régulières...

neural-networks deep-learning conv-neural-network tensorflow

10

But du bruit de Dirichlet dans le papier AlphaZero

Dans les articles AlphaGo Zero et AlphaZero de DeepMind , ils décrivent l'ajout de bruit de Dirichlet aux probabilités antérieures d'actions du nœud racine (état de la carte) dans Monte Carlo Tree Search: Une exploration supplémentaire est obtenue en ajoutant du bruit de Dirichlet aux probabilités...

machine-learning neural-networks dirichlet-distribution

10

NeuralNetwork monocouche avec activation ReLU égale à SVM?

Supposons que j'ai un réseau neuronal simple couche, avec n entrées et une seule sortie (tâche de classification binaire). Si je définis la fonction d'activation dans le nœud de sortie comme une fonction sigmoïde, le résultat est un classificateur de régression logistique. Dans ce même scénario, si...

neural-networks svm

10

Les réseaux de neurones mettent-ils généralement un certain temps à se mettre en marche pendant l'entraînement?

J'essaie de former un réseau neuronal profond pour la classification, en utilisant la propagation arrière. Plus précisément, j'utilise un réseau de neurones convolutifs pour la classification d'images, en utilisant la bibliothèque Tensor Flow. Pendant l'entraînement, je ressens un comportement...

machine-learning classification neural-networks conv-neural-network tensorflow

10

Abandon: mise à l'échelle de l'activation par rapport à l'inversion de l'abandon

Lors de l'application du décrochage dans les réseaux de neurones artificiels, il faut compenser le fait qu'au moment de l'entraînement, une partie des neurones était désactivée. Pour ce faire, il existe deux stratégies communes: mise à l'échelle de l'activation au moment du test inverser le...

neural-networks deep-learning dropout