Questions marquées «neural-networks»

45

Comment fonctionne la méthode d'Adam de descente de gradient stochastique?

Je connais bien les algorithmes de base de descente de gradient pour la formation de réseaux de neurones. J'ai lu le document proposant Adam: ADAM: UNE MÉTHODE D'OPTIMISATION STOCHASTIQUE . Bien que j'ai certainement quelques idées (du moins), le papier semble être trop élevé pour moi en général....

44

Quelle fonction d'activation pour la couche de sortie?

Alors que le choix des fonctions d'activation pour la couche cachée est assez clair (principalement sigmoïde ou tanh), je me demande comment décider de la fonction d'activation pour la couche en sortie. Les choix courants sont les fonctions linéaires, les fonctions sigmoïdes et les fonctions...

neural-networks

44

Comment les noyaux sont-ils appliqués aux cartes de caractéristiques pour produire d'autres cartes de caractéristiques?

J'essaie de comprendre la partie convolution des réseaux de neurones convolutionnels. En regardant la figure suivante: Je n'ai aucun problème à comprendre la première couche de convolution où nous avons 4 noyaux différents (de taille ), que nous convolrons avec l'image d'entrée pour obtenir 4...

machine-learning neural-networks deep-learning conv-neural-network

43

Couche Softmax dans un réseau de neurones

J'essaie d'ajouter une couche softmax à un réseau de neurones formé à la rétropropagation, alors j'essaie de calculer son gradient. La sortie softmax est hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} oùjjjest le nombre de neurones de sortie. Si je le dérive alors je reçois...

neural-networks

43

Références de réseaux de neurones (manuels, cours en ligne) pour débutants

Je veux apprendre les réseaux de neurones. Je suis un linguiste informatisé. Je connais des méthodes d’apprentissage statistique et peut coder en Python. Je cherche à commencer avec ses concepts et à connaître un ou deux modèles populaires qui pourraient être utiles du point de vue de la...

neural-networks deep-learning references natural-language computer-vision

42

Qu'est-ce que maxout dans un réseau de neurones?

Quelqu'un peut-il expliquer ce que font les unités maxout d'un réseau de neurones? Comment fonctionnent-ils et en quoi diffèrent-ils des unités conventionnelles? J'ai essayé de lire le document "Maxout Network" de Goodfellow et al. (du groupe du professeur Yoshua Bengio), mais je ne comprends pas...

machine-learning neural-networks

42

Réseaux de neurones: impulsion de changement de poids et perte de poids

Momentum est utilisé pour diminuer les fluctuations de poids lors d’itérations successives:αα\alpha Δ ωje( t + 1 ) = - η∂E∂wje+ α Δ ωje( t ) ,Δωje(t+1)=-η∂E∂wje+αΔωje(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t), où E( w )E(w)E({\bf w}) est la fonction...

neural-networks optimization regularization gradient-descent

40

Comment la fonction d'activation rectiligne résout-elle le problème du gradient en voie de disparition dans les réseaux de neurones?

J'ai trouvé des unités linéaires rectifiées (ReLU) louées à plusieurs endroits comme solution au problème du gradient de fuite pour les réseaux de neurones. En d’autres termes, on utilise max (0, x) comme fonction d’activation. Lorsque l'activation est positive, il est évident qu'elle est meilleure...

machine-learning neural-networks deep-learning gradient-descent

40

Pourquoi la fonction sigmoïde au lieu de rien d'autre?

Pourquoi la fonction sigmoïde standard de facto, , est-elle si populaire dans les réseaux de neurones (non profonds) et la régression logistique?11 + e- x11+e−x\frac{1}{1+e^{-x}} Pourquoi n'utilisons-nous pas beaucoup d'autres fonctions pouvant être dérivées, avec un temps de calcul plus rapide ou...

logistic neural-networks least-squares

40

Normalisation des données et normalisation dans les réseaux de neurones

J'essaie de prédire le résultat d'un système complexe en utilisant des réseaux de neurones (ANN). Les résultats (dépendants) vont de 0 à 10 000. Les différentes variables d'entrée ont des plages différentes. Toutes les variables ont des distributions à peu près normales. Je considère différentes...

machine-learning neural-networks multidimensional-scaling

40

Quelles sont les différences entre les modèles de Markov cachés et les réseaux de neurones?

Je ne fais que me mouiller dans les statistiques alors je suis désolé si cette question n’a pas de sens. J'ai utilisé des modèles de Markov pour prédire les états cachés (casinos injustes, lancers de dés, etc.) et des réseaux de neurones pour étudier les clics d'utilisateurs sur un moteur de...

data-mining algorithms neural-networks markov-process

38

ImageNet: quel est le taux d’erreur top-1 et top-5?

Dans les documents de classification d'ImageNet, les taux d'erreur parmi les premiers et les cinq premiers sont des unités importantes pour mesurer le succès de certaines solutions, mais quels sont ces taux d'erreur? Dans la classification ImageNet avec les réseaux de neurones à convolution...

classification neural-networks error measurement-error image-processing

37

Différence entre «noyau» et «filtre» dans CNN

Quelle est la différence entre les termes "noyau" et "filtre" dans le contexte des réseaux de neurones à

neural-networks terminology deep-learning conv-neural-network

37

Que dois-je faire lorsque mon réseau de neurones ne se généralise pas bien?

J'entraîne un réseau de neurones et la perte d'apprentissage diminue, mais la perte de validation ne diminue pas, ou elle diminue beaucoup moins que ce à quoi je m'attendais, selon des références ou des expériences avec des architectures et des données très similaires. Comment puis-je réparer cela?...

neural-networks deep-learning

37

Comment visualiser / comprendre ce que fait un réseau de neurones?

Les réseaux de neurones sont souvent traités comme des "boîtes noires" en raison de leur structure complexe. Ce n'est pas idéal, car il est souvent bénéfique de comprendre intuitivement le fonctionnement d'un modèle en interne. Quelles sont les méthodes de visualisation du fonctionnement d'un...

data-visualization neural-networks

37

Pourquoi la régularisation ne résout-elle pas le besoin en données des réseaux neuronaux profonds?

Un problème que j'ai souvent vu dans le contexte des réseaux de neurones en général, et des réseaux de neurones profonds en particulier, est qu'ils sont "gourmands en données". avec lequel former le réseau. D'après ce que je comprends, cela est dû au fait que les NNets, notamment les Deep NNets,...

neural-networks deep-learning regularization

36

Apprentissage automatique: devrais-je utiliser une perte d'entropie croisée ou d'entropie croisée binaire pour les prédictions binaires?

Tout d'abord, j'ai réalisé que si je devais effectuer des prédictions binaires, je devais créer au moins deux classes en effectuant un encodage à chaud. Est-ce correct? Cependant, l'entropie croisée binaire est-elle réservée aux prédictions avec une seule classe? Si je devais utiliser une perte...

machine-learning neural-networks loss-functions tensorflow cross-entropy

36

La fonction de coût du réseau neuronal est non convexe?

La fonction de coût du réseau neuronal est J(W,b)J(W,b)J(W,b) , et il est prétendu être non convexe . Je ne comprends pas très bien pourquoi c'est ainsi, car je vois que cela ressemble beaucoup à la fonction de coût de la régression logistique, n'est-ce pas? Si elle est non convexe, la dérivée du...

neural-networks loss-functions

35

Comment LSTM empêche-t-il le problème du gradient de disparition?

Le LSTM a été inventé spécifiquement pour éviter le problème du gradient disparaissant. Il est supposé faire cela avec le carrousel à erreur constante (CEC), qui sur le diagramme ci-dessous (de Greff et al. ) Correspond à la boucle autour de la cellule . (source: deeplearning4j.org ) Et je...

neural-networks lstm

35

Quelles sont les différences entre le codage fragmenté et le codeur automatique?

Le codage clairsemé est défini comme l’apprentissage d’un ensemble trop complet de vecteurs de base pour représenter les vecteurs d’entrée (<- pourquoi voulons-nous cela). Quelles sont les différences entre le codage fragmenté et le codeur automatique? Quand utiliserons-nous le codage fragmenté...

machine-learning neural-networks unsupervised-learning deep-learning autoencoders