Questions marquées «neural-networks»

44
Quelle fonction d'activation pour la couche de sortie?

Alors que le choix des fonctions d'activation pour la couche cachée est assez clair (principalement sigmoïde ou tanh), je me demande comment décider de la fonction d'activation pour la couche en sortie. Les choix courants sont les fonctions linéaires, les fonctions sigmoïdes et les fonctions...

43
Couche Softmax dans un réseau de neurones

J'essaie d'ajouter une couche softmax à un réseau de neurones formé à la rétropropagation, alors j'essaie de calculer son gradient. La sortie softmax est hj=ezj∑ezihj=ezj∑ezih_j = \frac{e^{z_j}}{\sum{e^{z_i}}} oùjjjest le nombre de neurones de sortie. Si je le dérive alors je reçois...

40
Comment la fonction d'activation rectiligne résout-elle le problème du gradient en voie de disparition dans les réseaux de neurones?

J'ai trouvé des unités linéaires rectifiées (ReLU) louées à plusieurs endroits comme solution au problème du gradient de fuite pour les réseaux de neurones. En d’autres termes, on utilise max (0, x) comme fonction d’activation. Lorsque l'activation est positive, il est évident qu'elle est meilleure...

36
Apprentissage automatique: devrais-je utiliser une perte d'entropie croisée ou d'entropie croisée binaire pour les prédictions binaires?

Tout d'abord, j'ai réalisé que si je devais effectuer des prédictions binaires, je devais créer au moins deux classes en effectuant un encodage à chaud. Est-ce correct? Cependant, l'entropie croisée binaire est-elle réservée aux prédictions avec une seule classe? Si je devais utiliser une perte...