J'écoutais un discours et j'ai vu cette diapositive: Est-ce
J'écoutais un discours et j'ai vu cette diapositive: Est-ce
Eh bien, la question dit tout. Qu'entend-on par «pré-formation d'un réseau neuronal»? Quelqu'un peut-il expliquer en anglais simple et pur? Je n'arrive pas à trouver de ressources liées à cela. Ce serait formidable si quelqu'un pouvait me diriger vers
Pour illustrer ma question, supposons que j'ai un ensemble de formation où l'entrée a un degré de bruit mais pas la sortie, par exemple; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01, 12.10] : [3.0] ici, la...
Il y a un fil similaire ici (la fonction de coût du réseau de neurones n'est pas convexe? ) Mais je n'ai pas pu comprendre les points dans les réponses et ma raison de demander à nouveau en espérant que cela clarifiera certains problèmes: Si j'utilise la fonction de somme des différences de coût au...
Une limitation des algorithmes de réseau neuronal standard (comme backprop) est que vous devez prendre une décision de conception du nombre de couches cachées et de neurones par couche que vous voulez. Habituellement, le taux d'apprentissage et la généralisation sont très sensibles à ces choix....
Il est souvent mentionné que les unités linéaires rectifiées (ReLU) ont remplacé les unités softplus car elles sont linéaires et plus rapides à calculer. Le softplus a-t-il toujours l'avantage d'induire la rareté ou est-ce limité au ReLU? La raison pour laquelle je pose la question est que je...
Eh bien récemment, je travaillais sur l'apprentissage d'algorithmes de renforcement, tels que adaboost, gradient boost, et je savais que le plus faible apprenant utilisé était les arbres. Je veux vraiment savoir s'il existe des exemples récents de succès (je veux dire des articles ou des articles)...
Contexte: Oui, la machine Boltzmann restreinte (RBM) PEUT être utilisée pour initier les poids d'un réseau neuronal. De plus, il PEUT être utilisé de manière "couche par couche" pour construire un réseau de croyances profondes (c'est-à-dire pour former une -ième couche sur le dessus de la -ième...
Je lisais le papier de normalisation par lots (BN) (1) et je ne comprenais pas la nécessité d'utiliser des moyennes mobiles pour suivre la précision du modèle et même si j'acceptais que c'était la bonne chose à faire, je ne comprends pas ce qu'ils font exactement. À ma connaissance (ce qui peut...
Pour un modèle linéaire , le terme de retrait est toujours .y=β0+xβ+εy=β0+Xβ+εy=\beta_0+x\beta+\varepsilonP(β)P(β)P(\beta) Quelle est la raison pour laquelle nous ne rétrécissons pas le terme de biais (interception) ? Faut-il réduire le terme de biais dans les modèles de réseaux de...
Cette question a déjà des réponses ici : Comment un changement dans la fonction de coût peut-il être positif? (1 réponse) Que dois-je faire lorsque mon réseau de neurones n'apprend pas? (5 réponses) Fermé le mois dernier . Je forme un modèle (Recurrent Neural Network) pour classer 4 types de...
Ici, jetez un œil: vous pouvez voir exactement où se terminent les données d'entraînement. Les données d'entraînement vont de à .1- 1-1-1111 J'ai utilisé Keras et un réseau dense 1-100-100-2 avec activation tanh. Je calcule le résultat à partir de deux valeurs, p et q comme p / q. De cette façon,...
Je voudrais savoir s'il existe un code pour former un réseau neuronal convolutionnel à la classification des séries chronologiques. J'ai vu des articles récents ( http://www.fer.unizg.hr/_download/repository/KDI-Djalto.pdf ) mais je ne sais pas s'il existe quelque chose ou si je dois le coder...
Essentiellement, ma question est que dans les Perceptrons multicouches, les perceptrons sont utilisés avec une fonction d'activation sigmoïde. Alors que dans la règle de mise à jour y est calculée comme suity^y^\hat{y} y^=11+exp(−wTxi)y^=11+exp(−wTxi)\hat{y} =
L'application de la fonction softmax sur un vecteur produira des "probabilités" et des valeurs comprises entre et . 000111 Mais nous pouvons également diviser chaque valeur par la somme du vecteur et cela produira des probabilités et des valeurs comprises entre et .000111 J'ai lu la réponse ici...
Dans l'implémentation de ResNet par Tensorflow , je trouve qu'ils utilisent l'initialiseur de mise à l'échelle de la variance, je trouve également que l'initialiseur xavier est populaire. Je n'ai pas trop d'expérience à ce sujet, ce qui est mieux en
J'entraîne un réseau neuronal (détails non importants) où les données cibles sont un vecteur d'angles (entre 0 et 2 * pi). Je recherche des conseils sur la façon de coder ces données. Voici ce que j'essaie actuellement (avec un succès limité): 1) Encodage 1-of-C: je regroupe les angles possibles...
Pourquoi la rétropropagation ne fonctionne-t-elle pas lorsque vous initialisez tous les poids à la même valeur (disons 0,5), mais fonctionne bien lorsque des nombres aléatoires sont donnés? L'algorithme ne devrait-il pas calculer l'erreur et travailler à partir de là, malgré le fait que les poids...
Avec toutes les discussions et le battage médiatique sur l'apprentissage profond ces jours-ci, j'ai lu des trucs élémentaires à ce sujet. Je viens de découvrir que ce n'est qu'une autre méthode d'apprentissage automatique pour apprendre des modèles à partir de données. Mais ma question est: d'où...
J'essaie de comprendre différentes architectures de réseaux de neurones récurrents (RNN) à appliquer aux données de séries chronologiques et je suis un peu confus avec les différents noms qui sont fréquemment utilisés lors de la description des RNN. La structure de la mémoire à court terme à long...