Quelle est la différence entre l' époque et l' itération lors de la formation d'un perceptron
Le Deep Learning est un domaine d'apprentissage automatique dont le but est d'apprendre des fonctions complexes à l'aide d'architectures de réseau neuronal spéciales qui sont «profondes» (composées de plusieurs couches). Cette balise doit être utilisée pour les questions sur la mise en œuvre d'architectures d'apprentissage en profondeur. Les questions générales d'apprentissage automatique doivent être étiquetées «apprentissage automatique». Inclure une balise pour la bibliothèque logicielle appropriée (par exemple, "keras", "tensorflow", "pytorch", "fast.ai" et etc.) est utile.
Quelle est la différence entre l' époque et l' itération lors de la formation d'un perceptron
J'essaie de concilier ma compréhension des LSTM et souligné ici dans ce post par Christopher Olah mis en œuvre à Keras. Je suis le blog écrit par Jason Brownlee pour le tutoriel Keras. Ce qui me trouble le plus, c'est Le remodelage de la série de données en [samples, time steps, features]et, Les...
Quelle est la différence entre le rembourrage «SAME» et «VALID» tf.nn.max_poolde tensorflow? À mon avis, «VALIDE» signifie qu'il n'y aura pas de remplissage nul en dehors des bords lorsque nous ferons la piscine maximale. Selon Un guide de l'arithmétique de convolution pour l'apprentissage en...
Pour toute couche Keras ( Layerclasse), quelqu'un peut - il expliquer comment comprendre la différence entre input_shape, units, dim, etc.? Par exemple, le document dit de unitsspécifier la forme de sortie d'un calque. Dans l'image du réseau neuronal ci-dessous hidden layer1a 4 unités. Cela se...
Dans la fonction TensorFlow suivante, nous devons alimenter l'activation des neurones artificiels dans la couche finale. Ça je comprends. Mais je ne comprends pas pourquoi ça s'appelle des logits? N'est-ce pas une fonction mathématique? loss_function = tf.nn.softmax_cross_entropy_with_logits(...
Lorsque j'entraînerai mon réseau de neurones avec Theano ou Tensorflow, ils rapporteront une variable appelée "perte" par époque. Comment dois-je interpréter cette variable? Une perte plus élevée est meilleure ou pire, ou qu'est-ce que cela signifie pour les performances finales (précision) de mon...
Je cherchais des moyens alternatifs pour enregistrer un modèle entraîné dans PyTorch. Jusqu'à présent, j'ai trouvé deux alternatives. torch.save () pour enregistrer un modèle et torch.load () pour charger un modèle. model.state_dict () pour enregistrer un modèle entraîné et model.load_state_dict ()...
J'essaie de former un CNN à catégoriser le texte par sujet. Lorsque j'utilise l'entropie croisée binaire, j'obtiens une précision d'environ 80%, avec une entropie croisée catégorique, j'obtiens une précision d'environ 50%. Je ne comprends pas pourquoi. C'est un problème multiclasse, cela ne...
tf.nn.embedding_lookup(params, ids, partition_strategy='mod', name=None) Je ne peux pas comprendre le devoir de cette fonction. Est-ce comme une table de consultation? Quels moyens de retourner les paramètres correspondant à chaque id (en ids)? Par exemple, dans le skip-grammodèle si nous utilisons...
J'ai formé un modèle de classification binaire avec CNN, et voici mon code model = Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode='valid', input_shape=input_shape)) model.add(Activation('relu')) model.add(Convolution2D(nb_filters, kernel_size[0],...
J'ai lu certaines choses sur les réseaux neuronaux et je comprends le principe général d'un réseau neuronal monocouche. Je comprends le besoin de couches supplémentaires, mais pourquoi les fonctions d'activation non linéaires sont-elles utilisées? Cette question est suivie de celle-ci: à quoi sert...
Quelqu'un peut-il expliquer clairement la différence entre les convolutions 1D, 2D et 3D dans les réseaux de neurones convolutifs (en apprentissage profond) à l'aide
La méthode zero_grad()doit être appelée pendant la formation. Mais la documentation n'est pas très utile | zero_grad(self) | Sets gradients of all model parameters to zero. Pourquoi devons-nous appeler cette méthode?
J'essaie de comprendre le rôle de la Flattenfonction dans Keras. Voici mon code, qui est un simple réseau à deux couches. Il prend des données bidimensionnelles de forme (3, 2) et produit des données unidimensionnelles de forme (1, 4): model = Sequential() model.add(Dense(16, input_shape=(3, 2)))...
J'essaie de comprendre les LSTM et comment les construire avec Keras. J'ai découvert qu'il y avait principalement les 4 modes pour exécuter un RNN (les 4 bons sur l'image) Source de l'image: Andrej Karpathy Maintenant, je me demande à quoi ressemblerait un extrait de code minimaliste pour chacun...
Comment initialiser les poids et biais (par exemple, avec l'initialisation He ou Xavier) dans un réseau dans PyTorch?
Si nous avons 10 vecteurs propres, nous pouvons avoir 10 nœuds neuronaux dans la couche d'entrée.Si nous avons 5 classes de sortie, nous pouvons avoir 5 nœuds dans la couche de sortie.Mais quels sont les critères pour choisir le nombre de couches cachées dans un MLP et combien de neurones nœuds...
J'entraîne un réseau de neurones pour mon projet en utilisant Keras. Keras a fourni une fonction d'arrêt anticipé. Puis-je savoir quels paramètres doivent être observés pour éviter que mon réseau de neurones ne se suralimente en utilisant l'arrêt
Considérant l' exemple de code . Je voudrais savoir comment appliquer l'écrêtage de gradient sur ce réseau sur le RNN où il y a une possibilité d'explosion de gradients. tf.clip_by_value(t, clip_value_min, clip_value_max, name=None) Ceci est un exemple qui pourrait être utilisé, mais où dois-je...
J'ai récemment examiné une implémentation intéressante pour la classification de texte convolutif . Cependant, tout le code TensorFlow que j'ai examiné utilise des vecteurs d'incorporation aléatoires (non pré-entraînés) comme celui-ci: with tf.device('/cpu:0'), tf.name_scope("embedding"): W =...