Quelle est la différence entre val_loss
et loss
pendant la formation à Keras?
Par exemple
Epoch 1/20
1000/1000 [==============================] - 1s - loss: 0.1760, val_loss: 0.2032
Sur certains sites, j'ai lu qu'à la validation, le décrochage ne fonctionnait pas.
machine-learning
deep-learning
keras
Vladimircape
la source
la source
dropout
- dire qu'il ne l'est pasNone
), l'abandon n'est appliqué que pendant la formation (c'est-à-dire qu'aucun abandon n'est appliqué lors de la validation). En tant que tel, l'une des différences entre la perte de validation (val_loss
) et la perte de formation (loss
) est que, lors de l'utilisation du décrochage, la perte de validation peut être inférieure à la perte de formation (généralement non attendue dans les cas où le décrochage n'est pas utilisé).Réponses:
val_loss
est la valeur de la fonction de coût pour vos données de validation croisée et la perte est la valeur de la fonction de coût pour vos données de formation. Sur les données de validation, les neurones utilisant le décrochage ne suppriment pas les neurones aléatoires. La raison en est que pendant l'entraînement, nous utilisons le décrochage afin d'ajouter du bruit pour éviter un sur-ajustement. Lors du calcul de la validation croisée, nous sommes en phase de rappel et non en phase de formation. Nous utilisons toutes les capacités du réseau.Grâce à l'un de nos chers amis, je cite et explique le contenu d' ici qui est utile.
Comme vous pouvez le voir
fit
La méthode utilisée dansKeras
possède un paramètre nommé validation_split, qui spécifie le pourcentage de données utilisées pour évaluer le modèle qui est créé après chaque époque. Après avoir évalué le modèle à l'aide de cette quantité de données, cela sera signalé parval_loss
si vous avez défini verbose sur1
; de plus, comme la documentation le précise clairement, vous pouvez utiliser soitvalidation_data
ouvalidation_split
. Les données de validation croisée sont utilisées pour déterminer si votre modèle sur-ajuste les données ou non. C'est ce que nous pouvons comprendre si notre modèle a une capacité de généralisation ou non.la source