Question de surajustement

7

Considérez-vous cela comme un sur-ajustement?

entrez la description de l'image ici

Nickolas Papanikolaou
la source

Réponses:

0

Non, ce n'est pas un exemple de sur-ajustement! Il serait exagéré si la perte valide commençait à augmenter alors que la perte d'entraînement continuait à diminuer.

Edit: la réponse à la deuxième question Cela vaut la peine de considérer comment est calculé auc. Nous avons les probabilités de chaque instance d'appartenir à la classe positive. Ensuite, nous trions ces probabilités. Si toutes les instances positives apparaissent dans la première partie de la liste triée et que tous les négatifs sont dans la seconde, alors auc est 1 (la "performance parfaite" selon l'observation auc).

Considérons maintenant le calcul des pertes. Par exemple entropie croisée binaire. La formule est la où - vrai libellé, - probabilité que appartient à la classe positive. Nous pouvons prédire pour chaque observation négative, que la probabilité est de 0,998, alors la perte sera énorme. Mais si les probabilités prédites pour les observations positives sont de 0,999 (plus élevées que pour les négatives), alors en termes d'AUC, nous aurons une performance parfaite.loss=-1/Nyjelog(p(yje))+(1-yje)log(1-p(yje))yjep(yje)yje

C'est pourquoi je suppose que nous devons évaluer la perte.

Lana
la source
Merci Lana, bien que la différence de perte entre la formation et la validation n'indique pas un sur-ajustement?
Nickolas Papanikolaou
@NickolasPapanikolaou c'est normal, lorsque la perte diffère sur l'ensemble de formation et de validation, car le modèle se familiarise avec les données, qu'il a déjà vues dans l'ensemble de formation (c'est la raison pour laquelle la division en test, validation, train est généralement effectuée). Cependant, les performances du modèle sur les données de test montrent que ce modèle continue d'extraire des informations utiles, le processus d'apprentissage se poursuit mais plus lentement qu'auparavant.
Lana
3

Non, ce n'est pas trop.

Tout d'abord, l'AUC est exactement la même entre les trains et les ensembles de validation. Les pertes peuvent avoir un écart mais comme la perte de validation est toujours en baisse (même si lentement), vous êtes OK.

Javier
la source
1

Et celui-ci? Dans ce cas, la perte de validation augmente mais l'AUC ne suit pas le même schéma, lequel croire à la perte ou aux performances?

entrez la description de l'image ici

Nickolas Papanikolaou
la source
Oublié de mentionner l'AUC sur l'ensemble de test de résistance est 0,928
Nickolas Papanikolaou
Quelle perte avez-vous? Quelle est la répartition des classes dans les trains et les ensembles de tests?
Lana
J'ai répondu à cette question en modifiant ma première réponse. Dans ce cas, il y a sur-ajustement et les performances de perte doivent être évaluées
Lana
Ainsi, votre nouvelle question et mes éditions sont l'argument contre l'hypothèse, faite par Javier: "Tout d'abord l'AUC est exactement la même entre le train et les ensembles de validation". Cela ne pouvait pas être la raison principale
Lana
Les trois ensembles (train, validation, test) sont entièrement équilibrés, j'ai utilisé binary_crossentropy. Je crois que le problème est lié à l'AUC, car si j'utilise la précision, les courbes s'écartent (signes de sur-ajustement), merci beaucoup pour vos réponses
Nickolas Papanikolaou