Je fais la classification d'images en utilisant l'apprentissage automatique.
Supposons que j'ai des données d'entraînement (images) et que je vais diviser les données en ensembles d'apprentissage et de validation. Et je veux aussi augmenter les données (produire de nouvelles images à partir des images originales) par des rotations aléatoires et une injection de bruit. L'augmentation se fait hors ligne.
Quelle est la bonne façon d'augmenter les données?
Divisez d'abord les données en ensembles de formation et de validation, puis effectuez une augmentation des données sur les ensembles de formation et de validation.
Divisez d'abord les données en ensembles de formation et de validation, puis effectuez l'augmentation des données uniquement sur l'ensemble de formation.
Effectuez d'abord une augmentation des données sur les données, puis divisez les données en un ensemble de formation et de validation.
Réponses:
Divisez d'abord les données en ensembles de formation et de validation, puis effectuez une augmentation des données sur l'ensemble de formation.
Vous utilisez votre ensemble de validation pour essayer d'estimer le fonctionnement de votre méthode sur des données du monde réel, elle ne doit donc contenir que des données du monde réel. L'ajout de données augmentées n'améliorera pas la précision de la validation. Au mieux, cela dira quelque chose sur la façon dont votre méthode répond à l'augmentation des données et, au pire, ruinera les résultats de la validation et l'interprétabilité.
la source
ne faites jamais 3, car vous obtiendrez des fuites. par exemple, supposons que l'augmentation est un décalage d'un pixel vers la gauche. si la scission ne prend pas en compte l'augmentation, vous pouvez obtenir des échantillons de données très similaires à la fois dans le train et la validation.
la source
L'augmentation des données signifie l'ajout de données / informations externes aux données existantes qui sont analysées.
Ainsi, comme toutes les données augmentées seraient utilisées pour l'apprentissage automatique, le processus suivant serait mieux adapté:
la source