Statistiques et Big Data

9
Les données d'entraînement sont déséquilibrées - mais mon ensemble de validation devrait-il l'être également?

J'ai étiqueté des données composées de 10000 exemples positifs et 50000 exemples négatifs, ce qui donne un total de 60000 exemples. Évidemment, ces données sont déséquilibrées. Disons maintenant que je veux créer mon ensemble de validation et que je souhaite utiliser 10% de mes données pour le...