Disons que j'ai un tas de lignes pour un problème de classification:
Où sont les entités / prédicteurs et est la classe à laquelle la combinaison d' entités de la ligne appartient.
De nombreuses combinaisons de fonctionnalités et leurs classes sont répétées dans l'ensemble de données, que j'utilise pour adapter un classificateur. Je me demande simplement s'il est acceptable de supprimer les doublons (j'effectue essentiellement un group by X1 ... XN Y
en SQL)? Merci.
PS:
Ceci est pour un ensemble de données de présence binaire uniquement où les antérieurs de classe sont assez asymétriques