Supprimer les doublons de l'ensemble d'entraînement pour la classification

9

Disons que j'ai un tas de lignes pour un problème de classification:

X1,...XN,Y

Où sont les entités / prédicteurs et est la classe à laquelle la combinaison d' entités de la ligne appartient.X1,...,XNY

De nombreuses combinaisons de fonctionnalités et leurs classes sont répétées dans l'ensemble de données, que j'utilise pour adapter un classificateur. Je me demande simplement s'il est acceptable de supprimer les doublons (j'effectue essentiellement un group by X1 ... XN Yen SQL)? Merci.

PS:

Ceci est pour un ensemble de données de présence binaire uniquement où les antérieurs de classe sont assez asymétriques

cs0815
la source

Réponses:

13

Non, ce n'est pas acceptable. Les répétitions sont ce qui donne le poids de la preuve.

Si vous supprimez vos doublons, un trèfle à quatre feuilles est aussi important qu'un trèfle à trois feuilles, car chacun se produira une fois, alors que dans la vie réelle, il y a un trèfle à quatre feuilles pour 10 000 trèfles réguliers.

Même si vos prieurs sont "assez asymétriques", comme vous le dites, le but de l'ensemble d'entraînement est d'accumuler une expérience de la vie réelle, ce que vous n'obtiendrez pas si vous perdez les informations de fréquence.

Carlos Accioly
la source
1

Je suis d'accord avec la réponse précédente mais voici mes réserves. Il est conseillé de supprimer les doublons tout en séparant les échantillons pour la formation et les tests pour des classificateurs spécifiques tels que les arbres de décision. Supposons que 20% de vos données appartenaient à une classe particulière et de celles qui se sont infiltrées dans les tests, puis des algorithmes tels que Decision Trees créeront des passerelles vers cette classe avec les échantillons en double. Cela pourrait fournir des résultats trompeurs sur l'ensemble de test, car il existe essentiellement une passerelle très spécifique vers la sortie correcte.14th

Lorsque vous déployez ce classifieur sur des données complètement nouvelles, il pourrait être étonnamment mauvais s'il n'y a pas d'échantillons similaires aux 20% ci-dessus.

Argument : On peut affirmer que cette situation pointe vers un ensemble de données défectueux, mais je pense que cela est vrai pour les applications réelles.

La suppression des doublons pour les réseaux neuronaux, les modèles bayésiens, etc. n'est pas acceptable.

Rakshit Kothari
la source
Une autre solution possible pourrait consister à pondérer les doublons en fonction de leur fréquence d'occurrence.
Rakshit Kothari