Dans une classification simple, nous avons deux classes: classe 0 et classe 1. Dans certaines données, je n'ai que des valeurs pour la classe 1, donc aucune pour la classe 0. Maintenant, je pense à faire un modèle pour modéliser les données pour la classe 1. Ainsi, lorsque de nouvelles données arrivent, ce modèle est appliqué aux nouvelles données et trouve une probabilité indiquant la probabilité que de nouvelles données correspondent à ce modèle. Puis en comparant avec un seuil, je peux filtrer les données inappropriées.
Mes questions sont:
- Est-ce une bonne façon de travailler avec de tels problèmes?
- Un classificateur RandomForest peut-il être utilisé dans ce cas? Dois-je ajouter des données artificielles pour la classe 0 que j'espère que le classificateur considère comme du bruit?
- Une autre idée peut-elle aider à résoudre ce problème?
la source
Permettez-moi d'ajouter quelques possibilités supplémentaires:
L'idée générale est que la définition d'un seuil à la distance de la classe vous permet de décider si un échantillon appartient ou non à cette classe, qu'il existe ou non d'autres classes.
Le SIMCA est courant dans la littérature chimiométrique (bien qu'il soit rarement vraiment mis en place d'une manière unique).
Richard G. Brereton: Chemometrics for Pattern Recognition (Wiley, 2009) a un chapitre entier sur la classification à une classe.
la source