Je viens de terminer le cours d'apprentissage automatique pour R sur cognitiveclass.ai et j'ai commencé à expérimenter avec randomforests.
J'ai créé un modèle en utilisant la bibliothèque "randomForest" dans R. Le modèle classe par deux classes, bonnes et mauvaises.
Je sais que lorsqu'un modèle est surajusté, il fonctionne bien sur les données de son propre trainingset mais mal sur les données hors échantillon.
Pour former et tester mon modèle, j'ai mélangé et divisé l'ensemble de données complet en 70% pour la formation et 30% pour les tests.
Ma question: j'obtiens une précision de 100% de la prédiction effectuée sur l'ensemble de test. Est-ce mauvais? Cela semble trop beau pour être vrai.
L'objectif est la reconnaissance des formes d'onde sur quatre les unes des autres en fonction des formes d'onde. Les caractéristiques de l'ensemble de données sont les résultats des coûts de l'analyse de distorsion temporelle dynamique des formes d'onde avec leur forme d'onde cible.
la source
Réponses:
Des scores de validation élevés comme la précision signifient généralement que vous n'êtes pas en sur-ajustement, mais cela devrait conduire à la prudence et peut indiquer que quelque chose s'est mal passé. Cela pourrait également signifier que le problème n'est pas trop difficile et que votre modèle fonctionne vraiment bien. Deux choses qui pourraient mal tourner:
la source
Enquêter pour voir quelles sont vos fonctionnalités les plus prédictives. Parfois, vous avez accidentellement inclus votre cible (ou quelque chose qui est équivalent à votre cible) parmi vos fonctionnalités.
la source