Disons que j'ai un simple problème d'apprentissage automatique comme une classification. Avec quelques références en vision ou en reconnaissance audio, moi, en tant qu'humain, je suis un très bon classificateur. J'ai donc une intuition sur la qualité d'un classificateur.
Mais avec beaucoup de données, un point est que je ne sais pas dans quelle mesure le classificateur que je forme est possible d'obtenir. Ce sont des données où je ne suis personnellement pas un très bon classificateur (par exemple, classer l'humeur d'une personne à partir de données EEG). Il n'est pas vraiment possible d'avoir une intuition sur la gravité de mon problème.
Maintenant, si je suis confronté à un problème d'apprentissage automatique, je voudrais savoir à quel point je peux être bon. Existe-t-il des approches fondées sur des principes à ce sujet? Comment ferais-tu ceci?
Visualisez les données? Commencez avec des modèles simples? Commencez avec des modèles très complexes et voyez si je peux suréquiper? Que recherchez-vous si vous souhaitez répondre à cette question? Quand arrêtez-vous d'essayer?
la source
S'il existe un moyen de visualiser vos données, c'est le meilleur scénario possible, mais toutes les données ne peuvent pas être visualisées de la même manière, vous devrez donc peut-être trouver votre propre façon de projeter les données qui peuvent vous aider à comprendre vos données. meilleur.
Cependant, en général, je prends généralement un petit échantillon des données, les convertis en ARFF et essaie différents algorithmes de clustering de WEKA. Ensuite, je vois juste quel algorithme me donne une meilleure matrice de confusion. Cela me donne un indice sur la façon dont les classes sont séparées et me permet d'étudier pourquoi cet algorithme particulier fait mieux pour ces données. Je change également le nombre de clusters (c'est-à-dire que je n'utilise pas seulement k = 2, j'utilise k = 3, 4 etc.). Cela me donne une idée s'il y a une fragmentation dans les données ou si une classe est plus fragmentée que l'autre. Si vous mélangez des points de formation et de test ensemble pour le clustering, vous pouvez également mesurer quels clusters sont représentés par vos points de formation. Certains clusters peuvent être surreprésentés et certains peuvent être sous-représentés, les deux peuvent provoquer des problèmes d'apprentissage d'un classificateur.
Vérifiez toujours la précision de votre entraînement. Si votre précision d'entraînement ne semble pas bonne, les points d'entraînement mal classés sont également un gros indice.
la source