Supposons que dans une analyse de régression dans R, j'ai une variable indépendante de type de facteur avec 3 niveaux dans mon jeu de données de train. Mais dans l'ensemble de données de test, la même variable de facteur a 5 niveaux. Par conséquent, je ne peux pas prédire les valeurs de réponse pour l'ensemble de données de test. Que faut-il faire dans ce cas?
9
Réponses:
À première vue, cela signifie qu'au moins votre ensemble de formation n'est pas représentatif des données d'application. La question de savoir si l'ensemble de tests est représentatif est une question que vous devriez considérer à mon humble avis très attentivement. Dans ce contexte, il est également important de savoir si ces classes manquantes sont un problème de l'ensemble de formation particulier étant trop petit, ou si c'est une caractéristique générale du problème / tâche / application. C'est-à-dire, si de nouvelles classes qui n'ont jamais été rencontrées auparavant apparaîtront tout le temps.
En principe, je vois deux possibilités pour faire face à cette situation:
Dites que l'ensemble de formation n'est certainement pas représentatif et demandez plus de données, en particulier pour les données des classes manquantes. Cela a du sens si vous arrivez à la conclusion que le problème réside dans l'ensemble de formation particulier, et non dans les caractéristiques générales de l'application.
Dans tous les cas, sachant que les données d'entraînement manquent les cours, j'envisagerais d'utiliser un classificateur à une classe. C'est-à-dire un classificateur qui traite chaque classe indépendamment de toute autre classe possible. Idéalement, un classificateur à une classe devrait renvoyer une "classe inconnue" pour les cas de test des classes qui n'ont pas été disponibles pour la formation. Pour les classificateurs à une classe, tester ce «rejet» des cas appartenant à des classes vraiment inconnues est en fait logique.
modifier le commentaire de wrt @ gung: Je suppose que la séparation train / test est corrigée pour une bonne raison, espérons-le .
la source