J'utilise la forêt aléatoire sur des données groupées de grande dimension (50 variables d'entrée numériques) qui ont une structure hiérarchique. Les données ont été collectées avec 6 réplications à 30 positions de 70 objets différents résultant en 12600 points de données, qui ne sont pas indépendants.
Il semble que la forêt aléatoire sur-ajuste les données, car l'erreur oob est beaucoup plus petite que l'erreur que nous obtenons lorsque nous omettons les données d'un objet pendant la formation et que nous prédisons ensuite le résultat de l'objet exclu avec la forêt aléatoire formée. De plus, j'ai corrélé les résidus.
Je pense que le sur-ajustement est dû au fait que la forêt aléatoire attend des données indépendantes. Est-il possible de dire à la forêt aléatoire la structure hiérarchique des données? Ou existe-t-il une autre méthode puissante d'ensemble ou de rétrécissement qui peut gérer des données groupées de grande dimension avec une structure d'interaction forte?
Une idée de comment je peux faire mieux?
la source
Réponses:
Très tard pour la fête aussi, mais je pense que cela pourrait être lié à quelque chose que j'ai fait il y a quelques années. Ce travail a été publié ici:
http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379
et concerne le traitement de la corrélation variable dans un ensemble d'arbres de décision. Vous devriez jeter un coup d'œil à la bibliographie qui indique de nombreuses propositions pour traiter ce type de problèmes (ce qui est courant dans le domaine "génétique").
Le code source est disponible ici (mais n'est plus vraiment maintenu).
la source
Le sur-ajustement de la forêt aléatoire peut être causé par différentes raisons, et cela dépend fortement des paramètres RF. Il n'est pas clair dans votre message comment vous avez réglé votre RF.
Voici quelques conseils qui peuvent vous aider:
Augmentez le nombre d'arbres
Réglez la profondeur maximale des arbres. Ce paramètre dépend fortement du problème à résoudre. L'utilisation d'arbres plus petits peut aider à résoudre le problème de sur-ajustement.
la source