Je pense que c'est une question simple, bien que le raisonnement derrière pourquoi ou pourquoi ne le soit pas. La raison pour laquelle je demande, c'est que j'ai récemment écrit ma propre implémentation d'un RF et bien qu'il fonctionne bien, il ne fonctionne pas aussi bien que prévu (basé sur l' ensemble de données du concours Kaggle Photo Quality Prediction , les scores gagnants et certains des les informations ultérieures disponibles sur les techniques utilisées).
La première chose que je fais dans de telles circonstances est l'erreur de prédiction de tracé pour mon modèle, donc pour chaque valeur de prédiction donnée, je détermine le biais (ou écart) moyen par rapport à la valeur cible correcte. Pour mon RF, j'ai obtenu cette intrigue:
Je me demande s'il s'agit d'un modèle de biais couramment observé pour les RF (sinon, cela pourrait peut-être être quelque chose de spécifique à l'ensemble de données et / ou à ma mise en œuvre). Je peux bien sûr utiliser ce tracé pour améliorer les prévisions en l'utilisant pour compenser le biais, mais je me demande s'il y a une erreur ou une lacune plus fondamentale dans le modèle RF lui-même qui doit être corrigée. Merci.
== ADDENDUM ==
Mon enquête initiale se trouve sur cette entrée de blog Random Forest Bias - Update
la source
Réponses:
(Je suis loin d'être expert. Ce ne sont que des réflexions d'un statisticien subalterne qui a traité des problèmes différents, mais vaguement analogues. Ma réponse pourrait être hors contexte.)
Étant donné un nouvel échantillon à prévoir et un oracle qui a accès à un ensemble d'entraînement beaucoup plus vaste, alors la "meilleure" et la plus honnête prédiction est de dire "je prédis avec 60% de probabilité que cela appartienne à la classe rouge plutôt que la classe bleue ".
Je vais donner un exemple plus concret. Imaginez que, dans notre très grand ensemble de formation, il existe un grand ensemble d'échantillons très similaires à notre nouvel échantillon. Parmi ceux-ci, 60% sont bleus et 40% sont rouges. Et rien ne semble distinguer le Blues du Rouge. Dans un tel cas, il est évident qu'un 60% / 40% est la seule prédiction qu'une personne sensée peut faire.
Bien sûr, nous n'avons pas un tel oracle, au lieu de cela, nous avons beaucoup d'arbres. Les arbres de décision simples sont incapables de faire ces prédictions à 60% / 40% et donc chaque arbre fera une prédiction discrète (Rouge ou Bleu, rien entre les deux). Comme ce nouvel échantillon tombe juste du côté rouge de la surface de décision, vous constaterez que presque tous les arbres prédisent le rouge plutôt que le bleu. Chaque arbre prétend être plus certain qu'il ne l'est et déclenche une ruée vers une prédiction biaisée.
Le problème est que nous avons tendance à mal interpréter la décision à partir d'un seul arbre. Lorsqu'un seul arbre place un nœud dans la classe Red, nous ne devons pas interpréter cela comme une prédiction à 100% / 0% de l'arbre. (Je ne dis pas seulement que nous «savons» que c'est probablement une mauvaise prédiction. Je dis quelque chose de plus fort, c'est-à-dire que nous devons être prudents, nous interprétons comme étant la prédiction de l'arbre). Je ne peux pas développer de manière concise comment résoudre ce problème. Mais il est possible d'emprunter des idées dans des domaines statistiques sur la façon de construire des divisions plus «floues» au sein d'un arbre afin d'encourager un seul arbre à être plus honnête quant à son incertitude. Ensuite, il devrait être possible de faire une moyenne significative des prévisions d'une forêt d'arbres.
J'espère que cela aide un peu. Sinon, j'espère apprendre de toutes les réponses.
la source
Oui. La plupart des arbres ont un biais dans la queue. Voir:
Comment les fractionnements d'arbre de décision devraient-ils être mis en œuvre lors de la prévision des variables continues?
"Un problème potentiel avec les arbres est qu'ils ont tendance à mal s'intégrer dans la queue. Imaginez un nœud terminal qui capture la plage basse de l'ensemble d'apprentissage. Il prédira en utilisant la moyenne de ces points de consigne d'apprentissage, qui sous-estimeront toujours le résultat (puisque c'est la moyenne). "
la source