J'ai un ensemble de données comprenant 24 lignes de données mensuelles. Les caractéristiques sont le PIB, les arrivées aux aéroports, le mois et quelques autres. La variable dépendante est le nombre de visiteurs d'une destination touristique populaire. Random Forest conviendrait-il à un tel problème?
Les données ne sont pas publiques, je ne peux donc pas poster d'échantillon.
random-forest
small-sample
Hughesdan
la source
la source
Réponses:
La forêt aléatoire est essentiellement un rééchantillonnage bootstrap et des arbres de décision de formation sur les échantillons, donc la réponse à votre question doit répondre à ces deux.
Le rééchantillonnage bootstrap n'est pas un remède pour les petits échantillons . Si vous n'avez que vingt-quatre observations dans votre ensemble de données, alors chacun des échantillons prélevés avec remplacement à partir de ces données ne comprendra pas plus de vingt-quatre valeurs distinctes. Mélanger les cas et ne pas en dessiner ne changerait pas grand-chose à votre capacité à apprendre quelque chose de nouveau sur la distribution sous-jacente. Un petit échantillon est donc un problème pour le bootstrap.
Les arbres de décision sont formés en divisant les données conditionnellement sur les variables prédictives, une variable à la fois, pour trouver les sous-échantillons qui ont le plus grand pouvoir discriminant. Si vous n'avez que vingt-quatre cas, dites que si vous avez de la chance et que toutes les divisions étaient de même taille, alors avec deux divisions, vous vous retrouveriez avec quatre groupes de six cas, avec des divisions d'arbres, avec huit groupes de trois. Si vous avez calculé des moyennes conditionnelles sur les échantillons (pour prédire des valeurs continues dans des arbres de régression ou des probabilités conditionnelles dans des arbres de décision), vous ne baseriez votre conclusion que sur ces quelques cas! Ainsi, les sous-échantillons que vous utiliseriez pour prendre les décisions seraient encore plus petits que vos données d'origine.
Avec de petits échantillons, il est généralement judicieux d' utiliser des méthodes simples . De plus, vous pouvez rattraper le petit échantillon en utilisant des a priori informatifs dans un cadre bayésien (si vous avez des connaissances raisonnables hors données sur le problème), vous pouvez donc envisager d'utiliser un modèle bayésien sur mesure.
la source
D'une part, il s'agit d'un petit ensemble de données et la forêt aléatoire est gourmande en données.
D'un autre côté, peut-être que quelque chose vaut mieux que rien. Il n'y a rien de plus à dire que "Essayez-le et voyez". Vous pouvez décider si un modèle particulier est "bon" ou non; de plus, nous ne pouvons pas vous dire si un modèle est adapté à un usage particulier (et vous ne le voudriez pas non plus - cela ne nous coûte rien si nous nous trompons!).
la source