Prédiction des données de comptage avec une forêt aléatoire

Une forêt aléatoire peut-elle être formée pour prédire correctement les données de comptage? Comment cela se passerait-il? J'ai une gamme de valeurs assez étendue, donc la classification n'a pas vraiment de sens. Si j'utilisais la régression, est-ce que je tronquerais simplement les résultats? Je suis assez perdu ici. Des idées?

r regression random-forest prediction count-data JEquihua
la source

ne pouvez-vous pas utiliser la régression du poisson?

RJ-

Je voulais utiliser quelque chose de non paramétrique. Je ne me souviens pas vraiment des hypothèses de régression du poisson, mais je suis à peu près sûr que l'une d'entre elles est que les observations sont indépendantes et que cela n'est pas profondément satisfait ici. Cela pourrait-il m'affecter beaucoup?

JEquihua

Avez-vous simplement essayé de faire une régression RF (éventuellement également dans le journal)? Cela peut juste fonctionner assez bien.

Ne pas avoir. Mais c'était mon premier instinct. Transformation du journal ou de la racine carrée. Mais je voulais voir si quelqu'un avait une expérience à ce sujet.

JEquihua

J'ai essayé de faire une régression sur la réponse, le journal (réponse) et sqrt (réponse) et je n'ai rien obtenu de bon. Je pense que le problème est plus que mes variables indépendantes expliquent la réponse. Tant pis.

JEquihua

Réponses:

Il existe un package R appelé mobForestqui peut s'adapter à une véritable forêt aléatoire pour les données de comptage. Il est basé sur mod()(partitionnement récursif basé sur un modèle) dans le partypackage. Il effectue une régression de Poisson si l' familyargument est spécifié comme poisson(). Le package n'est plus dans le référentiel CRAN, mais les versions précédemment disponibles peuvent être obtenues à partir de l'archive.

Si vous n'êtes pas limité à la forêt / ensachage aléatoire, une version boostée est également disponible pour les données de comptage. C'est-à-dire gbm(modèles de régression boostée généralisés). Il peut également s'adapter à un modèle de Poisson.

Randel
la source

Je vois quelques possibilités.

Vous pouvez regrouper la réponse en quelques catégories arbitraires et utiliser un arbre de classification
Si les nombres sont généralement très faibles, 0, 0, 0, 1, 0, 3, 0, 2, vous pouvez traiter chaque nombre entier comme une classe et utiliser à nouveau un arbre de classification (probablement pas votre cas). Dans ces cas, il sera plus difficile d'obtenir une mesure de type expliquée à forte variance par opposition à une régression continue.
Si les chiffres ne sont généralement pas bas et qu'il y a beaucoup de variations, je vais simplement y aller avec un arbre de régression. Par exemple, l'utilisation de la régression du poisson sur la régression linéaire n'est une sauce que lorsqu'il s'agit d'obtenir un bon prédicteur linéaire. Si vous ne voyez pas un bon pouvoir prédictif avec la forêt aléatoire, alors je doute qu'un modèle plus sophistiqué qui accueille spécifiquement les données de comptage va faire beaucoup pour vous.

Ben Ogorek
la source

Eh bien, ce n'est pas une forêt aléatoire, mais CatBoost prend en charge une fonction de perte de poisson qui pourrait être utilisée pour la régression du comptage avec des arbres boostés:

https://tech.yandex.com/catboost/doc/dg/concepts/loss-functions-docpage/

Udi
la source