Une forêt aléatoire peut-elle être formée pour prédire correctement les données de comptage? Comment cela se passerait-il? J'ai une gamme de valeurs assez étendue, donc la classification n'a pas vraiment de sens. Si j'utilisais la régression, est-ce que je tronquerais simplement les résultats? Je suis assez perdu ici. Des idées?
r
regression
random-forest
prediction
count-data
JEquihua
la source
la source
Réponses:
Il existe un package R appelé
mobForest
qui peut s'adapter à une véritable forêt aléatoire pour les données de comptage. Il est basé surmod()
(partitionnement récursif basé sur un modèle) dans leparty
package. Il effectue une régression de Poisson si l'family
argument est spécifié commepoisson()
. Le package n'est plus dans le référentiel CRAN, mais les versions précédemment disponibles peuvent être obtenues à partir de l'archive.Si vous n'êtes pas limité à la forêt / ensachage aléatoire, une version boostée est également disponible pour les données de comptage. C'est-à-dire
gbm
(modèles de régression boostée généralisés). Il peut également s'adapter à un modèle de Poisson.la source
Je vois quelques possibilités.
la source
Eh bien, ce n'est pas une forêt aléatoire, mais CatBoost prend en charge une fonction de perte de poisson qui pourrait être utilisée pour la régression du comptage avec des arbres boostés:
https://tech.yandex.com/catboost/doc/dg/concepts/loss-functions-docpage/
la source