Comment puis-je inclure des effets aléatoires (ou des mesures répétées) dans une forêt aléatoire

22

Je ne suis même pas sûr que la question ait beaucoup de sens, mais je pense avoir vu quelques titres d'articles où ils proposaient une forêt aléatoire avec des effets aléatoires. Est-ce possible dans R?

mguzmann
la source
1
Oui, cela n'a pas beaucoup de sens. Qu'entendez-vous par effets aléatoires?
Simone
Je pense à quelque chose de similaire à ce que vous pouvez faire avec la fonction lmer où vous pouvez inclure un effet aléatoire comme (1 | effet).
mguzmann
Il s'agit donc d'un recuit simulé sur une forêt aléatoire? econpapers.repec.org/article/bpjjqsprt/… researchgate.net/publication/…
EngrStudent - Réintégrer Monica
2
Je ne sais pas trop quel type de hasard sont les méthodes que vous examinez les adresses. Les forêts aléatoires sont une simple amélioration par rapport à l'ensachage en décorrélant l'arbre. La raison pour laquelle il est appelé «aléatoire» est le fait qu'à tout moment, lorsqu'un fractionnement est considéré dans un arbre, le candidat de fractionnement est choisi parmi un sous-ensemble aléatoire m de prédicteurs p par exemple. Habituellement, m ~ sqrt (p). Et chaque fois qu'un fractionnement se produit, un sous-ensemble aléatoire de prédicteurs est choisi, d'où une forêt aléatoire.
psteelk

Réponses:

13

Ils ne sont pas couramment utilisés ensemble, et des précautions doivent être prises avant de les combiner.

Les forêts aléatoires sont généralement utilisées comme classificateurs. La raison pour laquelle vous utiliseriez une forêt aléatoire au lieu d'une autre méthode (par exemple le clustering K-means) est que vous pouvez avoir un grand nombre de dimensions selon lesquelles vous souhaitez classer. Le problème avec le grand nombre de dimensions est que si vous vouliez tester toutes les combinaisons d'ordres de dimension, vous auriez un grand nombre de choix (il croît plus vite que le nombre de dimensions factorielles).

Les effets aléatoires sont généralement utilisés dans la régression avec des mesures répétées de la même chose. Ils sont couramment utilisés dans les modèles à effets mixtes où le terme mixte fait référence à la fois aux effets fixes et aléatoires. On pense que les effets fixes représentent les paramètres que vous verrez à nouveau (par exemple, un médicament ou l'âge d'une personne). On pense que les effets aléatoires représentent une instance de variabilité autour d'un paramètre que vous ne verrez plus (par exemple une personne spécifique).

Il existe des exemples de les utiliser ensemble lorsqu'il existe des données en cluster http://dx.doi.org/10.1080/00949655.2012.741599 et http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf .

Je ne connais aucun package R qui puisse faire cette analyse.

Bill Denney
la source
2
De plus, les auteurs de ce travail sont heureux de partager avec vous le code R de leur implémentation. Envoyez-les simplement par e-mail. C'est ce que j'ai fait.
Brash Equilibrium
J'ai contacté Larocque, qui a contacté Hajjam, qui m'a envoyé un e-mail dans quelques jours.
Brash Equilibrium
2
Attention, le code R disponible n'implémente que la forêt aléatoire pour les données continues. Vous devrez l'étendre pour traiter les données catégoriques.
Brash Equilibrium
10

Oui c'est possible. Vous devriez consulter « RE-EM Trees: A Data Mining Approach for Longitudinal and Clustered Data » et le package R associé REEMtree .

Cela fait un moment que je n'ai pas regardé le journal. Je me souviens que les auteurs n'avaient pas encore essayé de former des ensembles de ces arbres, mais que rien ne suggérait que cela ne fonctionnerait pas.

Ben Ogorek
la source
1
REEMtree n'est pas des effets aléatoires appliqués à des forêts aléatoires. Il est appliqué au partitionnement récursif, qui n'est qu'une partie de ce qui entre dans un modèle de forêt aléatoire. Je ne pense donc pas que cette réponse mérite un score plus élevé que celui de Bill Denney. Malheureusement, mon vote positif est verrouillé.
Brash Equilibrium
1
Allez, une fois que vous avez l'arbre, à quel point est-il difficile de construire la forêt? Et vous êtes bienvenue.
Ben Ogorek
1
Eh bien, vu comment la forêt aléatoire ajoute à l'échantillonnage bootstrap, au réglage du nombre d'entités choisies au hasard pour essayer, à l'agrégation des résultats de l'arbre, etc., et nous avons besoin d'un effet aléatoire sur les prédictions de la forêt aléatoire, pas les prédictions d'arbres individuels dans ce forêt, augmenter REEMtree n'est pas une aussi bonne solution que de lire l'article que Bill a cité et de demander le code R à ses auteurs.
Brash Equilibrium
8

Les forêts aléatoires à effets mixtes (MERF) sont une chose. Comme l'indique la réponse ci-dessus, il y a de grandes recherches à leur sujet par le groupe du Dr Larocque à HEC Montréal. Le document est ici: http://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 .

Il s'agit essentiellement d'une façon théoriquement saine de combiner la modélisation non linéaire des forêts aléatoires avec des effets aléatoires linéaires.

Nous venons de publier un package open source en Python implémentant MERF en utilisant l'algorithme ci-dessus dans l'article.

Nous avons écrit un article de blog détaillé sur le package et comment l'utiliser pour des ensembles de données en cluster.

Sourav Dey
la source
1
toute idée d'implémenter cela dans R ou d'ajouter une fonctionnalité de tracé de dépendance partielle
OliverFishCode