RandomForest ignore-t-il l'indépendance spatiale?

8

J'ai 5 variables pour chaque pays du monde et j'ai besoin d'analyser leur effet et leurs interactions sur une variable indépendante. Random Forest conviendrait à mon champ d'application car il traite des relations non linéaires et prédit l'importance des variables. Cependant, je me demande si la dépendance spatiale peut être un problème. Je n'ai jamais vu la dépendance spatiale discutée dans les applications RF même si elle a été largement utilisée pour les données spatiales.

Oritteropus
la source

Réponses:

8

Il n'y a aucun problème avec l'autocorrélation spatiale de votre réponse ou des variables explicatives. C'est une technique totalement non paramétrique. Je l'ai utilisé pour l'interpolation des variables de diversité structurelle à travers mon pays sur la base de données in situ provenant d'une grille régulière et l'introduction des coordonnées comme covariables produit même de meilleures prédictions. En effet, Random Forest est basé sur une approche de division et de conquête (arbres de classification et de régression), ce qui signifie qu'il sépare votre espace d'entités en sous-ensembles disjoints où des modèles plus simples (par défaut une moyenne simple dans le cas de la régression) peuvent produire de bonnes prédictions. L'introduction des coordonnées comme variables, dans mon cas, exploite l'autocorrélation spatiale car il est logique que certains sous-ensembles géographiques du pays se comportent de manière homogène.

JEquihua
la source
Bien que j'aie tendance à être d'accord avec la réponse, êtes-vous au courant d'études empiriques qui montrent que c'est le cas? RF a certainement des problèmes avec les scores d'importance et les variables hautement corrélées (par exemple, Strobl et al ).
Prophet60091
2
Cela a beaucoup de sens puisque lorsque vous faites pousser un arbre, à chaque division, il faut décider quelle variable il va utiliser. Dans le cas extrême, si vous avez deux variables parfaitement corrélées, le schéma de fractionnement choisirait simplement l'une d'entre elles au hasard. Ainsi, si vous ré-entraînez la forêt aléatoire, vous verrez que les scores d'importance sont très instables dans ces variables corrélées. Ils seraient très enclins à changer de place dans la hiérarchie.
JEquihua
@JEquihua Je sais que je suis très en retard à la fête mais je serais très intéressé de savoir comment vous avez incorporé les coordonnées comme covariables? J'utilise le package randomForest dans R et je ne connais aucune option pour inclure des covariables, mais cela a beaucoup de sens, en particulier avec les données en cluster spatialement autocorrélées.
Kristina
Bonjour @Kristina. Je viens de les présenter comme des fonctionnalités supplémentaires, à savoir lat et lon comme deux colonnes différentes dans votre table de train. Cela ne fonctionne que si vos données de train représentent bien votre espace géographique, dans mon exemple, j'avais environ 25 000 points situés sur une grille régulière sur ma zone d'intérêt.
JEquihua
@JEquihua Merci pour votre réponse! J'ai essayé avant, cependant, j'avais l'impression que cela faussait fortement le modèle. Cependant, cela pourrait être dû au fait que j'ai plusieurs régions indépendantes (aires marines protégées à travers le monde) dans mes données. Avez-vous des suggestions sur la meilleure façon de gérer cela, car j'aimerais beaucoup inclure l'emplacement. Je vous remercie!
Kristina