Avantage des GLM dans les nœuds terminaux d'un arbre de régression?

8

Je joue donc avec l'idée d'écrire un algorithme qui développe et élague un arbre de régression à partir des données, puis, dans les nœuds terminaux de l'arbre, s'adapte à un GLM. J'ai essayé de lire l'idée, mais je n'arrive pas à trouver de nom cohérent pour la technique. Je l'ai lu comme des arbres de régression hybrides (HRT), des arbres modèles et des arbres fonctionnels. Les recherches sur ces termes se révèlent très peu.

Me manque-t-il un autre nom pour cela? Où puis-je trouver des recherches sur l'efficacité de cela?

ApeWithPants
la source

Réponses:

11

Comme vous le dites, cette idée a déjà été explorée (bien que sous des noms différents) et il existe en fait une vaste littérature sur ce sujet. Les noms que j'associe à cette ligne de travail sont Wei-Yin Loh, Probal Chaudhuri, Hongshik Ahn, Joao Gama, Antonio Ciampi ou Achim Zeileis. Vous pouvez trouver une description assez complète des avantages et des inconvénients et des différents algorithmes (légèrement obsolètes) dans cette thèse .

Les arbres avec GLM présentent les (dés) avantages suivants (paraphrasés à partir d' ici - vous pouvez facilement trouver la préimpression en recherchant sur Google):

  • La forme fonctionnelle d'un GLM peut parfois sembler trop rigide pour l'ensemble des données, même si le modèle peut convenir à un sous-échantillon.

  • Surtout avec des ensembles de données volumineux ou des ensembles de données où les connaissances sur les processus sous-jacents sont limitées, la mise en place de modèles paramétriques utiles peut être difficile et leurs performances en matière de prédiction peuvent ne pas être suffisantes.

  • Les arbres peuvent incorporer des relations non linéaires ou trouver la relation fonctionnelle par eux-mêmes et peuvent donc avoir un pouvoir prédictif plus élevé dans des environnements où les modèles classiques sont biaisés ou même défaillants.

  • En raison de leur caractère exploratoire, les arbres avec GLM peuvent révéler des modèles cachés dans les données modélisées avec GLM ou fournir des explications supplémentaires sur les résultats surprenants ou contre-intuitifs en incorporant des informations supplémentaires provenant d'autres covariables.

  • Ils peuvent être utiles pour identifier les segments des données pour lesquels un modèle supposé a priori correspond bien. Il se peut que dans l'ensemble, ce modèle présente un mauvais ajustement, mais cela est dû à une certaine contamination (par exemple, la fusion de deux fichiers de données distincts ou des erreurs systématiques lors de la collecte de données à une certaine date). Les arbres avec GLM peuvent partitionner les données d'une manière qui nous permet de trouver les segments qui ont un mauvais ajustement et de trouver des segments pour lesquels l'ajustement peut être plutôt bon.

  • La structure arborescente permet aux effets de ces covariables d'être non linéaires et hautement interactifs au lieu de supposer une influence linéaire sur la moyenne liée.

  • Les arbres avec GLM peuvent conduire à des informations supplémentaires pour un modèle paramétrique supposé a priori, surtout si les mécanismes sous-jacents sont trop complexes pour être capturés par le GLM.

  • Les arbres avec GLM peuvent détecter automatiquement les interactions, la non-linéarité, les erreurs de spécification du modèle, l'influence des covariables non prises en compte, etc.

  • Ils peuvent être utilisés comme un outil d'exploration dans des ensembles de données complexes et volumineux pour lesquels il présente un certain nombre d'avantages.

  • Par rapport à un GLM mondial, un arbre de modèle GLM peut atténuer le problème de biais et de spécification erronée du modèle et fournir un meilleur ajustement.

  • Par rapport aux algorithmes d'arbre à constantes, la spécification d'un modèle paramétrique dans les nœuds terminaux peut ajouter une stabilité supplémentaire et donc réduire la variance des méthodes d'arbre.

  • Étant un hybride d'arbres et de modèles classiques de type GLM, les performances se situent généralement entre ces deux pôles: ils ont tendance à présenter un pouvoir prédictif plus élevé que les modèles classiques mais moins que les arbres non paramétriques.

  • Ils ajoutent une certaine complexité par rapport au modèle classique en raison du processus de fractionnement, mais sont généralement plus parcimonieux que les arbres non paramétriques.

  • Ils montrent une variance de prédiction plus élevée qu'un modèle global dans les expériences de bootstrap, mais beaucoup moins que les arbres non paramétriques (même les arbres élagués).

  • L'utilisation d'un GLM dans le nœud d'un arbre conduit généralement à des arbres plus petits

  • L'utilisation d'un GLM dans le nœud d'un arbre conduit généralement à des prédictions plus stables par rapport à un arbre avec seulement une constante (mais pas aussi stable que l'ensachage ou les forêts d'arbres)

  • La dimension VC d'un arbre avec GLM dans les nœuds est plus élevée que l'arbre équivalent avec seulement une constante (car ce dernier est un cas spécial du premier)

En ce qui concerne "l'efficacité" (je suppose que vous voulez dire la performance prédictive) des arbres avec GLM, la plupart des articles cités dans les deux liens ci-dessus fournissent une enquête à ce sujet. Cependant, une comparaison complète et large de tous les algorithmes avec des concurrents tels que les arbres standard n'a pas été faite à ma connaissance.

Momo
la source