Les forêts aléatoires fonctionnent en créant un ensemble d'arbres de décision où chaque arbre est créé en utilisant un échantillon bootstrap des données de formation d'origine (échantillon à la fois de variables d'entrée et d'observations).
Un processus similaire peut-il être appliqué pour la régression linéaire? Créer k modèles de régression linéaire en utilisant un échantillon de bootstrap aléatoire pour chacune des k régressions
Quelles sont les raisons de NE PAS créer un modèle de "régression aléatoire"?
Merci. S'il y a quelque chose que je ne comprends pas, alors faites-le moi savoir.
a_0 + a_1 * x_1 + ... + a_d * x_d
, la fonction linéaire moyenne résultante (après l'agrégation bootstrap) a toujours la même forme fonctionnelle linéaire que celle avec laquelle vous commencez (c'est-à-dire `` l'apprenant de base '').Réponses:
Je suis partiellement en désaccord avec les réponses actuelles parce que la méthodologie de la forêt aléatoire est basée sur l'introduction d'une variance (CART construits sur des échantillons bootstrapés + méthode de sous-espace aléatoire) pour les rendre indépendants. Une fois que vous avez des arbres orthogonaux, la moyenne de leurs prédictions tend (dans de nombreux cas) à être meilleure que la prédiction de l'arbre moyen (en raison de l'inégalité de Jensen). Bien que les CART aient des avantages notables lorsqu'ils sont soumis à ce traitement, cette méthodologie s'applique définitivement à tout modèle et les modèles linéaires ne font pas exception. Voici un package R qui correspond exactement à ce que vous recherchez. Il présente un joli tutoriel sur la façon de les régler et de les interpréter ainsi qu'une bibliographie sur le sujet: Modèles linéaires généralisés aléatoires .
la source
Pour mettre la réponse de @ ziggystar en termes de jargon d'apprentissage automatique: l'idée derrière les techniques d'agrégation de bootstrap (par exemple, les forêts aléatoires) est d'adapter de nombreux modèles à faible biais et à forte variance aux données avec un élément de "caractère aléatoire" ou "d'instabilité". Dans le cas des forêts aléatoires, l'instabilité est ajoutée par le biais de l'amorçage et en sélectionnant un ensemble aléatoire de fonctionnalités pour diviser chaque nœud de l'arbre. La moyenne de ces arbres bruyants mais à faible biais atténue la forte variance de tout arbre individuel.
Alors que les arbres de régression / classification sont des modèles «à faible biais et à forte variance», les modèles de régression linéaire sont généralement l'opposé - «à biais élevé et à faible variance». Ainsi, le problème auquel on est souvent confronté avec les modèles linéaires est de réduire le biais et non de réduire la variance. L'agrégation de bootstrap n'est tout simplement pas faite pour cela.
Un problème supplémentaire est que l'amorçage peut ne pas fournir suffisamment de "caractère aléatoire" ou "d'instabilité" dans un modèle linéaire typique. Je m'attendrais à ce qu'un arbre de régression soit plus sensible au caractère aléatoire des échantillons de bootstrap, car chaque feuille ne contient généralement qu'une poignée de points de données. De plus, les arbres de régression peuvent être développés de manière stochastique en divisant l'arbre sur un sous-ensemble aléatoire de variables à chaque nœud. Voir cette question précédente pour savoir pourquoi cela est important: pourquoi les forêts aléatoires sont-elles divisées en fonction de m caractéristiques aléatoires?
Cela étant dit, vous pouvez certainement utiliser le bootstrap sur des modèles linéaires [LINK] , et cela peut être très utile dans certains contextes. Cependant, la motivation est très différente des techniques d'agrégation bootstrap.
la source
Et voici pourquoi il n'est pas aussi attrayant de faire du "aléatoire" avec des modèles linéaires qu'avec des arbres de décision:
Un grand arbre de décision créé à partir d'un grand échantillon est très susceptible de surcharger les données, et la méthode de la forêt aléatoire combat cet effet en s'appuyant sur un vote de nombreux petits arbres.
La régression linéaire, d'autre part, est un modèle qui n'est pas très enclin au sur-ajustement et n'est donc pas blessé en l'entraînant sur l'échantillon complet au début. Et même si vous avez de nombreuses variables de régresseur, vous pouvez appliquer d'autres techniques, telles que la régularisation, pour lutter contre le sur-ajustement.
la source
la source