Hypothèses de forêt aléatoires

43

Comme je suis un peu nouveau dans la forêt aléatoire, je suis toujours aux prises avec certains concepts de base.
En régression linéaire, on suppose des observations indépendantes, une variance constante…

  • Quelles sont les hypothèses de base que nous faisons lorsque nous utilisons une forêt aléatoire?
  • Quelles sont les principales différences entre les forêts aléatoires et les baies naïves en termes d’hypothèses de modèle?
utilisateur1848018
la source

Réponses:

33

Merci pour une très bonne question! Je vais essayer de donner mon intuition derrière cela.

Pour comprendre cela, rappelez-vous les "ingrédients" du classifieur de forêt aléatoire (il y a quelques modifications, mais c'est le pipeline général):

  1. À chaque étape de la construction de chaque arbre, nous trouvons la meilleure répartition des données.
  2. Lors de la construction d’un arbre, nous n’utilisons pas l’ensemble du jeu de données, mais un échantillon bootstrap
  3. Nous agrégons les résultats individuels des arbres en faisant la moyenne (2 et 3 signifient en réalité une procédure d'ensachage plus générale ).

Supposons le premier point. Il n'est pas toujours possible de trouver le meilleur partage. Par exemple, dans le jeu de données suivant, chaque scission donnera exactement un objet mal classé. Exemple de jeu de données sans meilleure répartition

Et je pense que ce point peut être source de confusion: en effet, le comportement de la division individuelle est similaire au comportement du classificateur Naive Bayes: si les variables sont dépendantes - il n'y a pas de meilleure séparation pour les arbres de décision et le classificateur Naive Bayes échoue également (rappelons simplement que les variables indépendantes sont la principale hypothèse que nous formulons dans le classificateur Naive Bayes; toutes les autres hypothèses proviennent du modèle probabiliste que nous avons choisi).

Mais voici le grand avantage des arbres de décision: nous prenons toute scission et continuons encore. Et pour les divisions suivantes, nous trouverons une séparation parfaite (en rouge). Exemple de limite de décision

Et comme nous n’avons aucun modèle probabiliste, mais juste une division binaire, nous n’avons pas besoin de faire d’hypothèse du tout.

C'était à propos de l'arbre de décision, mais cela s'applique également à Random Forest. La différence est que pour Random Forest, nous utilisons Bootstrap Aggregation. Il n'y a pas de modèle en dessous, et la seule hypothèse sur laquelle il s'appuie est que l' échantillonnage est représentatif . Mais ceci est généralement une hypothèse commune. Par exemple, si une classe est composée de deux composants et dans notre jeu de données, un composant est représenté par 100 échantillons et un autre composant par un échantillon - la plupart des arbres de décision individuels ne verront que le premier composant et Random Forest classera le second de manière erronée. . Exemple de deuxième composant faiblement représenté

J'espère que cela vous aidera à mieux comprendre.

Dmitry Laptev
la source
10

Dans un article de 2010, les auteurs ont montré que les modèles de forêt aléatoire estimaient de manière non fiable l’importance des variables lorsque les variables étaient multicolinéaires dans un espace statistique multidimensionnel. Je vérifie généralement cela avant d'exécuter des modèles de forêt aléatoires.

http://www.esajournals.org/doi/abs/10.1890/08-0879.1

Mina
la source
3
Vous croyez les conclusions de "Quantifier la connectivité de Bufo boreas dans le parc national de Yellowstone avec la génétique du paysage" dans Ecology rédigée par des auteurs du Colorado State par rapport aux auteurs de Berkeley dans Machine Learning sur le thème des algorithmes d'apprentissage automatique?
Hack-R
8
Je ne pense pas qu'ils sont en désaccord les uns avec les autres. Breiman n'a pas enquêté sur ce «cas spécial» de multicolinéarité dans un espace multidimensionnel. En outre, les gens à Colorado State peuvent être intelligents aussi, et ces types le sont.
Mina