Pourquoi un arbre de décision a-t-il un biais faible et une variance élevée?

15

Des questions

  1. Cela dépend-il si l'arbre est peu profond ou profond? Ou peut-on dire cela indépendamment de la profondeur / des niveaux de l'arbre?
  2. Pourquoi le biais est-il faible et la variance élevée? Veuillez expliquer intuitivement et mathématiquement
GeorgeOfTheRF
la source

Réponses:

4

Un peu tard pour la fête mais je pense que cette question pourrait servir de réponse avec des exemples concrets.

J'écrirai un résumé de cet excellent article: biais-variance-compromis , qui m'a aidé à comprendre le sujet.

L'erreur de prédiction pour tout algorithme d'apprentissage automatique peut être décomposée en trois parties:

  • Erreur de biais
  • Erreur d'écart
  • Erreur irréductible

Erreur irréductible

Comme son nom l'indique, est un composant d'erreur que nous ne pouvons pas corriger, quel que soit l'algorithme et sa sélection de paramètres. L'erreur irréductible est due à des complexités qui ne sont tout simplement pas capturées dans l'ensemble d'entraînement. Il peut s'agir d'attributs que nous n'avons pas dans un ensemble d'apprentissage, mais ils affectent le mappage vers le résultat indépendamment.

Erreur de biais

L'erreur de biais est due à nos hypothèses sur la fonction cible. Plus nous faisons d'hypothèses (restrictions) sur les fonctions cibles, plus nous introduisons de biais. Les modèles avec un biais élevé sont moins flexibles car nous avons imposé plus de règles aux fonctions cibles.

Erreur de variance

L'erreur de variance est la variabilité de la forme d'une fonction cible par rapport à différents ensembles d'apprentissage. Les modèles avec une petite erreur de variance ne changeront pas beaucoup si vous remplacez quelques échantillons dans l'ensemble d'apprentissage. Les modèles avec une variance élevée peuvent être affectés même avec de petits changements dans l'ensemble de formation.

Envisagez une régression linéaire simple:

Y=b0+b1x

Évidemment, il s'agit d'une définition assez restrictive d'une fonction cible et donc ce modèle a un biais élevé.

D'un autre côté, en raison de la faible variance si vous modifiez quelques échantillons de données, il est peu probable que cela entraîne des changements majeurs dans le mappage global effectué par la fonction cible. D'un autre côté, des algorithmes tels que k-voisins les plus proches ont une variance élevée et un biais faible. Il est facile d'imaginer comment différents échantillons peuvent affecter la surface de décision KNN.

Généralement, les algorithmes paramétriques ont un biais élevé et une faible variance, et vice versa.

L'un des défis de l'apprentissage automatique est de trouver le bon équilibre entre l'erreur de biais et l'erreur de variance.

Arbre de décision

Maintenant que nous avons ces définitions en place, il est également simple de voir que les arbres de décision sont des exemples de modèle à faible biais et à forte variance. L'arbre ne fait presque aucune hypothèse sur la fonction cible mais il est très sensible à la variance des données.

Il existe des algorithmes d'ensemble, tels que l'agrégation d'amorçage et la forêt aléatoire, qui visent à réduire la variance au faible coût du biais dans l'arbre de décision.

John
la source
2

Si le nombre de niveaux est trop élevé, c'est-à-dire un arbre de décision compliqué, le modèle a tendance à s'adapter.

Intuitivement, cela peut être compris de cette façon. Lorsqu'il y a trop de nœuds de décision à traverser avant d'arriver au résultat, c'est-à-dire que le nombre de nœuds à traverser avant d'atteindre les nœuds feuilles est élevé, les conditions que vous contrôlez deviennent multiplicatives. C'est-à-dire que le calcul devient (condition 1) && (condition 2) && (condition 3) && (condition 4) && (condition5) .

Ce n'est que si toutes les conditions sont remplies qu'une décision est prise. Comme vous pouvez le voir, cela fonctionnera très bien pour l'ensemble d'entraînement, car vous réduisez continuellement les données. L'arbre devient hautement adapté aux données présentes dans l'ensemble d'apprentissage.

Mais lorsqu'un nouveau point de données est alimenté, même si l'un des paramètres s'écarte légèrement, la condition ne sera pas remplie et il prendra la mauvaise branche.

Sujay S Kumar
la source
1
  1. Un arbre de décision compliqué (par exemple profond) a un biais faible et une variance élevée. Le compromis biais-variance dépend de la profondeur de l'arbre.

  2. L'arbre de décision est sensible à l'endroit où il se divise et à la façon dont il se divise. Par conséquent, même de petits changements dans les valeurs des variables d'entrée peuvent entraîner une structure arborescente très différente.

Bonjour le monde
la source
4
Je ne me souviens pas d'un seul algorithme d'arbre ordinaire affecté par la mise à l'échelle, ils ne voient pas les valeurs des variables, seulement les rangs.
Firebug
0

Pourquoi un arbre de décision a-t-il un biais faible et une variance élevée? Cela dépend-il si l'arbre est peu profond ou profond? Ou peut-on dire cela indépendamment de la profondeur / des niveaux de l'arbre? Pourquoi le biais est-il faible et la variance élevée? Veuillez expliquer intuitivement et mathématiquement.

Biais vs variance

Plus de biais = erreur du modèle étant plus simple (ne correspond pas très bien aux données)

Plus de variance = erreur du modèle étant plus complexe (s'adapte trop bien aux données et apprend le bruit en plus des motifs inhérents aux données)

Tout est relatif

Je veux commencer par dire que tout est relatif. L'arbre de décision en général a un biais faible et une variance élevée, disons des forêts aléatoires. De même, un arbre moins profond aurait un biais plus élevé et une variance plus faible que le même arbre avec une profondeur plus élevée.

Comparaison de la variance des arbres de décision et des forêts aléatoires

Maintenant que cela a été réglé, réfléchissons à la raison pour laquelle la variance des arbres de décision serait pire (variance plus élevée et biais plus faible) que, disons, les forêts aléatoires. La façon dont un algorithme d'arbre de décision fonctionne est que les données sont divisées encore et encore au fur et à mesure que nous descendons dans l'arbre, de sorte que les prédictions réelles seraient faites par de moins en moins de points de données. Par rapport à cela, les forêts aléatoires regroupent les décisions de plusieurs arbres, et cela aussi, les arbres moins corrélés par randomisation, donc le modèle se généralise mieux (=> fonctionne de manière plus fiable dans différents ensembles de données = variance plus faible). De même, nous faisons des hypothèses plus simplificatrices sur les forêts aléatoires pour ne consulter qu'un sous-ensemble de données et d'entités pour s'adapter à un seul arbre, d'où un biais plus élevé. BTW, similaire,

Vaibhav
la source