Sur-ajustement et sous-ajustement

20

J'ai fait des recherches sur le sur-ajustement et le sous-ajustement, et j'ai compris ce qu'ils sont exactement, mais je ne trouve pas les raisons.

Quelles sont les principales raisons du sur-ajustement et du sous-ajustement?

Pourquoi sommes-nous confrontés à ces deux problèmes dans la formation d'un modèle?

Goktug
la source
1
Vous pourriez trouver Qu'est-ce qu'un exemple réel de «sur-ajustement»? utile
Silverfish

Réponses:

30

Je vais essayer de répondre de la manière la plus simple. Chacun de ces problèmes a sa propre origine principale:

Sur-ajustement: les données sont bruyantes, ce qui signifie qu'il y a des écarts par rapport à la réalité (en raison d'erreurs de mesure, de facteurs influents aléatoires, de variables non observées et de corrélations de déchets) qui nous rendent plus difficile de voir leur véritable relation avec nos facteurs explicatifs. De plus, il n'est généralement pas complet (nous n'avons pas d'exemples de tout).

À titre d'exemple, disons que j'essaie de classer les garçons et les filles en fonction de leur taille, simplement parce que c'est la seule information que j'ai sur eux. Nous savons tous que, même si les garçons sont en moyenne plus grands que les filles, il y a une énorme zone de chevauchement, ce qui rend impossible de les séparer parfaitement uniquement avec cette information. Selon la densité des données, un modèle suffisamment complexe pourrait être en mesure d'atteindre un meilleur taux de réussite sur cette tâche que ce qui est théoriquement possible sur la formationensemble de données, car il pourrait dessiner des limites qui permettent à certains points de se suffire à eux-mêmes. Donc, si nous n'avons qu'une personne mesurant 2,04 mètres et qu'elle est une femme, le modèle pourrait dessiner un petit cercle autour de cette zone, ce qui signifie qu'une personne aléatoire qui mesure 2,04 mètres est probablement une femme.

La raison sous-jacente à tout cela est de trop faire confiance aux données de formation (et dans l'exemple, le modèle dit que comme il n'y a pas d'homme avec une taille de 2,04, cela n'est possible que pour les femmes).

Le sous-ajustement est le problème opposé, dans lequel le modèle ne reconnaît pas les complexités réelles de nos données (c'est-à-dire les changements non aléatoires dans nos données). Le modèle suppose que le bruit est supérieur à ce qu'il est réellement et utilise donc une forme trop simpliste. Donc, si l'ensemble de données a beaucoup plus de filles que de garçons pour une raison quelconque, le modèle pourrait simplement les classer comme des filles.

Dans ce cas, le modèle ne faisait pas suffisamment confiance aux données et il supposait simplement que les écarts sont tous du bruit (et dans l'exemple, le modèle suppose que les garçons n'existent tout simplement pas).

En bout de ligne, nous sommes confrontés à ces problèmes parce que:

  • Nous n'avons pas d'informations complètes.
  • Nous ne savons pas à quel point les données sont bruyantes (nous ne savons pas à quel point nous devons leur faire confiance).
  • Nous ne connaissons pas à l'avance la fonction sous-jacente qui a généré nos données, et donc la complexité optimale du modèle.
Luis Da Silva
la source
2
bienvenue sur CV. belle réponse, ce qui me donne envie de del ma réponse ...
Haitao Du
1
Je pense que la partie concernant les "limites de dessin" et les "cercles" est un peu déroutante ...
Easymode44
Je dirais seulement que l'exemple de prédiction de la taille entre les hommes et les femmes relève du sous-ajustement plutôt que du sur-ajustement.
Digio
6

Le sur-ajustement, c'est lorsqu'un modèle estime très bien la variable que vous modélisez sur les données d'origine, mais qu'il ne l'estime pas bien sur un nouvel ensemble de données (maintien, validation croisée, prévisions, etc.). Vous avez trop de variables ou d'estimateurs dans votre modèle (variables factices, etc.) et ceux-ci rendent votre modèle trop sensible au bruit dans vos données d'origine. En raison d'un surajustement du bruit dans vos données d'origine, le modèle prédit mal.

Le sous-ajustement se produit lorsqu'un modèle n'évalue pas bien la variable dans les données originales ou les nouvelles données. Il manque à votre modèle certaines variables nécessaires pour mieux estimer et prédire le comportement de votre variable dépendante.

L'équilibre entre le sur et le sous-ajustement est difficile et parfois sans ligne d'arrivée claire. Dans la modélisation des séries chronologiques d'économétrie, ce problème est assez bien résolu avec les modèles de régularisation (LASSO, Ridge Regression, Elastic-Net) qui visent spécifiquement à réduire le surapprentissage en réduisant respectivement le nombre de variables dans votre modèle, en réduisant la sensibilité des coefficients à vos données, ou une combinaison des deux.

Sympa
la source
5

Au cours de vos recherches, vous avez peut-être trouvé l'équation suivante:

Error = IrreducibleError + Bias² + Variance.

Pourquoi sommes-nous confrontés à ces deux problèmes dans la formation d'un modèle?

Le problème d'apprentissage lui-même est essentiellement un compromis entre le biais et la variance .

Quelles sont les principales raisons du sur-ajustement et du sous-ajustement?

Court: bruit.

Long: L' erreur irréductible : Erreurs / fluctuations de mesure dans les données ainsi que la partie de la fonction cible qui ne peut pas être représentée par le modèle. La nouvelle mesure de la variable cible ou la modification de l'espace d'hypothèse (c'est-à-dire la sélection d'un modèle différent) modifie cette composante.

Modifier (pour créer un lien vers les autres réponses): performances du modèle en fonction de la complexité:

.

errorD est l'erreur sur toute la distribution D (estimée en pratique avec les ensembles de tests).

Laksan Nathan
la source
3
Je pense que vous devez définir votre terminologie. OP n'utilise pas les termes "biais" ou "variance" dans la question, vous n'utilisez pas les termes "sur-ajustement" ou "sous-ajustement" dans votre réponse (sauf dans une citation de la question). Je pense que ce serait une réponse beaucoup plus claire si vous expliquez la relation entre ces termes.
Gregor --reinstate Monica--
4

Presque tous les problèmes statistiques peuvent être énoncés sous la forme suivante:

  1. (y,x)f^y^=f^(x)

  2. f^ff

y=f(x)+ε

f^y^yf^εff

Par contre quand on trouve f^f~f

Si vous regardez le problème statistique de cette façon, l'ajustement du modèle est toujours un équilibre entre le sous-ajustement et le sur-ajustement et toute solution est toujours un compromis. Nous sommes confrontés à ce problème car nos données sont aléatoires et bruyantes.

mpiktas
la source
2

Quelles sont les principales raisons du sur-ajustement et du sous-ajustement?

Pour le surajustement, le modèle est trop complexe pour bien s'adapter aux données d'entraînement. Pour le sous-ajustement, le modèle est trop simple.

Pourquoi sommes-nous confrontés à ces deux problèmes dans la formation d'un modèle?

Il est difficile de choisir le modèle et les paramètres «parfaits» pour les données.

Haitao Du
la source
0

Le surajustement et le sous-ajustement sont des explications fondamentalement inadéquates des données par un modèle hypothétique et peuvent être considérés comme le modèle surexpliquant ou sous-expliquant les données. Ceci est créé par la relation entre le modèle utilisé pour expliquer les données et le modèle générant les données. Dans notre tentative d'expliquer, nous ne pouvons pas accéder au modèle sous-jacent, notre jugement est donc guidé par un autre facteur: les incertitudes ou les barres d'erreur.

Lorsque, pour tenter d'ajuster toute la variance, nous utilisons un modèle trop complexe, nous sur-adaptons. Ceci est créé par le fait que nous ayons libre cours dans le choix du modèle et en accordant trop d'importance aux barres d'erreur (ou en essayant d'expliquer toute la variabilité, qui est la même). Lorsque nous nous limitons à un modèle trop simple pour décrire les données et n'attribuons pas suffisamment d'importance aux barres d'erreur (ou n'expliquons pas la variabilité), nous sommes insuffisants.

Comment éviter ces deux-là? Modèles reposant sur des informations (non dérivés des données mais de la connaissance préalable du problème) et d'incertitudes significatives.

pedrofigueira
la source
0

En un mot, le sur-ajustement apparaît comme une conséquence des modèles qui apparaissent dans votre jeu de données d'entraînement mais qui ne sont pas présents sur l'ensemble de la population (ils sont apparus par hasard) Si vous utilisez un modèle simple (pensez à la régression linéaire par exemple), risque de sur-ajustement est faible, car le nombre de motifs possibles qu'il peut détecter est faible et, par conséquent, les chances de l'un de ceux qui apparaissent de manière aléatoire dans l'échantillon ne sont pas très grandes non plus. Un exemple de cela peut se produire si vous essayez d'étudier les corrélations 1.000.000 de variables sur une population en prenant un échantillon de 100 individus. Certaines fonctionnalités peuvent présenter au hasard une énorme corrélation d'échantillon bien qu'elles soient complètement indépendantes les unes des autres

Un autre motif de sur-ajustement est l'échantillonnage biaisé (les "échantillons de faux schémas" sont là parce que l'échantillon n'est pas vraiment aléatoire) Par exemple, si vous voulez étudier la taille moyenne d'un certain type de champignon en allant là-bas et en les trouvant dans la nature , vous risquez de le surestimer (les plus gros champignons sont plus faciles à trouver)

Le sous-ajustement est, en revanche, un phénomène assez simple. Cela peut signifier deux choses très fondamentales: A) Nous n'avons pas suffisamment de données pour que le modèle apprenne le modèle de population ou B) Notre modèle n'est pas assez puissant pour le refléter.

y=ax+ϵϵ est une variable aléatoire avec la moyenne 0 et l'écart-type 1000, et la valeur réelle de a (le paramètre que vous voulez estimer) ia 1 Si vous ne prenez pas suffisamment de données, vous ne pourrez peut-être même pas distinguer a de 0, affirmant ainsi que y et x ne sont pas corrélés / indépendants l'un de l'autre.

y=X2+ϵ

David
la source
0

Réponse courte:

La raison principale du surajustement est d'utiliser un modèle complexe lorsque vous avez un petit ensemble d'entraînement.

La raison principale du sous- ajustement est l'utilisation d'un modèle qui est trop simple et ne peut pas bien fonctionner sur l'ensemble d'entraînement.


Raison principale du sur-ajustement?

  • Les modèles à haute capacité peuvent être surchargés en mémorisant les propriétés de l'ensemble d'apprentissage qui ne les servent pas bien sur l'ensemble de test.

-Deep Learning book, Goodfellow et al.

L'objectif de l'apprentissage automatique est de former un modèle sur l'ensemble de formation dans l'espoir qu'il fonctionnera aussi bien sur les données de test. Mais obtenir de bonnes performances sur l'ensemble d'entraînement se traduit-il toujours par de bonnes performances sur l'ensemble d'essai? Ce ne sera pas le cas, car vos données d'entraînement sont limitées . Si vous avez des données limitées, votre modèle peut trouver des modèles qui fonctionnent pour cet ensemble d'entraînement limité, mais ces modèles ne se généralisent pas à d'autres cas (c'est-à-dire l'ensemble de tests). Cela peut être résolu par:

A- Fournir un ensemble de formation plus large au modèle pour réduire le risque d'avoir des modèles arbitraires dans l'ensemble de formation.

B- Utiliser un modèle plus simple pour que le modèle ne puisse pas trouver ces modèles arbitraires dans l'ensemble d'apprentissage. Un modèle plus complexe pourra trouver des modèles plus complexes, vous avez donc besoin de plus de données pour vous assurer que votre ensemble d'entraînement est suffisamment grand pour ne pas contenir de modèles arbitraires.

(par exemple, imaginez que vous voulez apprendre à un modèle à détecter les navires des camions et que vous avez 10 images de chacun. Si la plupart des navires dans vos images sont dans l'eau, votre modèle peut apprendre à classer une image avec un fond bleu comme navire au lieu d'apprendre à quoi ressemble un navire. Maintenant, si vous aviez 10 000 images de navires et de camions, votre ensemble de formation est plus susceptible de contenir des navires et des camions dans une variété d'horizons et votre modèle ne peut plus se contenter du fond bleu.)

Raison principale du sous-équipement?

  • Le sous-ajustement se produit lorsque le modèle n'est pas en mesure d'obtenir une valeur d'erreur suffisamment faible sur l'ensemble d'apprentissage.

  • Les modèles à faible capacité peuvent avoir du mal à s'adapter à l'ensemble d'entraînement.

-Deep Learning book, Goodfellow et al.

Le sous-ajustement se produit lorsque votre modèle n'est tout simplement pas assez bon pour apprendre l'ensemble d'entraînement, ce qui signifie que votre modèle est trop simple. Chaque fois que nous commençons à résoudre un problème, nous voulons un modèle qui soit au moins capable d'obtenir de bonnes performances sur l'ensemble d'entraînement, puis nous commençons à penser à réduire le sur-ajustement. Généralement, la solution au sous-ajustement est assez simple: utilisez un modèle plus complexe.

Soroush
la source
0

Prenons un exemple où nous avons une équation hypothèse / modèle,

y=q*X+c,

où X = liste des fonctionnalités, y = étiquette et q et c sont les coefficients que nous devons former.

Si nous arrivons avec des valeurs de coefficients telles qu'elles sont suffisamment grandes et commençons à supprimer la valeur des caractéristiques (c'est-à-dire X) dans un tel cas, nous obtenons toujours la valeur constante de y, indépendamment de toute valeur X. C'est ce qu'on appelle un modèle très biaisé ou underfit.

Considérons un autre exemple d'hypothèse complexe,

y=q*X+r*sqr(X)+s*cube(X)+c, where q,r,s and c are the coefficients.

Après avoir identifié la meilleure valeur de coefficients, il est possible que pour les données d'entraînement, nous puissions obtenir la perte minimale. C'est uniquement parce que nous avons rendu notre modèle si complexe et étroitement couplé qu'il se comporte très bien avec les données d'entraînement. Alors qu'avec les données invisibles, nous pouvons obtenir des résultats assez opposés. C'est ce qu'on appelle un modèle très varié ou surajusté.

Le modèle biaisé a besoin de plus de complexité dans la sélection du modèle tandis que le modèle très varié doit diminuer la complexité dans la sélection du modèle. La technique de régularisation peut nous aider à identifier le niveau approprié de complexité du modèle et grâce à cette technique, nous pouvons surmonter les deux problèmes.

vipin bansal
la source
Vous pouvez utiliser la mise en forme mathématique dans votre réponse. Plus d'informations: math.meta.stackexchange.com/questions/5020/…
Sycorax dit de rétablir Monica