Qu'entend-on par la variance des * fonctions * dans * Introduction à l'apprentissage statistique *?

11

Sur la p. 34 de Introduction à l'apprentissage statistique :

Bien que la preuve mathématique dépasse le cadre de ce livre, il est possible de montrer que le test attendu MSE, pour une valeur donnée x0 , peut toujours être décomposé en la somme de trois quantités fondamentales: la variance de f^(x0) , le biais au carré de f^(x0) et la variance des termes d'erreur ε . C'est,

E(y0f^(x0))2=Var(f^(x0))+[Bias(f^(x0))]2+Var(ε)

[...] La variance fait référence à la variation de f^ si nous l'estimions à l'aide d'un ensemble de données d'entraînement différent.

Question: Étant donné que Var(f^(x0)) semble indiquer la variance des fonctions , qu'est-ce que cela signifie formellement?

Autrement dit, je connais le concept de la variance d'une variable aléatoire X , mais qu'en est-il de la variance d'un ensemble de fonctions? Peut-on considérer cela comme la simple variance d'une autre variable aléatoire dont les valeurs prennent la forme de fonctions?

George
la source
6
Étant donné que chaque fois que apparaît dans une formule, il a été appliqué à une "valeur donnée" , la variance s'applique au nombre , pas à lui-même. Étant donné que ce nombre a probablement été développé à partir de données modélisées avec des variables aléatoires, il s'agit également d'une variable aléatoire (à valeur réelle). Le concept habituel de variance s'applique. f^x0 f^(x0)f^
whuber
2
Je vois. Donc, est en train de changer (variant selon les différents ensembles de données d'apprentissage), mais nous examinons toujours la variance des eux-mêmes. f^f^(x0)
George
Qui est l'auteur de ce manuel? J'ai voulu apprendre le sujet moi-même et j'apprécierais grandement votre recommandation de référence.
Chill2Macht
3
@WilliamKrinsman Voici le livre: www-bcf.usc.edu/~gareth/ISL
Matthew Drury

Réponses:

13

Votre correspondance avec @whuber est correcte.

Un algorithme d'apprentissage peut être considéré comme une fonction de niveau supérieur, mappant les ensembles de formation aux fonctions.A

A:T{ff:XR}

où est l'espace des ensembles d'entraînement possibles. Cela peut être un peu velu conceptuellement, mais fondamentalement, chaque ensemble d'entraînement individuel donne, après avoir utilisé l'algorithme d'apprentissage du modèle, une fonction spécifique qui peut être utilisée pour faire des prédictions étant donné un point de données .Tfx

Si nous considérons l'espace des ensembles d'entraînement comme un espace de probabilité, de sorte qu'il existe une certaine distribution des ensembles de données d'entraînement possibles, alors l'algorithme d'apprentissage du modèle devient une variable aléatoire à valeur de fonction, et nous pouvons penser à des concepts statistiques. En particulier, si nous fixons un point de données spécifique , alors nous obtenons la variable aléatoire à valeur numériquex0

Ax0(T)=A(T)(x0)

Autrement dit, entraînez d'abord l'algorithme sur , puis évaluez le modèle résultant à . Il s'agit simplement d'une variable aléatoire assez ancienne, mais plutôt ingénieusement construite, sur un espace de probabilité, nous pouvons donc parler de sa variance. Il s'agit de la variation de votre formule par rapport à ISL.Tx0

Matthew Drury
la source
5

Une interprétation visuelle utilisant des kfolds répétés

Pour donner une interprétation visuelle / intuitive à la réponse de @Matthew Drury, considérons l'exemple de jouet suivant.

  • Les données sont générées à partir de la courbe sinusoïdale bruyante: "True noise"f(x) +
  • Les données sont réparties entre les échantillons d'apprentissage et de test (75% - 25%)
  • Un modèle linéaire (polynomial) est ajusté aux données d'apprentissage:f^(x)
  • Le processus est répété plusieurs fois en utilisant les mêmes données (c.-à-d. Fractionner la formation - tester au hasard en utilisant Sklearm kfold répété)
  • Cela génère de nombreux modèles différents, à partir desquels nous calculons la moyenne et la variance à chaque point ainsi que sur tous les points.x=xi

Voir ci-dessous les graphiques résultants pour un modèle polynomial de degré 2 et degré 6. À première vue, il semble que le polynôme supérieur (en rouge) présente une plus grande variance.

entrez la description de l'image ici

Arguant que le graphique rouge a une plus grande variance - expérimentalement

Soit et correspondent respectivement aux graphiques vert et rouge et soit une instance des graphiques, en vert clair et en rouge clair. Soit le nombre de points le long de l' axe et le nombre de graphiques (c'est-à-dire le nombre de simulations). Ici, nous avons etf^gf^rf^(i)nxmn=400m=200

Je vois trois scénarios principaux

  1. La variance des valeurs prédites à un point spécifique est plus grande c'est-à-direx=x0Var [{f^r(1)(x0),...,f^r(m)(x0)}]>Var [{f^g(1)(x0),...,f^g(i)(x0)}]
  2. La variance dans est plus grande pour tous les points dans la plage (1) {x1,...,x400}(0,1)
  3. La variance est plus grande en moyenne (c'est-à-dire qu'elle peut être plus petite pour certains points)

Dans le cas de cet exemple de jouet, les trois scénarios se vérifient sur la plage ce qui justifie l'argument selon lequel l'ajustement polynomial d'ordre supérieur (en rouge) présente une variance plus élevée que le polynôme d'ordre inférieur (en vert).(0,1)

Une conclusion ouverte

Ce qui devrait être discuté lorsque les trois scénarios ci-dessus ne sont pas tous valables. Par exemple, que faire si la variance des prédictions rouges est plus élevée en moyenne, mais pas pour tous les points.

Détails des étiquettes

Considérons le pointx0=0.5

  • La barre d'erreur est la plage entre min et max def^(x0)
  • La variance est calculée àx0
  • Le vrai est la ligne bleue pointilléef(x)
Xavier Bourret Sicotte
la source
J'aime cette idée d'illustrer un concept à l'aide d'images. Je m'interroge cependant sur deux aspects de votre message et j'espère que vous pourrez les aborder. Premièrement, pourriez-vous expliquer plus explicitement comment ces graphiques montrent la «variance d'une fonction»? Deuxièmement, il n'est pas du tout clair que la parcelle rouge présente une "plus grande variance" ou même que les deux parcelles se prêtent à une comparaison aussi simpliste. Considérez la propagation verticale des valeurs rouges au-dessus de par exemple, et comparez-la à la propagation des valeurs vertes au même point: les rouges semblent un peu moins réparties que les vertes. x=0.95,
whuber
Mon point n'est pas de savoir s'il est possible de lire vos graphiques avec une grande précision: c'est que le sens de comparer deux de ces graphiques comme si l'un pouvait être considéré comme ayant une variance "supérieure" ou "inférieure" que l'autre est discutable, étant donné la possibilité que pour pour certaines gammes de les variances des prévisions seront plus élevées dans un graphique et pour d'autres gammes de les variances seront plus faibles. xx
whuber
Oui, je suis d'accord - j'ai édité le post pour refléter vos commentaires
Xavier Bourret Sicotte