Sur la p. 34 de Introduction à l'apprentissage statistique :
Bien que la preuve mathématique dépasse le cadre de ce livre, il est possible de montrer que le test attendu MSE, pour une valeur donnée , peut toujours être décomposé en la somme de trois quantités fondamentales: la variance de , le biais au carré de et la variance des termes d'erreur . C'est,
[...] La variance fait référence à la variation de si nous l'estimions à l'aide d'un ensemble de données d'entraînement différent.
Question: Étant donné que semble indiquer la variance des fonctions , qu'est-ce que cela signifie formellement?
Autrement dit, je connais le concept de la variance d'une variable aléatoire , mais qu'en est-il de la variance d'un ensemble de fonctions? Peut-on considérer cela comme la simple variance d'une autre variable aléatoire dont les valeurs prennent la forme de fonctions?
la source
Réponses:
Votre correspondance avec @whuber est correcte.
Un algorithme d'apprentissage peut être considéré comme une fonction de niveau supérieur, mappant les ensembles de formation aux fonctions.A
où est l'espace des ensembles d'entraînement possibles. Cela peut être un peu velu conceptuellement, mais fondamentalement, chaque ensemble d'entraînement individuel donne, après avoir utilisé l'algorithme d'apprentissage du modèle, une fonction spécifique qui peut être utilisée pour faire des prédictions étant donné un point de données .T f x
Si nous considérons l'espace des ensembles d'entraînement comme un espace de probabilité, de sorte qu'il existe une certaine distribution des ensembles de données d'entraînement possibles, alors l'algorithme d'apprentissage du modèle devient une variable aléatoire à valeur de fonction, et nous pouvons penser à des concepts statistiques. En particulier, si nous fixons un point de données spécifique , alors nous obtenons la variable aléatoire à valeur numériquex0
Autrement dit, entraînez d'abord l'algorithme sur , puis évaluez le modèle résultant à . Il s'agit simplement d'une variable aléatoire assez ancienne, mais plutôt ingénieusement construite, sur un espace de probabilité, nous pouvons donc parler de sa variance. Il s'agit de la variation de votre formule par rapport à ISL.T x0
la source
Une interprétation visuelle utilisant des kfolds répétés
Pour donner une interprétation visuelle / intuitive à la réponse de @Matthew Drury, considérons l'exemple de jouet suivant.
Voir ci-dessous les graphiques résultants pour un modèle polynomial de degré 2 et degré 6. À première vue, il semble que le polynôme supérieur (en rouge) présente une plus grande variance.
Arguant que le graphique rouge a une plus grande variance - expérimentalement
Soit et correspondent respectivement aux graphiques vert et rouge et soit une instance des graphiques, en vert clair et en rouge clair. Soit le nombre de points le long de l' axe et le nombre de graphiques (c'est-à-dire le nombre de simulations). Ici, nous avons etf^g f^r f^(i) n x m n=400 m=200
Je vois trois scénarios principaux
Dans le cas de cet exemple de jouet, les trois scénarios se vérifient sur la plage ce qui justifie l'argument selon lequel l'ajustement polynomial d'ordre supérieur (en rouge) présente une variance plus élevée que le polynôme d'ordre inférieur (en vert).(0,1)
Une conclusion ouverte
Ce qui devrait être discuté lorsque les trois scénarios ci-dessus ne sont pas tous valables. Par exemple, que faire si la variance des prédictions rouges est plus élevée en moyenne, mais pas pour tous les points.
Détails des étiquettes
Considérons le pointx0=0.5
la source