Décomposition de la variance biaisée: terme pour l'erreur de prévision quadratique attendue moins l'erreur irréductible

Hastie et al. "Les éléments de l'apprentissage statistique" (2009) considèrent un processus de génération de données avec et .

Y = f (X) + ε

$Y = f(X) + \varepsilon$

E (ε) = 0

$\mathbb{E}(\varepsilon)=0$

Var (ε) = σ_{ε}^{2}

$\text{Var}(\varepsilon)=\sigma^2_{\varepsilon}$

Ils présentent la décomposition biais-variance suivante de l'erreur de prévision quadratique attendue au point (p. 223, formule 7.9): $x_0$ Dans mon travailje ne précise pasmais prendre une prévision arbitraire lieu (si cela est pertinent). Question:Je recherche un terme pour ou, plus précisément,

\begin{aligned} Err (x_{0}) & = E ([y - \hat{f} (x_{0})]^{2} | X = x_{0}) \\ = \dots \\ = σ_{ε}^{2} + {Bias}^{2} (\hat{f} (x_{0})) + Var (\hat{f} (x_{0})) \\ = Irreducible error + {Bias}^{2} + Variance . \end{aligned}

$\begin{aligned} \text{Err}(x_0) &= \mathbb{E}\left( [ y - \hat f(x_0) ]^2 | X = x_0 \right) \\ &= \dots \\ &= \sigma^2_{\varepsilon} + \text{Bias}^2(\hat f(x_0)) + \text{Var}(\hat f(x_0)) \\ &= \text{Irreducible error} + \text{Bias}^2 + \text{Variance} .\\ \end{aligned}$

\hat{f} (\cdot)

$\hat f(\cdot)$

\hat{y}

$\hat y$

{Bias}^{2} + Variance

$\text{Bias}^2 + \text{Variance}$

Err (x_{0}) - Irreducible error .

$\text{Err}(x_0) - \text{Irreducible error}.$

variance forecasting prediction terminology bias Richard Hardy
la source

Quelle est la question ici?

Michael R. Chernick

@sntx, merci pour l'idée. Mais cela ne sonne pas bien. Peut-être une erreur de modélisation (c'est-à-dire une erreur due à une erreur de spécification du modèle et une estimation imprécise du modèle), mais cela n'a pas de sens s'il n'y a pas de modèle générateur de prévisions (par exemple, des prévisions d'experts).

Richard Hardy

@DeltaIV, c'est plutôt bien. Cependant, je pense que le terme est chargé; il semble que les prévisions soient mauvaises et que nous pourrions faire mieux. Mais supposons que nous ayons fait de notre mieux pour les données données. Il se trouve donc que nous avons choisi le bon modèle (pas de "biais de modèle") mais l'échantillon est tout simplement trop petit pour estimer parfaitement les coefficients. La variance d'estimation («variance du modèle») est donc vraiment irréductible pour la taille d'échantillon donnée - alors que le terme «erreur réductible» suggère que ce n'est pas le cas. Je ne suis pas sûr que nous puissions trouver un meilleur terme, mais j'aimerais quand même m'efforcer de le faire.

Richard Hardy

@DeltaIV, OK, j'ai maintenant l'intuition dans quel sens elle est réductible. Pourtant, le terme peut être trompeur s'il est utilisé sans autre explication (tout comme vous deviez m'expliquer). Votre dernière suggestion est précise, ce qui est vraiment sympa, mais comme vous l'avez dit, elle est assez compliquée.

Richard Hardy

@DeltaIV, je n'avais pas l'intention de sonner comme ça. Ce n'est rien de personnel; mes arguments (si tout va bien convaincants) sont au-dessus dans les commentaires. Mais merci d'avoir la discussion avec moi, ça aide.

Richard Hardy

Réponses:

Je propose une erreur réductible . C'est également la terminologie adoptée au paragraphe 2.1.1 de Gareth, Witten, Hastie & Tibshirani, An Introduction to Statistical Learning , un livre qui est fondamentalement une simplification d'ESL + quelques laboratoires de code R très cool (sauf pour le fait qu'ils utilisent attach, mais bon, personne n'est parfait). Je vais énumérer ci-dessous les raisons du pour et du contre de cette terminologie.

Tout d'abord, nous devons rappeler que non seulement nous supposons que a une moyenne de 0, mais qu'il est également indépendant de (voir paragraphe 2.6.1, formule 2.29 de l'ESL, 2 ^e édition, 12 ^e impression). Bien sûr, ne peut pas être estimé à partir de , quelle que soit la classe d'hypothèse (famille de modèles) que nous choisissons, et la taille d'un échantillon que nous utilisons pour apprendre notre hypothèse (estimer notre modèle). Cela explique pourquoi est appelé erreur irréductible . $\epsilon$ $X$ $\epsilon$ $X$ $\mathcal{H}$ $\sigma^2_{\epsilon}$

$\text{Err}(x_0)-\sigma^2_{\epsilon}$

f (x) = E [Y | X = x]

$f(x)=\mathbb{E}[Y\vert X=x]$

$\mathbb{E}[Y\vert X=x]\in \mathcal{H}$ $\mathbb{E}[Y\vert X=x]\notin \mathcal{H}$ $\hat{f}(x)$ dans notre famille de modèles.

$\mathcal{H}$ $\mathbb{E}[Y\vert X=x]$ $\sigma^2_{\epsilon}$ $\mathcal{H}$ $\epsilon\perp X$

DeltaIV
la source

Si le bruit est l'erreur irréductible, il n'est pas irréductible. Vous devez motiver cela d'une manière ou d'une autre, je ne peux pas le faire moi-même.

Carl

En 2.1.1, l'exemple est "dosage d'un médicament dans le sang". Le premier exemple que je donne ci-dessous est exactement cela. Dans ce test, l'erreur de mesure dite irréductible n'est rien de la sorte. Il est composé du bruit de comptage, qui est généralement réduit par le comptage de 10000 événements ou plus, d'une erreur de pipetage, qui est distribuée presque exponentiellement, et d'autres erreurs techniques. Pour réduire davantage ces erreurs "irréductibles", je recommande d'utiliser la médiane de trois tubes de comptage pour chaque échantillon de temps. Le terme irréductible est un mauvais jargon, essayez à nouveau.

Carl

@Delta, merci pour la réponse. Une "erreur réductible" à une ligne n'a peut-être pas été très convaincante, mais compte tenu du contexte et de la discussion, elle semble plutôt bonne!

Richard Hardy

n

$n$

n

$n$

@DeltaV Je pense que la réductibilité est une hypothèse douteuse, voir ci-dessous.

Carl

$1-R^2$ $y$ $n$ $n$

Pourquoi je n'aime pas le terme "réductibilité"? Cela sent la tautologie autoréférentielle comme dans l' Axiome de réductibilité . Je suis d'accord avec Russell 1919 que "je ne vois aucune raison de croire que l'axiome de réductibilité est logiquement nécessaire, ce qui signifierait qu'il est vrai dans tous les mondes possibles. L'admission de cet axiome dans un système de la logique est donc un défaut ... une hypothèse douteuse. "

$n=36$

Il est à noter que lorsque l'on laisse tomber le premier échantillon au bout de cinq minutes, la physique s'améliore comme elle le fait séquentiellement tandis que l'on continue à retirer les premiers échantillons à 60 min. Cela montre que bien que le GV forme finalement un bon modèle pour la concentration plasmatique du médicament, quelque chose d'autre se passe pendant les premiers temps.

$1\%$

$y$

Carl
la source

En effet, c'est à cela que sert la décomposition ci-dessus. Mais votre réponse ferait mieux de servir de commentaire car elle ne répond pas à la question réelle. Ou alors?

Richard Hardy

{Bias}^{2} + Variance

$\text{Bias}^2+\text{Variance}$

Encore une fois, vous répondez à une autre question. Une bonne réponse à une mauvaise question est malheureusement une mauvaise réponse (une note à moi-même: par coïncidence, je l'expliquais à mes étudiants de premier cycle hier). Je ne demande pas la signification de l'expression (elle est significative pour quelqu'un qui a lu le manuel d'anglais langue seconde et / ou qui a travaillé dans le domaine de l'apprentissage automatique appliqué), je demande un terme approprié pour cela. La question est positive et non normative. Et c'est assez simple et très concret.

Richard Hardy

@RichardHardy Sans la physique, la question était difficile à comprendre pour moi. Modification de ma réponse, voir mauvais enregistrement ci-dessus.

Carl

Vous pouvez le faire pour estimer le processus, oui, et c'est la partie de l'erreur réductible. Mais lorsque vous prévoyez un événement concret qui inclut le retournement de pièces, il n'y a aucun moyen de réduire l'erreur associée à une mauvaise prévision du résultat du retournement de pièces. C'est à cela que sert l'erreur irréductible. Intéressant: dans un monde purement déterministe, il n'y aurait pas d'erreurs irréductibles par définition, donc si votre vision du monde est complètement déterministe, alors je pourrais comprendre ce que vous voulez dire. Cependant, le monde est stochastique dans "Les éléments de l'apprentissage statistique" et dans les statistiques en général.

Richard Hardy