La similitude est plus que superficielle.
Le "compromis biais-variance" peut être interprété comme le théorème de Pythagore appliqué à deux vecteurs euclidiens perpendiculaires: la longueur de l'un est l'écart-type et la longueur de l'autre est le biais. La longueur de l'hypoténuse est l'erreur quadratique moyenne racine.
Une relation fondamentale
Comme point de départ, considérons ce calcul révélateur, valable pour toute variable aléatoire avec un second moment fini et tout nombre réel a . Le second moment étant fini, X a une moyenne finie μ = E ( X ) pour laquelle E ( X - μ ) = 0 , d'oùXaXμ=E(X)E(X−μ)=0
E((X−a)2)=E((X−μ+μ−a)2)=E((X−μ)2)+2E(X−μ)(μ−a)+(μ−a)2=Var(X)+(μ−a)2.(1)
Cela montre comment l'écart quadratique moyenne entre et une valeur « de référence » a varie avec un : il est une fonction quadratique d' un avec un minimum à μ , où l'écart quadratique moyenne est la variance de X .XaaaμX
Le lien avec les estimateurs et le biais
Tout estimateur θ est une variable aléatoire parce que (par définition) est une fonction (mesurable) de variables aléatoires. Le laisser jouer le rôle de X dans le précédent, et de laisser la grandeur estimée (la chose θ est censé estimation) soit θ , nous avonsθ^Xθ^θ
MSE(θ^)=E((θ^−θ)2)=Var(θ^)+(E(θ^)−θ)2.
Revenons à maintenant que nous avons vu comment l'énoncé sur le biais + la variance pour un estimateur est littéralement un cas de ( 1 ) . La question cherche «des analogies mathématiques avec des objets mathématiques». Nous pouvons faire plus que cela en montrant que des variables aléatoires intégrables au carré peuvent naturellement être transformées en un espace euclidien.(1)(1)
Contexte mathématique
De façon très générale, une variable aléatoire est une fonction à valeur réelle (mesurable) sur un espace de probabilité . L'ensemble de ces fonctions qui sont carré intégrable, qui est souvent écrit L 2 ( Ω ) (avec la structure de probabilité donnée comprise), est presque un espace de Hilbert. Pour en faire un, nous devons confondre deux variables aléatoires X et Y qui ne diffèrent pas vraiment en termes d'intégration: c'est-à-dire que X et Y sont équivalents chaque fois(Ω,S,P)L2(Ω)XYXY
E(|X−Y|2)=∫Ω|X(ω)−Y(ω)|2dP(ω)=0.
Il est facile de vérifier que cela est une véritable relation d'équivalence: le plus important, quand est équivalent à Y et Y est équivalent à Z , alors nécessairement X sera équivalent à Z . Nous pouvons donc partitionner toutes les variables aléatoires intégrables au carré en classes d'équivalence. Ces classes forment l'ensemble L 2 ( Ω ) . De plus, L 2 hérite de la structure d' espace vectoriel de L 2 définie par l'addition point par point de valeurs et la multiplication scalaire point par point. Sur cet espace vectoriel, la fonctionXYYZXZL2(Ω)L2L2
X→(∫Ω|X(ω)|2dP(ω))1/2=E(|X|2)−−−−−−√
est une norme , souvent écrite . Cette norme fait de L 2 ( Ω ) un espace de Hilbert. Considérez un espace de Hilbert H comme un «espace euclidien de dimension infinie». Tout sous-espace de dimension finie V ⊂ H hérite de la norme de H et V , avec cette norme, est un espace euclidien: on peut y faire de la géométrie euclidienne.||X||2L2(Ω)HV⊂HHV
Enfin, nous avons besoin d'un fait particulier aux espaces de probabilité (plutôt qu'aux espaces de mesure généraux): parce que est une probabilité, elle est bornée (par 1 ), d'où les fonctions constantes ω → a (pour tout nombre réel fixe a ) sont variables aléatoires carrées intégrables avec des normes finies.P1ω→aa
Une interprétation géométrique
Considérons toute variable aléatoire intégrable au carré , considérée comme représentative de sa classe d'équivalence dans L 2 ( Ω ) . Il a une moyenne μ = E ( X ) , qui (comme on peut le vérifier) ne dépend que de la classe d'équivalence de X . Soit 1 : ω → 1 la classe de la variable aléatoire constante.XL2(Ω)μ=E(X)X1:ω→1
et 1 génèrent un sous-espace euclidien V ⊂ L 2 ( Ω ) dont la dimension est au plus 2 . Dans ce sous-espace, | | X | | 2 2 = E ( X 2 ) est la longueur au carré de X et | | uneX1V⊂L2(Ω)2||X||22=E(X2)X est la longueur au carré de la variable aléatoire constante ω → a . Il est fondamental que X - μ 1 soit perpendiculaire à 1 . (Une définition de μ est que c'est le nombre unique pour lequel c'est le cas.) La relation ( 1 ) peut être écrite||a1||22=a2ω→aX−μ11μ(1)
||X−a1||22=||X−μ1||22+||(a−μ)1||22.
Il s'agit en effet précisément du théorème de Pythagore, essentiellement sous la même forme connue il y a 2500 ans. L'objet est l'hypoténuse d'un triangle rectangle avec les jambes X - μ 1 et ( a - μ ) 1 .
X−a1=(X−μ1)−(a−μ)1
X−μ1(a−μ)1
Si vous souhaitez des analogies mathématiques, vous pouvez utiliser tout ce qui peut être exprimé en termes d'hypoténuse d'un triangle rectangle dans un espace euclidien. L'hypoténuse représentera «l'erreur» et les jambes représenteront le biais et les écarts par rapport à la moyenne.
C'est une façon de penser visuellement la précision et le compromis du biais de variance. Supposons que vous regardez une cible et que vous effectuez de nombreux tirs qui sont tous dispersés près du centre de la cible de manière à ce qu'il n'y ait pas de biais. La précision est alors uniquement déterminée par la variance et lorsque la variance est faible, le tireur est précis.
Considérons maintenant un cas où il y a une grande précision mais un biais important. Dans ce cas, les tirs sont dispersés autour d'un point éloigné du centre. Quelque chose gâche le point de visée, mais autour de ce point de visée, chaque tir est proche de ce nouveau point de visée. Le tireur est précis mais très imprécis à cause du biais.
Il existe d'autres situations où les prises de vue sont précises en raison d'un faible biais et d'une grande précision. Ce que nous voulons, c'est pas de biais et une petite variance ou une petite variance avec un petit biais. Dans certains problèmes statistiques, vous ne pouvez pas avoir les deux. Ainsi, MSE devient la mesure de précision que vous souhaitez utiliser qui joue sur le compromis de variance et minimiser MSE devrait être l'objectif.
la source