Pourquoi la différence au carré est-elle si couramment utilisée?

Une approche décisionnelle de la statistique fournit une explication approfondie. Il indique que la mise au carré des différences est un indicateur indirect d'un large éventail de fonctions de perte qui (chaque fois qu'elles pourraient être justifiées) conduisent à une simplification considérable des procédures statistiques possibles que l'on doit considérer.

Malheureusement, expliquer ce que cela signifie et indiquer pourquoi c'est vrai demande beaucoup de configuration. La notation peut rapidement devenir incompréhensible. Ce que je vise à faire ici, alors, c'est juste d'esquisser les idées principales, avec peu d'élaboration. Pour des comptes plus complets, voir les références.

Un modèle riche et standard de données postule qu'elles sont une réalisation d'une variable aléatoire (réelle, à valeurs vectorielles) dont la distribution n'est connue que pour être un élément d'un ensemble de distributions, les états de la nature . Une procédure statistique est une fonction de prenant des valeurs dans un ensemble de décisions , l' espace de décision. $\mathbf x$ $\mathbf X$ $F$ $\Omega$ $t$ $\mathbf x$ $D$

Par exemple, dans un problème de prédiction ou de classification, consisterait en une union d'un "ensemble d'apprentissage" et d'un "ensemble de données de test" et mappera en un ensemble de valeurs prédites pour l'ensemble de tests. L'ensemble de toutes les valeurs possibles prévues serait . $\mathbf x$ $t$ $\mathbf x$ $D$

Une discussion théorique complète des procédures doit tenir compte des procédures randomisées . Une procédure randomisée choisit parmi deux ou plusieurs décisions possibles selon une distribution de probabilité (qui dépend des données ). Il généralise l'idée intuitive que lorsque les données ne semblent pas faire la distinction entre deux alternatives, vous "lancez une pièce" par la suite pour décider d'une alternative définitive. Beaucoup de gens n'aiment pas les procédures aléatoires, s'opposant à la prise de décisions d'une manière aussi imprévisible. $\mathbf x$

La caractéristique de la théorie de la décision de distinguer est l'utilisation d'une fonction de perte . $W$ Pour tout état de nature et décision , la perte $F \in \Omega$ $d \in D$

W (F, d)

$W(F,d)$

est une valeur numérique représentant à quel point il serait «mauvais» de prendre la décision lorsque le véritable état de la nature est : de petites pertes sont bonnes, de grandes pertes sont mauvaises. Dans une situation de test d'hypothèse, par exemple, a les deux éléments «accepter» et «rejeter» (l'hypothèse nulle). La fonction de perte met l'accent sur la prise de la bonne décision: elle est mise à zéro lorsque la décision est correcte et sinon, elle est constante . (C'est ce qu'on appelle une " fonction de perte :" toutes les mauvaises décisions sont également mauvaises et toutes les bonnes décisions sont également bonnes.) Plus précisément, lorsque est dans l'hypothèse nulle et $d$ $F$ $D$ $w$ $0-1$ $W(F,\text{ accept})=0$ $F$ $W(F,\text{ reject})=0$ $F$ est dans l'hypothèse alternative.

Lors de l'utilisation de la procédure , la perte des données lorsque l'état réel de la nature est peut être écrite . Cela rend la perte une variable aléatoire dont la distribution est déterminée par (l'inconnu) . $t$ $x$ $F$ $W(F, t(x))$ $W(F, t(X))$ $F$

La perte attendue d'une procédure est appelée son risque , . L'attente utilise le véritable état de nature , qui apparaîtra donc explicitement comme un indice de l'opérateur d'attente. Nous allons voir le risque en fonction de et souligner qu'avec la notation: $t$ $r_t$ $F$ $F$

r_{t} (F) = E_{F} (W (F, t (X))) .

$r_t(F) = \mathbb{E}_F(W(F, t(X))).$

De meilleures procédures ont moins de risques. Ainsi, la comparaison des fonctions de risque est la base pour sélectionner de bonnes procédures statistiques. Étant donné que la mise à l'échelle de toutes les fonctions de risque par une constante commune (positive) ne changerait aucune comparaison, l'échelle de ne fait aucune différence: nous sommes libres de la multiplier par toute valeur positive que nous aimons. En particulier, en multipliant par nous pouvons toujours prendre pour une fonction de perte (justifiant son nom). $W$ $W$ $1/w$ $w=1$ $0-1$

Pour continuer l'exemple de test d'hypothèse, qui illustre une fonction de perte , ces définitions impliquent que le risque de tout dans l'hypothèse nulle est la chance que la décision soit «rejetée», tandis que le risque de tout dans l'alternative est le chance que la décision soit «accepter». La valeur maximale (sur tout dans l'hypothèse nulle) est la taille du test , tandis que la partie de la fonction de risque définie dans l'hypothèse alternative est le complément de la puissance du test ( ). En cela, nous voyons comment l'intégralité de la théorie classique (fréquentiste) des tests d'hypothèses équivaut à une manière particulière de comparer les fonctions de risque pour un type particulier de perte. $0-1$ $F$ $F$ $F$ $\text{power}_t(F) = 1 - r_t(F)$

Soit dit en passant, tout ce qui a été présenté jusqu'à présent est parfaitement compatible avec toutes les statistiques grand public, y compris le paradigme bayésien. De plus, l'analyse bayésienne introduit une distribution de probabilité "antérieure" sur et l'utilise pour simplifier la comparaison des fonctions de risque: la fonction potentiellement compliquée peut être remplacée par sa valeur attendue par rapport à la distribution précédente. Ainsi, toutes les procédures sont caractérisées par un seul nombre ; une procédure Bayes (qui est généralement unique) minimise . La fonction de perte joue toujours un rôle essentiel dans le calcul de . $\Omega$ $r_t$ $t$ $r_t$ $r_t$ $r_t$

Il existe une controverse (inévitable) concernant l'utilisation des fonctions de perte. Comment choisit-on ? Il est essentiellement unique pour les tests d'hypothèse, mais dans la plupart des autres paramètres statistiques, de nombreux choix sont possibles. Ils reflètent les valeurs du décideur. Par exemple, si les données sont des mesures physiologiques d'un patient médical et que les décisions sont «traiter» ou «ne pas traiter», le médecin doit considérer - et peser dans la balance - les conséquences de l'une ou l'autre action. La façon dont les conséquences sont évaluées peut dépendre des souhaits du patient, de son âge, de sa qualité de vie et de bien d'autres choses. Le choix d'une fonction de perte peut être difficile et profondément personnel. Normalement, cela ne devrait pas être laissé au statisticien! $W$

Une chose que nous aimerions savoir, alors, est de savoir comment changer le choix de la meilleure procédure lorsque la perte est modifiée? Il s'avère que dans de nombreuses situations pratiques courantes, une certaine quantité de variation peut être tolérée sans changer la meilleure procédure. Ces situations se caractérisent par les conditions suivantes:

L'espace de décision est un ensemble convexe (souvent un intervalle de nombres). Cela signifie que toute valeur comprise entre deux décisions est également une décision valide.
La perte est nulle lorsque la meilleure décision possible est prise et augmente autrement (pour refléter les écarts entre la décision qui est prise et la meilleure qui pourrait être prise pour l'état de nature vrai - mais inconnu).
La perte est une fonction différenciable de la décision (au moins localement proche de la meilleure décision). Cela implique qu'elle est continue - elle ne saute pas comme le fait une perte - mais cela implique également qu'elle change relativement peu lorsque la décision est proche de la meilleure. $0-1$

Lorsque ces conditions se maintiennent, certaines complications liées à la comparaison des fonctions de risque disparaissent. La différentiabilité et la convexité de nous permettent d'appliquer l'inégalité de Jensen pour montrer que $W$

(1) Nous n'avons pas à considérer les procédures randomisées [Lehmann, corollaire 6.2].

(2) Si une procédure est considérée comme présentant le meilleur risque pour une telle , elle peut être améliorée en une procédure qui ne dépend que d'une statistique suffisante et a au moins une fonction de risque aussi bonne pour toutes ces [Kiefer, p. 151]. $t$ $W$ $t^{*}$ $W$

Par exemple, supposons que est l'ensemble des distributions normales avec la moyenne (et la variance unitaire). Ceci identifie avec l'ensemble de tous les nombres réels, donc (en abusant de la notation) j'utiliserai également " " pour identifier la distribution dans avec la moyenne . Soit un échantillon iid de taille de l'une de ces distributions. Supposons que l'objectif soit d'estimer . Ceci identifie l'espace de décision avec toutes les valeurs possibles de (tout nombre réel). Laissant désigner une décision arbitraire, la perte est une fonction $\Omega$ $\mu$ $\Omega$ $\mu$ $\Omega$ $\mu$ $X$ $n$ $\mu$ $D$ $\mu$ $\hat\mu$

W (μ, \hat{μ}) \geq 0

$W(\mu, \hat\mu) \ge 0$

avec si et seulement si . Les hypothèses précédentes impliquent (via le théorème de Taylor) que $W(\mu, \hat\mu)=0$ $\mu=\hat\mu$

W (μ, \hat{μ}) = w_{2} (\hat{μ} - μ)^{2} + o (\hat{μ} - μ)^{2}

$W(\mu, \hat\mu) = w_2 (\hat\mu - \mu)^2 + o(\hat\mu - \mu)^2$

pour un certain nombre positif constant . (La notation petit-o " " signifie toute fonction où la valeur limite de est comme ) Comme indiqué précédemment, nous sommes libres de redimensionner pour faire . Pour cette famille , la moyenne de , écrite , est une statistique suffisante. Le résultat précédent (cité par Kiefer) dit que tout estimateur de , qui pourrait être une fonction arbitraire des variables qui est bon pour un tel $w_2$ $o(y)^p$ $f$ $f(y) / y^p$ $0$ $y\to 0$ $W$ $w_2=1$ $\Omega$ $X$ $\bar X$ $\mu$ $n$ $(x_1, \ldots, x_n)$ $W$ , Peut être converti en un estimateur ne dépendant que qui est au moins aussi bon pour tous ces . $\bar x$ $W$

Ce qui a été accompli dans cet exemple est typique: l'ensemble extrêmement compliqué de procédures possibles, qui à l'origine consistait en fonctions éventuellement randomisées de variables, a été réduit à un ensemble beaucoup plus simple de procédures consistant en fonctions non randomisées d'une seule variable ( ou au moins moins de variables dans les cas où des statistiques suffisantes sont multivariées). Et cela peut se faire sans se soucier précisément de la fonction de perte du décideur, à condition qu'elle soit convexe et différenciable. $n$

Quelle est la fonction de perte la plus simple? Celui qui ignore le terme restant, bien sûr, ce qui en fait purement une fonction quadratique. D'autres fonctions de perte dans cette même classe incluent des puissances desupérieurs à (comme les et mentionnés dans la question), , et bien d'autres. $z = |\hat\mu-\mu|$ $2$ $2.1, e,$ $\pi$ $\exp(z)-1-z$

La courbe bleue (supérieure) trace tandis que la courbe rouge (inférieure) trace . Étant donné que la courbe bleue a également un minimum à , qu'elle est différenciable et convexe, de nombreuses propriétés intéressantes des procédures statistiques dont bénéficie la perte quadratique (la courbe rouge) s'appliqueront également à la fonction de perte bleue $2(\exp(|z|)-1-|z|)$ $z^2$ $0$ (même si globalement la fonction exponentielle se comporte différemment de la fonction quadratique).

Ces résultats (bien qu'évidemment limités par les conditions qui ont été imposées) aident à expliquer pourquoi la perte quadratique est omniprésente dans la théorie et la pratique statistiques: dans une mesure limitée, il s'agit d'un indicateur analytiquement pratique pour toute fonction de perte convexe différenciable.

La perte quadratique n'est en aucun cas la seule ou même la meilleure perte à considérer. En effet, Lehman écrit que

On a vu que les fonctions de perte convexe conduisaient à un certain nombre de simplifications des problèmes d'estimation. On peut cependant se demander si de telles fonctions de perte sont vraisemblablement réalistes. Si représente non seulement une mesure d'inexactitude mais une perte réelle (par exemple financière), on peut affirmer que toutes ces pertes sont limitées: une fois que vous avez tout perdu, vous ne pouvez plus perdre. ... $W(F, d)$

[...] les fonctions de perte à croissance croissante conduisent à des estimateurs qui ont tendance à être sensibles aux hypothèses faites sur [le] comportement de queue [de la distribution supposée], et ces hypothèses sont généralement basées sur peu d'informations et ne sont donc pas très fiable.

Il s'avère que les estimateurs produits par la perte d'erreur quadratique sont souvent inconfortablement sensibles à cet égard.

[Lehman, section 1.6; avec quelques changements de notation.]

La prise en compte des pertes alternatives ouvre un riche ensemble de possibilités: la régression quantile, les estimateurs M, des statistiques robustes, et bien plus encore, peuvent tous être formulés de cette manière théorique et décisionnelle et justifiés à l'aide de fonctions de perte alternatives. Pour un exemple simple, voir Fonctions de perte en pourcentage .

Les références

Jack Carl Kiefer, Introduction à l'inférence statistique. Springer-Verlag 1987.

EL Lehmann, Théorie de l'estimation ponctuelle . Wiley 1983.

whuber
la source

Pourquoi la différence au carré est-elle si couramment utilisée?

Réponses:

Les références