Pourquoi l'hypothèse de normalité dans la régression linéaire

15

Ma question est très simple: pourquoi nous choisissons la distribution normale comme terme d'erreur dans l'hypothèse d'une régression linéaire? Pourquoi nous n'en choisissons pas d'autres comme l'uniforme, le t ou quoi?

regression mathematical-statistics normal-distribution error linear Maître Shi
la source

5

Nous ne choisissons pas l'hypothèse normale. Il se trouve que lorsque l'erreur est normale, les coefficients du modèle suivent exactement une distribution normale et un test F exact peut être utilisé pour tester des hypothèses à leur sujet.

AdamO

10

Parce que les mathématiques fonctionnent assez facilement pour que les gens puissent les utiliser avant les ordinateurs modernes.

Nat

1

@AdamO je ne comprends pas; vous venez de décrire les raisons pour lesquelles nous l'avons choisi.

JiK

2

@JiK si je pouvais choisir des distributions, il n'y aurait aucun besoin de statistiques. Le monde entier serait une probabilité.

AdamO

1

@AdamO Vous pouvez choisir des hypothèses pour votre modèle lorsque vous faites des inférences statistiques, donc je ne pense pas que cela signifie qu'il n'y a pas de statistiques.

JiK

29

Nous choisissons d'autres distributions d'erreurs. Dans de nombreux cas, vous pouvez le faire assez facilement; si vous utilisez l'estimation du maximum de vraisemblance, cela changera la fonction de perte. Cela se fait certainement dans la pratique.

Laplace (doubles erreurs exponentielles) correspond à la régression des écarts les moins absolus / régression $L_1$ (dont de nombreux articles sur le site discutent). Des régressions avec des erreurs t sont parfois utilisées (dans certains cas parce qu'elles sont plus robustes aux erreurs grossières), bien qu'elles puissent avoir un inconvénient - la probabilité (et donc le négatif de la perte) peut avoir plusieurs modes.

Les erreurs uniformes correspondent à une perte $L_\infty$ (minimiser l'écart maximum); une telle régression est parfois appelée approximation de Chebyshev (bien que méfiez-vous, car il y a autre chose avec essentiellement le même nom). Encore une fois, cela est parfois fait (en effet, pour la régression simple et les petits ensembles de données avec des erreurs limitées avec une propagation constante, l'ajustement est souvent assez facile à trouver à la main, directement sur un tracé, bien qu'en pratique, vous pouvez utiliser des méthodes de programmation linéaire ou d'autres algorithmes ; en effet, les problèmes de régression $L_\infty$ et $L_1$ sont doubles, ce qui peut conduire à des raccourcis parfois pratiques pour certains problèmes).

En fait, voici un exemple de modèle "d'erreur uniforme" ajusté manuellement aux données:

Il est facile d'identifier (en faisant glisser une règle vers les données) que les quatre points marqués sont les seuls candidats pour être dans l'ensemble actif; trois d'entre eux formeront en fait l'ensemble actif (et une petite vérification identifiera bientôt ceux qui mènent à la bande la plus étroite qui englobe toutes les données). La ligne au centre de cette bande (marquée en rouge) est alors l'estimation du maximum de vraisemblance de la ligne.

De nombreux autres choix de modèle sont possibles et bon nombre ont été utilisés dans la pratique.

Notez que si vous avez des erreurs additives, indépendantes, à propagation constante avec une densité de la forme $k\,\exp(-c.g(\varepsilon))$ , maximiser la vraisemblance correspondra à minimiser $\sum_i g(e_i)$ , où $e_i$ est le $i$ ème résiduel.

Cependant, il existe une variété de raisons pour lesquelles les moindres carrés sont un choix populaire, dont beaucoup ne nécessitent aucune hypothèse de normalité.

Glen_b -Reinstate Monica
la source

2

Très bonne réponse. Pourriez-vous ajouter quelques liens qui donnent plus de détails sur la façon dont ces variations sont utilisées dans la pratique?

rgk

(+1) Excellente réponse. Pourriez-vous partager le code R utilisé pour ajuster la ligne de régression

?

L_{\infty}

$L_{\infty}$

COOLSerdash

1

Comme je l'ai expliqué dans le texte, je l'ai ajusté à la main, d'une manière très similaire à l'approche que j'ai décrite. Bien que cela puisse être fait assez facilement en utilisant du code, j'ai littéralement ouvert l'intrigue dans MS Paint et identifié les trois points de l'ensemble actif (dont deux ont donné la pente) - puis j'ai déplacé la ligne à mi-chemin vers le troisième point (en divisant par deux la distance verticale en pixels et en déplaçant la ligne sur autant de pixels) - le but étant de montrer à quel point cela pourrait être simple. Un enfant pourrait apprendre à le faire.

Glen_b -Reinstate Monica

@Glen_b En effet, j'étais adolescent quand on m'a appris à faire exactement cela dans un laboratoire de physique de première année.

Peter Leopold

9

L'hypothèse normale / gaussienne est souvent utilisée parce que c'est le choix le plus pratique en termes de calcul. Le calcul de l'estimation du maximum de vraisemblance des coefficients de régression est un problème de minimisation quadratique, qui peut être résolu en utilisant une algèbre linéaire pure. D'autres choix de distributions de bruit engendrent des problèmes d'optimisation plus compliqués qui doivent généralement être résolus numériquement. En particulier, le problème peut être non convexe, entraînant des complications supplémentaires.

La normalité n'est pas nécessairement une bonne hypothèse en général. La distribution normale a des queues très légères, ce qui rend l'estimation de régression assez sensible aux valeurs aberrantes. Des alternatives telles que les distributions de Laplace ou de Student sont souvent supérieures si les données de mesure contiennent des valeurs aberrantes.

Voir le livre séminal de Peter Huber Robust Statistics pour plus d'informations.

Martin L
la source

2

Lorsque vous travaillez avec ces hypothèses, la régression basée sur les erreurs au carré et la probabilité maximale vous fournissent la même solution. Vous êtes également capable d'obtenir des tests F simples pour la signification des coefficients, ainsi que des intervalles de confiance pour vos prévisions.

En conclusion, la raison pour laquelle nous choisissons souvent une distribution normale est ses propriétés, qui facilitent souvent les choses. Ce n'est pas non plus une hypothèse très restrictive, car de nombreux autres types de données se comporteront "plutôt normalement"

Quoi qu'il en soit, comme mentionné dans une réponse précédente, il existe des possibilités de définir des modèles de régression pour d'autres distributions. La normale se trouve être la plus récurrente

David
la source

2

Glen_b a expliqué bien que la régression OLS peut être généralisée (maximiser la probabilité au lieu de minimiser la somme des carrés) et nous faire choisir d' autres distributions.

Cependant, pourquoi la distribution normale est-elle choisie si souvent ?

La raison en est que la distribution normale se produit naturellement dans de nombreux endroits. C'est un peu la même chose que l'on voit souvent le nombre d'or ou les nombres de Fibonacci se produire "spontanément" à divers endroits de la nature.

La distribution normale est la distribution limite pour une somme de variables à variance finie (ou des restrictions moins strictes sont également possibles). Et, sans prendre la limite, c'est aussi une bonne approximation pour une somme d'un nombre fini de variables. Ainsi, comme de nombreuses erreurs observées se produisent en tant que somme de nombreuses petites erreurs non observées, la distribution normale est une bonne approximation.

Voir aussi ici Importance d'une distribution normale

où les machines à grains de Galton montrent intuitivement le principe

Sextus Empiricus
la source

-1

Pourquoi ne choisissons-nous pas d'autres distributions? - nous le faisons.

$y_i \in \mathbb R$ $x_i \in \mathbb R^n$ $x_i$

{\hat{y}}_{je} = w^{⊺} X_{je} .

$\hat y_i = w^\intercal x_i.$

La perte surprise est généralement la perte la plus sensible:

L = - Journal P (y_{je} ∣ X_{je}) .

$L = -\log P(y_i \mid x_i).$

Vous pouvez considérer la régression linéaire comme utilisant une densité normale avec une variance fixe dans l'équation ci-dessus:

L = - Journal P (y_{je} ∣ X_{je}) \propto (y_{je} - {\hat{y}}_{je})^{2} .

$L = -\log P(y_i \mid x_i) \propto (y_i - \hat y_i)^2.$

Cela conduit à la mise à jour du poids:

\nabla_{w} L = ({\hat{y}}_{je} - y_{je}) X_{je}

$\nabla_w L = (\hat y_i - y_i)x_i$

En général, si vous utilisez une autre distribution de famille exponentielle, ce modèle est appelé modèle linéaire généralisé . La distribution différente correspond à une densité différente, mais elle peut être formalisée plus facilement en modifiant la prédiction, le poids et la cible.

$W \in \mathbb R^{n\times k}$

{\hat{u}}_{je} ≜ \nabla g (W X_{je})

$\hat u_i \triangleq \nabla g(W x_i)$

$\nabla g: \mathbb R^k \to \mathbb R^k$ $y_i$ $u_i = T(y_i) \in \mathbb R^k$

$\eta$

F (z) = h (z) \exp (η^{⊺} T (z) - g (η)) .

$f(z) = h(z)\exp(\eta^\intercal T(z) - g(\eta)).$

$\eta$ $w^\intercal x_i$ $z = y_i$

\begin{aligned} \nabla_{W} L & = \nabla_{W} - Journal F (X) \\ = (\nabla g (W X_{je})) X_{je}^{⊺} - T (y_{je}) X_{je}^{⊺} \\ = ({\hat{u}}_{je} - u_{je}) X_{je}^{⊺} \end{aligned},

$\begin{align} \nabla_W L &= \nabla_W -\log f(x) \\ &= (\nabla g(W x_i)) x_i^\intercal - T(y_i) x_i^\intercal \\ &= (\hat u_i - u_i) x_i^\intercal \end{align},$

Pour autant que je sache, le log-normalisateur de gradient peut être n'importe quelle fonction analytique monotone, et toute fonction analytique monotone est le log-normalisateur de gradient d'une famille exponentielle.

Neil G
la source

C'est très court et trop énigmatique pour nos standards, expliquez aussi la surprise .

kjetil b halvorsen

1

"chaque fonction de lien correspond à une hypothèse de distribution différente", c'est très vague. La fonction de lien n'a pas à voir avec la généralisation à différentes hypothèses de distribution, mais avec la généralisation de la partie (linéaire) qui décrit la moyenne de la distribution.

Sextus Empiricus

1

$f$ $g$

1

Généralement, certaines fonctions de liaison sont utilisées avec certaines hypothèses de distribution. Mais ce n'est pas une nécessité. Donc, mes hypothèses de distribution sont normales dans cet exemple, et non Poisson (c'était intentionnel). Quelques exemples meilleurs (plus pratiques et bien connus) sont les variables distribuées binomiales / Bernouilli où les gens travaillent avec un modèle probit ou un modèle logit, donc différentes fonctions de lien mais la même hypothèse de distribution (conditionnelle).

Sextus Empiricus

1

@Neil G: Je suis le paresseux? Vous auriez pu facilement inclure surprise dans le message d'origine, oui? Aussi, quand je fais de tels commentaires, c'est plus pour le site que pour moi. Ce site est censé être autonome. J'aurais pu / deviné le sens (même s'il s'agit d'une terminologie non standard en statistique), comme vous pouvez le voir dans ma réponse ici, entropie

kjetil b halvorsen

Pourquoi l'hypothèse de normalité dans la régression linéaire

Réponses: