D'où vient l'idée fausse selon laquelle Y doit être normalement distribué?

45

Des sources apparemment réputées affirment que la variable dépendante doit être distribuée normalement:

Les hypothèses du modèle: Y est normalement distribué, les erreurs sont normalement distribuées, eiN(0,σ2) , et indépendant, et X est fixé, et une variance constante σ2 .

Penn State, STAT 504 Analyse de données discrètes

Deuxièmement, l'analyse de régression linéaire requiert que toutes les variables soient multivariées normales.

StatisticsSolutions, hypothèses de régression linéaire

Ceci est approprié lorsque la variable de réponse a une distribution normale

Wikipedia, modèle linéaire généralisé

Existe-t-il une bonne explication pour savoir comment ou pourquoi cette idée fausse s'est propagée? Son origine est-elle connue?

en relation

Timwiz
la source
17
Triste. Vous faites une bonne action ici ...
jbowman
7
Je ne connais aucune situation utilisant la régression linéaire qui nécessite la distribution marginale de , ou la conjonction de toutes les variables soit multivariée normale. Celles-ci ressemblent à des idées fausses pour moi. Y
Matthew Drury
8
@MichaelChernick "Y est est normalement distribué" est manifestement faux. Check it out dans R: X <- runif(n=100)puis Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)ensuite jouer avec pour vous convaincre Histogrammes que ni X ni Y sont normalement distribués. Ensuite summary(lm(Y ~ X)), faites très attention à la proximité de l’interception à 3 et à la pente de X à 0,5. L'hypothèse est que les erreurs sont normalement distribuées.
Alexis
9
@ Alexis Je crois que ce que Michael essayait de dire, c'est que les hypothèses de normalité à plusieurs variables sont suffisantes mais pas nécessaires. C'est clairement ainsi qu'il faut lire la citation de Wikipedia. La deuxième citation est évidemment erronée en affirmant que ces hypothèses sont nécessaires. La première citation est ambiguë mais pourrait être interprétée généreusement dans le sens élucidé par Michael.
whuber
6
Tout ce que je disais, c'est que l'hypothèse de normalité implique certaines propriétés. Par exemple, dans une régression linéaire simple, si vous supposez que les termes d'erreur sont idi normal, avec une variance moyenne et égale à zéro, l'estimation des moindres carrés des paramètres de régression correspond au maximum de vraisemblance. Conserver toutes les hypothèses, sauf les moindres carrés de normalité, n’est plus du maximum de vraisemblance, mais reste une variance minimale non biaisée.
Michael R. Chernick

Réponses:

13

'Y doit être normalement distribué'

doit?


Dans les cas que vous mentionnez, il s'agit d'un langage bâclé (en abrégé "l'erreur dans Y doit être distribuée normalement" ), mais ils ne disent pas (fortement) que la réponse doit être distribuée normalement, ou du moins ne semble pas moi que leurs mots étaient destinés comme ça.

Le matériel de cours de Penn State

parle de "une variable continue Y " , mais aussi de " Yi " comme dans

E(Yi)=β0+β1xi
où nous pourrions considérer Yi , qui s'appelle amoeba dans les commentaires 'conditionnel', normalement distribué,

YiN(β0+β1xi,σ2)

L'article utilise Y et Yi manière interchangeable. Tout au long de l'article, on parle de la «distribution de Y», par exemple:

  • en expliquant une variante de GLM (régression logistique binaire),

    Composante aléatoire : on suppose que la distribution de Y est Binomial(n,π) , ...

  • en quelque définition

    Composante aléatoire - fait référence à la distribution de probabilité de la variable de réponse ( Y ); par exemple, la distribution normale pour Y dans la régression linéaire ou la distribution binomiale pour Y dans la régression logistique binaire.

cependant, à un autre moment, ils se réfèrent également à Yi au lieu de Y :

  • La variable dépendante Yi n'a PAS besoin d'être distribuée normalement, mais elle suppose généralement une distribution d'une famille exponentielle (par exemple binomiale, Poisson, multinomiale, normale, ...)

La page web de statisticssolutions

est une description extrêmement brève, simplifiée et stylisée. Je ne suis pas sûr que vous deviez prendre cela au sérieux. Par exemple, il parle de

..nécessite que toutes les variables soient multivariées normales ...

donc ce n'est pas seulement la variable de réponse,

et le descripteur 'multivarié' est également vague. Je ne sais pas trop comment interpréter cela.

L'article de Wikipédia

a un contexte supplémentaire expliqué entre parenthèses:

La régression linéaire ordinaire prédit la valeur attendue d'une quantité inconnue donnée (la variable de réponse, une variable aléatoire) sous la forme d' une combinaison linéaire d'un ensemble de valeurs observées (prédicteurs) . Cela implique qu'un changement constant dans un prédicteur entraîne un changement constant dans la variable de réponse (c'est-à-dire un modèle à réponse linéaire). Ceci est approprié lorsque la variable de réponse a une distribution normale (intuitivement, lorsqu'une variable de réponse peut varier essentiellement indéfiniment dans les deux sens sans "valeur zéro" fixe, ou plus généralement pour toute quantité ne variant que relativement peu, p. Ex. hauteurs).

y+ϵϵN(0,σ)

La ligne particulière a été ajoutée le 8 mars 2012 , mais notez que la première ligne de l'article de Wikipédia mentionne toujours "une généralisation flexible de la régression linéaire ordinaire qui permet aux variables de réponse qui ont des modèles de distribution d'erreur autres qu'une distribution normale" et qui ne sont pas utilisées. tellement (pas partout) faux.


Conclusion

Donc, sur la base de ces trois exemples (qui pourraient en effet générer des idées fausses, ou du moins pourraient être mal comprises), je ne dirais pas que "cette idée fausse s'est répandue" . Ou du moins, il ne me semble pas que l'intention de ces trois exemples soit de faire valoir que Y doit être normalement distribué (bien que je me souvienne que cette question s'est déjà posée ici sur stackexchange, l'échange entre les erreurs normalement distribuées et la variable de réponse normalement distribuée est facile à faire).

Ainsi, l'hypothèse selon laquelle "Y doit être normalement distribué" ne me semble pas être une croyance répandue / une idée fausse (comme dans quelque chose qui se propage comme un fouillis rouge), mais plutôt une erreur commune (qui ne se propage pas, mais est faite indépendamment à chaque fois ).


Commentaire additionnel

Un exemple d'erreur sur ce site est dans la question suivante

Que se passe-t-il si les résidus sont normalement distribués, mais que y ne le soit pas?

Je considérerais cela comme une question de débutant. Il n'est pas présent dans les documents tels que le matériel de cours de Penn State, le site Web Wikipedia, et a récemment mentionné dans les commentaires le livre 'Extension de la régression linéaire avec R'.

Les auteurs de ces œuvres comprennent bien le matériel. En effet, ils utilisent des phrases telles que "Y doit être normalement distribué", mais en fonction du contexte et des formules utilisées, vous pouvez voir qu'ils signifient tous "Y, conditionnel à X, doit être normalement distribué" et non "le Y marginal doit être normalement distribué '. Ils ne comprennent pas mal l’idée eux-mêmes, et au moins l’idée n’est pas répandue parmi les statisticiens et les personnes qui écrivent des livres et d’autres supports de cours. Mais mal interpréter leurs paroles ambiguës peut en effet être à l’origine de l’idée fausse.

Sextus Empiricus
la source
3
+1 Cela dit: Je pense que nous avons tous vu beaucoup de questions affirmant la normalité marginale de Y par ici ... il y a une propagation d'idées fausses. :)
Alexis
Oui, je suis d'accord pour dire que l'hypothèse de «y normalement distribué» est fréquente (je ne pourrais pas trouver facilement d'exemples, mais c'est peut-être parce que les gens décrivent ces choses entre les lignes et non avec des mots clés simples). Cependant, je crois que c'est plus quelque chose qui est «commun», pas quelque chose qui est tellement « étalé ». Et au moins, certainement les trois exemples donnés par le PO ne sont pas très forts (pas fort au sens d'indiquer la propagation de l'idée fausse, bien qu'ils décrivent l'utilisation pathologique de la langue et la façon dont les erreurs peuvent provenir).
Sextus Empiricus
@ Martijn Weterings: Je ne suis pas d'accord avec votre déclaration "je ne dirais pas que cette idée fausse s'est répandue". Dans son livre intitulé Extending the Linear Regression with R, utilisé comme lecture obligatoire dans un certain nombre de programmes de statistiques pour diplômés, Julian Faraway déclare à la page xi de la préface de ce livre que "Le modèle linéaire standard ne peut pas traiter les réponses non normales, y en chiffres ou en proportions ".
ColorStatistics
n1(r1)(c1)
1
y=β0+β1x1+...βpxp+ϵϵla réponse devrait avoir la distribution particulière qui est mentionnée.
Sextus Empiricus
29

Existe-t-il une bonne explication de la manière dont / pourquoi cette idée fausse s'est propagée? Son origine est-elle connue?

Nous enseignons généralement aux étudiants de premier cycle une version "simplifiée" des statistiques dans de nombreuses disciplines. Je suis en psychologie et lorsque j'essaie de dire aux étudiants de premier cycle que les valeurs p sont "la probabilité des données - ou des données plus extrêmes - étant donné que l'hypothèse nulle est vraie", des collègues me disent que je couvre plus de détails que nécessaire. couvrir. Cela rend la tâche plus difficile qu’elle ne devrait l’être, etc. Comme les étudiants en classe ont un si grand éventail de confort (ou d’absence de statistique) avec les statistiques, les instructeurs gardent les choses simples: "Nous considérons qu’il s’agit là d’une conclusion fiable si: p <0,05 ", par exemple, au lieu de leur donner la définition réelle d’une valeur p .

Je pense que c’est la raison pour laquelle l’idée fausse s’est répandue. Par exemple, vous pouvez écrire le modèle en tant que:

Y=β0+β1X+ϵϵN(0,σϵ2)

Cela peut être ré-écrit comme:

Y|XN(β0+β1X,σϵ2)

Ce qui signifie que "Y, conditionnel à X, est normalement distribué avec une moyenne des valeurs prédites et une certaine variance."

Ceci est difficile à expliquer, alors, comme on pourrait le dire par sténographie, "Y doit être distribué normalement." Ou, quand cela leur a été expliqué à l'origine, les gens ont mal compris la partie conditionnelle - puisqu'elle est, honnêtement, déroutante.

Donc, dans le but de ne pas compliquer les choses à la perfection, les instructeurs simplifient simplement leurs propos pour ne pas trop embrouiller la plupart des élèves. Et puis les gens continuent dans leur éducation statistique ou pratique statistique avec cette idée fausse. Moi-même, je n'avais pas bien compris le concept jusqu'à ce que je commence à faire de la modélisation bayésienne dans Stan, ce qui vous oblige à rédiger vos hypothèses de la manière suivante:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

De plus, dans beaucoup de logiciels statistiques avec une interface graphique (SPSS), il est plus facile de vérifier si la distribution marginale est normalement distribuée (histogramme simple) que de vérifier si les résidus sont normalement distribués (analyse de régression, etc.). enregistrer les résidus, exécuter un histogramme sur ces résidus).

Ainsi, je pense que l’idée fausse est principalement due au fait que les instructeurs essaient de réduire les détails pour empêcher les étudiants de devenir confus, compréhensible et compréhensible la plupart des logiciels statistiques conviviaux.

Mark White
la source
2
Je pense que vous avez raison. Beaucoup de gens ne comprennent pas la partie conditionnelle. Ils pensent juste normal distribué.
SmallChess
3
Je conviens que cela pourrait être «un» des modes par lesquels cette erreur se produit / se propage. Cependant, le matériel pédagogique de Penn State ne me semble pas être dû à cette simplification "intentionnelle" et est également dû à une écriture de notation bâclée. C'est un peu comme de minuscules notes (de cours). Ou comme des commentaires à stackexchange, des simplifications de langage. Dans certains endroits, ils utilisent les mots corrects. (personnellement, mes schémas / diagrammes sont meilleurs que mes mots / formules, mais cela ne signifie pas que ce que j'écris, s'il est faux, est nécessairement une fausse idée)
Sextus Empiricus
1
@ MartijnWeterings D'accord - il est très facile de confondre quelqu'un en n'utilisant pas un langage spécifique. Il est difficile d’être toujours spécifique à votre langue dans des domaines aussi abstraits que des hypothèses statistiques, et de nombreuses personnes intelligentes commettent des erreurs simples, ce qui conduit à des idées fausses répandues comme celle-ci.
Mark White
1
MarkWhite, j'apprécie vraiment l'attention que vous portez à la façon dont nous enseignons ... Je pense que cela témoigne de l'intérêt important du PO pour la "propagation d'une idée fausse" (en plus des nuances entre ce qui est et ce n'est pas une idée fausse )
Alexis
16

L'analyse de régression est difficile pour les débutants car les hypothèses de départ impliquent différents résultats. Des hypothèses de départ plus faibles peuvent justifier certains des résultats, mais vous pouvez obtenir des résultats plus solides en ajoutant des hypothèses plus solides. Les personnes qui ne sont pas familiarisées avec la dérivation mathématique complète des résultats peuvent souvent mal comprendre les hypothèses requises pour un résultat, soit en posant leur modèle trop faiblement pour obtenir le résultat souhaité, soit en posant certains postulats inutiles dans la conviction qu'ils sont nécessaires à un résultat. .

Bien qu'il soit possible d'ajouter des hypothèses plus fortes pour obtenir des résultats supplémentaires, l'analyse de régression porte sur la distribution conditionnelle du vecteur de réponse. Si un modèle va au-delà de cela, il entre dans le champ de l'analyse multivariée et n'est pas strictement (uniquement) un modèle de régression. La question est encore compliquée par le fait qu’il est courant de faire référence à des résultats de distribution dans une régression sans toujours veiller à préciser qu’il s’agit de distributions conditionnelles (compte tenu des variables explicatives de la matrice de conception). Dans les cas où les modèles vont au-delà des distributions conditionnelles (en supposant une distribution marginale pour les vecteurs explicatifs), l'utilisateur doit veiller à spécifier cette différence; Malheureusement, les gens ne font pas toujours attention à cela.


Modèle de régression linéaire homoscédastique: le premier point de départ généralement utilisé consiste à adopter la forme du modèle et les deux premiers moments d’erreur sans aucune hypothèse de normalité:

Y=xβ+εE(ε|x)=0V(ε|x)I.

Cette configuration est suffisante pour vous permettre d’obtenir l’estimateur OLS des coefficients, l’estimateur non biaisé de la variance de l’erreur, les résidus et les moments de toutes ces quantités aléatoires (en fonction des variables explicatives de la matrice de conception). Cela ne vous permet pas d'obtenir la distribution conditionnelle complète de ces quantités, mais cela permet de faire appel aux distributions asymptotiques si est grand et que quelques hypothèses supplémentaires sont placées sur le comportement limite de . Pour aller plus loin, il est courant d'assumer une forme de distribution spécifique pour le vecteur d'erreur.nx

Erreurs normales: la plupart des traitements du modèle de régression linéaire homocédastique supposent que le vecteur d'erreur est normalement distribué, ce qui, combiné aux hypothèses de moment donne:

ε|xN(0,σ2I).

Cette hypothèse supplémentaire est suffisante pour garantir que l’estimateur MCO des coefficients est la MLE du modèle. Cela signifie également que l’estimateur de coefficients et les résidus sont normalement distribués et que l’estimateur de la variance d’erreur a une distribution chi-carré conditionnel aux variables explicatives de la matrice de conception). Cela garantit également que le vecteur de réponse est distribué normalement de manière conditionnelle. Cela donne des résultats de distribution conditionnels aux variables explicatives de l'analyse, ce qui permet la construction d'intervalles de confiance et de tests d'hypothèses. Si l'analyste souhaite faire des constatations sur la distribution marginale de la réponse, il doit aller plus loin et supposer une distribution des variables explicatives du modèle.

Variables explicatives conjointement normales: Certains traitements du modèle de régression linéaire homoscédastique vont plus loin que les traitements classiques et ne conditionnent pas à des variables explicatives fixes. (On peut soutenir que ceci est une transition de la modélisation par régression vers l'analyse multivariée.) Le modèle le plus courant de ce type suppose que les vecteurs explicatifs sont des vecteurs aléatoires normaux joints IID. Soit le ème vecteur explicatif (la ème ligne de la matrice de conception) nous avons:X(i)ii

X(1),...,X(n)IID N(μX,ΣX).

Cette hypothèse supplémentaire est suffisante pour garantir que le vecteur de réponse est marginalement normalement distribué. Cette hypothèse est forte et elle n’est généralement pas imposée dans la plupart des problèmes. Comme indiqué, cela place le modèle en dehors du territoire de la modélisation par régression et de l'analyse multivariée.

Rétablir Monica
la source
1
J'ai trouvé très instructif la façon dont vous avez introduit des hypothèses plus fortes, une par une, et décrit les implications.
ColorStatistics