Des sources apparemment réputées affirment que la variable dépendante doit être distribuée normalement:
Les hypothèses du modèle: est normalement distribué, les erreurs sont normalement distribuées, , et indépendant, et est fixé, et une variance constante .
Deuxièmement, l'analyse de régression linéaire requiert que toutes les variables soient multivariées normales.
Ceci est approprié lorsque la variable de réponse a une distribution normale
Existe-t-il une bonne explication pour savoir comment ou pourquoi cette idée fausse s'est propagée? Son origine est-elle connue?
X <- runif(n=100)
puisY <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)
ensuite jouer avec pour vous convaincre Histogrammes que ni X ni Y sont normalement distribués. Ensuitesummary(lm(Y ~ X))
, faites très attention à la proximité de l’interception à 3 et à la pente de X à 0,5. L'hypothèse est que les erreurs sont normalement distribuées.Réponses:
'Y doit être normalement distribué'
doit?
Dans les cas que vous mentionnez, il s'agit d'un langage bâclé (en abrégé "l'erreur dans Y doit être distribuée normalement" ), mais ils ne disent pas (fortement) que la réponse doit être distribuée normalement, ou du moins ne semble pas moi que leurs mots étaient destinés comme ça.
Le matériel de cours de Penn State
parle de "une variable continueY " , mais aussi de " Yi " comme dans E(Yi)=β0+β1xi où nous pourrions considérer Yi , qui s'appelle amoeba dans les commentaires 'conditionnel', normalement distribué,
L'article utiliseY et Yi manière interchangeable. Tout au long de l'article, on parle de la «distribution de Y», par exemple:
en expliquant une variante de GLM (régression logistique binaire),
en quelque définition
cependant, à un autre moment, ils se réfèrent également àYi au lieu de Y :
La page web de statisticssolutions
est une description extrêmement brève, simplifiée et stylisée. Je ne suis pas sûr que vous deviez prendre cela au sérieux. Par exemple, il parle de
donc ce n'est pas seulement la variable de réponse,
et le descripteur 'multivarié' est également vague. Je ne sais pas trop comment interpréter cela.
L'article de Wikipédia
a un contexte supplémentaire expliqué entre parenthèses:
La ligne particulière a été ajoutée le 8 mars 2012 , mais notez que la première ligne de l'article de Wikipédia mentionne toujours "une généralisation flexible de la régression linéaire ordinaire qui permet aux variables de réponse qui ont des modèles de distribution d'erreur autres qu'une distribution normale" et qui ne sont pas utilisées. tellement (pas partout) faux.
Conclusion
Donc, sur la base de ces trois exemples (qui pourraient en effet générer des idées fausses, ou du moins pourraient être mal comprises), je ne dirais pas que "cette idée fausse s'est répandue" . Ou du moins, il ne me semble pas que l'intention de ces trois exemples soit de faire valoir que Y doit être normalement distribué (bien que je me souvienne que cette question s'est déjà posée ici sur stackexchange, l'échange entre les erreurs normalement distribuées et la variable de réponse normalement distribuée est facile à faire).
Ainsi, l'hypothèse selon laquelle "Y doit être normalement distribué" ne me semble pas être une croyance répandue / une idée fausse (comme dans quelque chose qui se propage comme un fouillis rouge), mais plutôt une erreur commune (qui ne se propage pas, mais est faite indépendamment à chaque fois ).
Commentaire additionnel
Un exemple d'erreur sur ce site est dans la question suivante
Que se passe-t-il si les résidus sont normalement distribués, mais que y ne le soit pas?
Je considérerais cela comme une question de débutant. Il n'est pas présent dans les documents tels que le matériel de cours de Penn State, le site Web Wikipedia, et a récemment mentionné dans les commentaires le livre 'Extension de la régression linéaire avec R'.
Les auteurs de ces œuvres comprennent bien le matériel. En effet, ils utilisent des phrases telles que "Y doit être normalement distribué", mais en fonction du contexte et des formules utilisées, vous pouvez voir qu'ils signifient tous "Y, conditionnel à X, doit être normalement distribué" et non "le Y marginal doit être normalement distribué '. Ils ne comprennent pas mal l’idée eux-mêmes, et au moins l’idée n’est pas répandue parmi les statisticiens et les personnes qui écrivent des livres et d’autres supports de cours. Mais mal interpréter leurs paroles ambiguës peut en effet être à l’origine de l’idée fausse.
la source
Nous enseignons généralement aux étudiants de premier cycle une version "simplifiée" des statistiques dans de nombreuses disciplines. Je suis en psychologie et lorsque j'essaie de dire aux étudiants de premier cycle que les valeurs p sont "la probabilité des données - ou des données plus extrêmes - étant donné que l'hypothèse nulle est vraie", des collègues me disent que je couvre plus de détails que nécessaire. couvrir. Cela rend la tâche plus difficile qu’elle ne devrait l’être, etc. Comme les étudiants en classe ont un si grand éventail de confort (ou d’absence de statistique) avec les statistiques, les instructeurs gardent les choses simples: "Nous considérons qu’il s’agit là d’une conclusion fiable si: p <0,05 ", par exemple, au lieu de leur donner la définition réelle d’une valeur p .
Je pense que c’est la raison pour laquelle l’idée fausse s’est répandue. Par exemple, vous pouvez écrire le modèle en tant que:
Cela peut être ré-écrit comme:
Ce qui signifie que "Y, conditionnel à X, est normalement distribué avec une moyenne des valeurs prédites et une certaine variance."
Ceci est difficile à expliquer, alors, comme on pourrait le dire par sténographie, "Y doit être distribué normalement." Ou, quand cela leur a été expliqué à l'origine, les gens ont mal compris la partie conditionnelle - puisqu'elle est, honnêtement, déroutante.
Donc, dans le but de ne pas compliquer les choses à la perfection, les instructeurs simplifient simplement leurs propos pour ne pas trop embrouiller la plupart des élèves. Et puis les gens continuent dans leur éducation statistique ou pratique statistique avec cette idée fausse. Moi-même, je n'avais pas bien compris le concept jusqu'à ce que je commence à faire de la modélisation bayésienne dans Stan, ce qui vous oblige à rédiger vos hypothèses de la manière suivante:
De plus, dans beaucoup de logiciels statistiques avec une interface graphique (SPSS), il est plus facile de vérifier si la distribution marginale est normalement distribuée (histogramme simple) que de vérifier si les résidus sont normalement distribués (analyse de régression, etc.). enregistrer les résidus, exécuter un histogramme sur ces résidus).
Ainsi, je pense que l’idée fausse est principalement due au fait que les instructeurs essaient de réduire les détails pour empêcher les étudiants de devenir confus, compréhensible et compréhensible la plupart des logiciels statistiques conviviaux.
la source
L'analyse de régression est difficile pour les débutants car les hypothèses de départ impliquent différents résultats. Des hypothèses de départ plus faibles peuvent justifier certains des résultats, mais vous pouvez obtenir des résultats plus solides en ajoutant des hypothèses plus solides. Les personnes qui ne sont pas familiarisées avec la dérivation mathématique complète des résultats peuvent souvent mal comprendre les hypothèses requises pour un résultat, soit en posant leur modèle trop faiblement pour obtenir le résultat souhaité, soit en posant certains postulats inutiles dans la conviction qu'ils sont nécessaires à un résultat. .
Bien qu'il soit possible d'ajouter des hypothèses plus fortes pour obtenir des résultats supplémentaires, l'analyse de régression porte sur la distribution conditionnelle du vecteur de réponse. Si un modèle va au-delà de cela, il entre dans le champ de l'analyse multivariée et n'est pas strictement (uniquement) un modèle de régression. La question est encore compliquée par le fait qu’il est courant de faire référence à des résultats de distribution dans une régression sans toujours veiller à préciser qu’il s’agit de distributions conditionnelles (compte tenu des variables explicatives de la matrice de conception). Dans les cas où les modèles vont au-delà des distributions conditionnelles (en supposant une distribution marginale pour les vecteurs explicatifs), l'utilisateur doit veiller à spécifier cette différence; Malheureusement, les gens ne font pas toujours attention à cela.
Modèle de régression linéaire homoscédastique: le premier point de départ généralement utilisé consiste à adopter la forme du modèle et les deux premiers moments d’erreur sans aucune hypothèse de normalité:
Cette configuration est suffisante pour vous permettre d’obtenir l’estimateur OLS des coefficients, l’estimateur non biaisé de la variance de l’erreur, les résidus et les moments de toutes ces quantités aléatoires (en fonction des variables explicatives de la matrice de conception). Cela ne vous permet pas d'obtenir la distribution conditionnelle complète de ces quantités, mais cela permet de faire appel aux distributions asymptotiques si est grand et que quelques hypothèses supplémentaires sont placées sur le comportement limite de . Pour aller plus loin, il est courant d'assumer une forme de distribution spécifique pour le vecteur d'erreur.n x
Erreurs normales: la plupart des traitements du modèle de régression linéaire homocédastique supposent que le vecteur d'erreur est normalement distribué, ce qui, combiné aux hypothèses de moment donne:
Cette hypothèse supplémentaire est suffisante pour garantir que l’estimateur MCO des coefficients est la MLE du modèle. Cela signifie également que l’estimateur de coefficients et les résidus sont normalement distribués et que l’estimateur de la variance d’erreur a une distribution chi-carré conditionnel aux variables explicatives de la matrice de conception). Cela garantit également que le vecteur de réponse est distribué normalement de manière conditionnelle. Cela donne des résultats de distribution conditionnels aux variables explicatives de l'analyse, ce qui permet la construction d'intervalles de confiance et de tests d'hypothèses. Si l'analyste souhaite faire des constatations sur la distribution marginale de la réponse, il doit aller plus loin et supposer une distribution des variables explicatives du modèle.
Variables explicatives conjointement normales: Certains traitements du modèle de régression linéaire homoscédastique vont plus loin que les traitements classiques et ne conditionnent pas à des variables explicatives fixes. (On peut soutenir que ceci est une transition de la modélisation par régression vers l'analyse multivariée.) Le modèle le plus courant de ce type suppose que les vecteurs explicatifs sont des vecteurs aléatoires normaux joints IID. Soit le ème vecteur explicatif (la ème ligne de la matrice de conception) nous avons:X(i) i i
Cette hypothèse supplémentaire est suffisante pour garantir que le vecteur de réponse est marginalement normalement distribué. Cette hypothèse est forte et elle n’est généralement pas imposée dans la plupart des problèmes. Comme indiqué, cela place le modèle en dehors du territoire de la modélisation par régression et de l'analyse multivariée.
la source