Sauf erreur, dans un modèle linéaire, la distribution de la réponse est supposée avoir une composante systématique et une composante aléatoire. Le terme d'erreur capture la composante aléatoire. Par conséquent, si nous supposons que le terme d'erreur est normalement distribué, cela n'implique-t-il pas que la réponse est également normalement distribuée? Je pense que oui, mais des déclarations comme celle ci-dessous semblent plutôt déroutantes:
Et vous pouvez voir clairement que la seule hypothèse de "normalité" dans ce modèle est que les résidus (ou "erreurs" ) devraient être normalement distribués. Il n'y a aucune hypothèse sur la distribution du prédicteur x i ou de la variable de réponse y i .
Source: prédicteurs, réponses et résidus: qu'est-ce qui doit vraiment être distribué normalement?
la source
Réponses:
Le modèle OLS standard est avec ε ∼ N ( → 0 , σ 2 I n ) pour un X ∈ R n × p fixe .Oui= Xβ+ ε ε ∼ N( 0⃗ , σ2jen) X∈ Rn × p
Cela signifie en effet que , bien que cela soit une conséquence de notre hypothèse sur la distribution de ε , plutôt que d'être réellement l'hypothèse. Gardez à l' esprit que je parle de la distribution conditionnelle de Y , et non la distribution marginale de Y . Je me concentre sur la distribution conditionnelle parce que je pense que c'est ce que vous demandez vraiment.Oui| {X, β, σ2} ∼ N( Xβ, σ2jen) ε Oui Oui
Je pense que la partie qui prête à confusion est que cela ne signifie pas qu'un histogramme de aura l'air normal. Nous disons que le vecteur entier Y est un seul tirage d'une distribution normale multivariée où chaque élément a une moyenne potentiellement différente E ( Y i | X i ) = X T i β . Ce n'est pas la même chose que d'être un échantillon normal iid. Les erreurs ε sont en fait un échantillon iid donc un histogramme de celles-ci semblerait normal (et c'est pourquoi nous faisons un tracé QQ des résidus, pas la réponse).Oui Oui E( Yje| Xje) = XTjeβ ε
la source
Pas même à distance. La façon dont je m'en souviens est que les résidus sont normaux en fonction de la partie déterministe du modèle . Voici une démonstration de ce à quoi cela ressemble dans la pratique.
Je commence par générer aléatoirement des données. Ensuite, je définis un résultat qui est une fonction linéaire des prédicteurs et j'évalue un modèle.
Voyons à quoi ressemblent ces résidus. Je soupçonne qu'ils devraient être distribués normalement, car le résultat y
y
avait ajouté un bruit normal. Et c'est bien le cas.En vérifiant la distribution de y, cependant, nous pouvons voir que ce n'est certainement pas normal! J'ai superposé la fonction de densité avec la même moyenne et la même variance que
y
, mais c'est évidemment un ajustement terrible!La raison pour laquelle cela s'est produit dans ce cas est que les données d'entrée ne sont même pas à distance normales. Rien dans ce modèle de régression ne requiert de normalité, sauf dans les résidus - pas dans la variable indépendante, ni dans la variable dépendante.
la source
Non, non. Par exemple, supposons que nous ayons un modèle prédisant le poids des athlètes olympiques. Bien que le poids puisse être normalement réparti entre les athlètes de chaque sport, il ne le sera pas entre tous les athlètes - il pourrait même ne pas être unimodal.
la source