Pourquoi les erreurs non distribuées normalement compromettent-elles la validité de nos déclarations de signification?

10

Il y a une hypothèse de normalité quand il s'agit de considérer les modèles OLS et c'est que les erreurs soient normalement distribuées. J'ai parcouru Cross Validated et il semble que Y et X ne doivent pas être normaux pour que les erreurs soient normales. Ma question est pourquoi, lorsque nous avons des erreurs non distribuées normalement, la validité de nos déclarations de signification est-elle compromise? Pourquoi les intervalles de confiance seront-ils trop larges ou trop étroits?

user44278
la source

Réponses:

9

Pourquoi, lorsque nous avons des erreurs non distribuées normalement, la validité de nos déclarations de signification est-elle compromise? Pourquoi les intervalles de confiance seront-ils trop larges ou trop étroits?

Les intervalles de confiance sont basés sur la façon dont le numérateur et le dénominateur sont distribués dans une statistique t.

Avec des données normales, le numérateur d'une statistique t a une distribution normale et la distribution du carré du dénominateur (qui est alors une variance) est un multiple particulier d'une distribution khi carré. Lorsque le numérateur et le dénominateur sont également indépendants (comme ce ne sera le cas que pour les données normales, étant donné que les observations elles-mêmes sont indépendantes), l'ensemble de la statistique a une distribution t.

β^-βsβ^βt

Si les données provenaient d'une autre distribution, la statistique n'aurait pas de distribution t. Par exemple, s'il était à queue lourde, la distribution t aurait tendance à être un peu plus claire (les observations périphériques affectent davantage le dénominateur que le numérateur). Voici un exemple. Dans les deux cas, l'histogramme concerne 10 000 régressions:

entrez la description de l'image ici

β=0(-2,2)

Un intervalle t à 95% (qui devrait inclure 95% des pentes de notre échantillon) s'étend de -2,048 à 2,048. Pour les données normales, il comprenait en fait 95,15% des 10000 pentes de l'échantillon. Pour les données asymétriques, il inclut 99,91%.

Glen_b -Reinstate Monica
la source
Quelle distribution avez-vous utilisée pour la version asymétrique et à queue lourde?
gung - Réintégrer Monica
2
t