Pourquoi, lorsque nous avons des erreurs non distribuées normalement, la validité de nos déclarations de signification est-elle compromise? Pourquoi les intervalles de confiance seront-ils trop larges ou trop étroits?
Les intervalles de confiance sont basés sur la façon dont le numérateur et le dénominateur sont distribués dans une statistique t.
Avec des données normales, le numérateur d'une statistique t a une distribution normale et la distribution du carré du dénominateur (qui est alors une variance) est un multiple particulier d'une distribution khi carré. Lorsque le numérateur et le dénominateur sont également indépendants (comme ce ne sera le cas que pour les données normales, étant donné que les observations elles-mêmes sont indépendantes), l'ensemble de la statistique a une distribution t.
β^- βsβ^βt
Si les données provenaient d'une autre distribution, la statistique n'aurait pas de distribution t. Par exemple, s'il était à queue lourde, la distribution t aurait tendance à être un peu plus claire (les observations périphériques affectent davantage le dénominateur que le numérateur). Voici un exemple. Dans les deux cas, l'histogramme concerne 10 000 régressions:
β= 0( - 2 , 2 )
Un intervalle t à 95% (qui devrait inclure 95% des pentes de notre échantillon) s'étend de -2,048 à 2,048. Pour les données normales, il comprenait en fait 95,15% des 10000 pentes de l'échantillon. Pour les données asymétriques, il inclut 99,91%.