Je regardais ce cahier et je suis perplexe par cette déclaration:
Lorsque nous parlons de normalité, nous voulons dire que les données devraient ressembler à une distribution normale. Ceci est important car plusieurs tests statistiques en dépendent (par exemple les statistiques t).
Je ne comprends pas pourquoi une statistique T a besoin des données pour suivre une distribution normale.
En effet, Wikipedia dit la même chose:
La distribution t de Student (ou simplement la distribution t) est tout membre d'une famille de distributions de probabilités continues qui se produit lors de l'estimation de la moyenne d'une population normalement distribuée
Cependant, je ne comprends pas pourquoi cette hypothèse est nécessaire.
Rien dans sa formule ne m'indique que les données doivent suivre une distribution normale:
J'ai regardé un peu sa définition mais je ne comprends pas pourquoi la condition est nécessaire.
Je pense qu'il peut y avoir une certaine confusion entre la statistique et sa formule, par rapport à la distribution et sa formule. Vous pouvez appliquer la formule de statistique t à n'importe quel ensemble de données et obtenir une "statistique t", mais cette statistique ne sera pas distribuée selon la distribution de Student-t à moins que les données proviennent d'une distribution normale (ou du moins, ne seront pas garanti; je suppose que les distributions non normales ne produiront pas de distribution de Student-t lorsque la formule de statistique t est appliquée, mais je ne suis pas certain de cela). La raison en est simplement que la distribution de la statistique t est calculée à partir de la distribution des données qui l'ont générée, donc si vous avez une distribution sous-jacente différente, alors vous n'êtes pas assuré d'avoir la même distribution pour les statistiques dérivées.
la source