Pourquoi une statistique T a besoin des données pour suivre une distribution normale

11

Je regardais ce cahier et je suis perplexe par cette déclaration:

Lorsque nous parlons de normalité, nous voulons dire que les données devraient ressembler à une distribution normale. Ceci est important car plusieurs tests statistiques en dépendent (par exemple les statistiques t).

Je ne comprends pas pourquoi une statistique T a besoin des données pour suivre une distribution normale.

En effet, Wikipedia dit la même chose:

La distribution t de Student (ou simplement la distribution t) est tout membre d'une famille de distributions de probabilités continues qui se produit lors de l'estimation de la moyenne d'une population normalement distribuée

Cependant, je ne comprends pas pourquoi cette hypothèse est nécessaire.

Rien dans sa formule ne m'indique que les données doivent suivre une distribution normale:

entrez la description de l'image ici

J'ai regardé un peu sa définition mais je ne comprends pas pourquoi la condition est nécessaire.

octavian
la source

Réponses:

17

Les informations dont vous avez besoin se trouvent dans la section "Caractérisation" de la page Wiki . Une distribution avec degrés de liberté peut être définie comme la distribution de la variable aléatoire telle que où est une distribution normale standard variable aléatoire et est une variable aléatoire avec des degrés de liberté . De plus, et doivent être indépendants. Donc, étant donné tout et qui suivent la définition ci-dessus, vous pouvez alors arriver à une variable aléatoire qui a unν T T = ZtνTZ V χ 2 ν Z V Z V t

T=ZV/ν,
ZVχ2νZVZVt -distribution.

Maintenant, supposons est distribué selon une distribution . Soit une moyenne F F μX1,X2,,XnFFμ et la variance . Soit ˉ X la moyenne de l'échantillon et S 2 la variance de l'échantillon. Nous examinerons ensuite les formules:σ2X¯S2

X¯μS/n=X¯μσ/n(n1)S2(n1)σ2.

Si, désigne la distribution normale, alors ˉ XN ( μ , σ 2 / n ) , et donc ˉ X - μFX¯N(μ,σ2/n). De plus,(n-1)S2X¯-μσ/nN(0,1) parle théorème de Cochran. Enfin, par une application duthéorèmedeBasu, ˉ X etS2sont indépendants. Cela implique alors que la statistique résultante a unedistributiontavecn-1degrés de liberté.(n-1)S2σ2χn-12X¯S2tn-1

Si la distribution de données d'origine n'était pas normale, alors, la distribution exacte du numérateur et du dénominateur ne sera pas normale normale et χ 2 , respectivement, et donc les statistiques résultantes n'auront pas de distribution t .Fχ2t

Greenparker
la source
3
J'ai toujours trouvé assez intéressant la quantité de technologie mathématique qui entre dans ces résultats fondamentaux en statistiques mathématiques.
Matthew Drury
3
X¯Sχ2
2

Je pense qu'il peut y avoir une certaine confusion entre la statistique et sa formule, par rapport à la distribution et sa formule. Vous pouvez appliquer la formule de statistique t à n'importe quel ensemble de données et obtenir une "statistique t", mais cette statistique ne sera pas distribuée selon la distribution de Student-t à moins que les données proviennent d'une distribution normale (ou du moins, ne seront pas garanti; je suppose que les distributions non normales ne produiront pas de distribution de Student-t lorsque la formule de statistique t est appliquée, mais je ne suis pas certain de cela). La raison en est simplement que la distribution de la statistique t est calculée à partir de la distribution des données qui l'ont générée, donc si vous avez une distribution sous-jacente différente, alors vous n'êtes pas assuré d'avoir la même distribution pour les statistiques dérivées.

Accumulation
la source