Qu'est-ce qui est exactement distribué selon la distribution t?

8

J'essaie de comprendre l'idée derrière la t-distribution. Voici les étapes que j'ai comprises jusqu'à présent:

  1. Nous utilisons un échantillon de N éléments pour estimer la moyenne de la population. Plus en détail, nous utilisons la moyenne de l'échantillon comme estimation de la moyenne de la population.
  2. Nous voulons savoir à quel point notre estimation est proche de la valeur réelle. Ou, plus précisément, nous voulons savoir quelle devrait être la taille de l'intervalle autour de la moyenne de l'échantillon afin de pouvoir dire que la moyenne de la population se situe dans cet intervalle avec une certaine probabilité.
  3. Pour répondre à cette question, nous supposons que les valeurs dans la population sont distribuées selon une distribution normale avec une moyenne et un écart type connus.
  4. Ayant les paramètres de la distribution des valeurs dans la population, nous pouvons calculer la distribution de la moyenne de l'échantillon en fonction de la distribution de la population et de la taille de l'échantillon.
  5. Nous pouvons montrer que la distribution de la moyenne de l'échantillon est également une distribution normale avec la même moyenne que la distribution de la population et l'écart-type donné par la formule suivante , où est la taille de l'échantillon .s=σ/NN
  6. En ayant la distribution de la moyenne de l'échantillon, nous pouvons facilement calculer la probabilité que la moyenne de l'échantillon soit séparée de la moyenne réelle par X. Ou, en d'autres termes, nous pouvons calculer la probabilité que la moyenne de la population se situe dans un intervalle donné autour de la moyenne de l'échantillon .
  7. C'est presque ce dont nous avons besoin. Le seul problème est que, dans des situations réelles, nous ne connaissons souvent pas l'écart-type de la distribution de la population (et c'est le paramètre qui détermine la façon dont notre moyenne d'échantillon est distribuée autour de la moyenne de la population).
  8. Ce que nous pouvons faire, c'est remplacer l'écart type de la population par l'écart type de l'échantillon. En d'autres termes, nous remplaçons le paramètre exact et inconnu par notre estimation approximative de celui-ci.

C'est donc là que je suis jusqu'à présent. En remplaçant la MST de la population par l'échantillon de MST, nous aggravons notre estimation de la distribution de la moyenne de l'échantillon. Et pour "compenser" cette "mauvaise" valeur des paramètres de la distribution, on change la forme de la distribution (on dit que ce n'est plus une distribution normale, c'est une t-distribution). Mais qu'est-ce qui est distribué exactement selon la distribution t? Lorsque nous connaissons la MST de la population, nous savons comment la moyenne de l'échantillon est répartie autour de la moyenne de la population. Maintenant, nous ne connaissons pas la MST de la population, mais cela ne change pas la distribution de la moyenne de l'échantillon autour de la moyenne de la population!

romain
la source

Réponses:

7

Vous êtes très proche ...

Si est un échantillon d'observations normales iid avec la moyenne et la variance , alors la moyenne standardisée est standard normal. Maintenant, comme vous l'avez souligné, en réalité nous ne connaissons jamais . Nous remplaçons donc par son estimation d'échantillon et considérons plutôt la moyenne "studentisée" . Cette variable aléatoire est légèrement différente de celle ci-dessus. Par conséquent, sa distribution est légèrement non normale, à savoir Student avec degrés de liberté.X1,,Xnμσ2

X¯nμσ/n
σσS
T=X¯nμS/n
n1

Pour pas trop petit , est proche de (c'est la cohérence de l'écart-type de l'échantillon). Ensuite, la moyenne standardisée est très proche de celle étudiée. Cela explique pourquoi la distribution de Student avec plusieurs degrés de liberté ressemble à la normale.nSσ

La moyenne étudiée est le point de départ pour dériver des intervalles de confiance et des tests d'hypothèse pour .μ

Exemple : Pour trouver une limite de confiance inférieure à 95% pour , vous résolvez l'équation suivante pour . Pour ce faire, vous essayez de modifier l'équation de la probabilité pour que la moyenne studentisée apparaisse (essayez de comprendre les sous-étapes): Ensuite, vous utilisez le fait que a une distribution de Student avec df pour se débarrasser de la probabilité: où est le quantile correspondant à 95%. Ainsi, X¯ncμ

P(X¯ncμ)=0.95
c
P(TcS/n)=0.95.
Tn1
cS/n=qt0.95;n1,
qt0.95;n1
c=Snqt0.95;n1
et la limite de confiance inférieure (célèbre) suit:
X¯nSnqt0.95;n1
Michael M
la source
Cela signifie qu'au lieu de parler de la moyenne d'échantillon ( X_n), nous parlons de «moyenne normalisée». Nous pouvons dire que la distribution de la moyenne standardisée est normale avec une moyenne nulle et des MST égales à 1. Non, nous avons défini une autre variable en remplaçant la population MST par l'échantillon STD et disons que cette nouvelle variable est distribuée selon la distribution t. D'ACCORD. La dernière chose que je ne comprends pas, c'est pourquoi nous ne remplaçons pas la moyenne de la population par la moyenne de l'échantillon. Si nous ne connaissons pas le sigma, nous ne connaissons probablement pas non plus le mu.
Roman
Nous faisons! Mais la plupart des questions intéressantes sur comme "dans quelle plage sera avec une grande certitude" (-> intervalle de confiance) ou "est vraiment différent de 0" (-> test d'hypothèse) sont répondues en utilisant le fait que le la moyenne studentisée suit une distribution des étudiants. Vous ne pouvez pas répondre à de telles questions uniquement en consultant le devis. μμμ
Michael M