J'essaie de comprendre l'idée derrière la t-distribution. Voici les étapes que j'ai comprises jusqu'à présent:
- Nous utilisons un échantillon de N éléments pour estimer la moyenne de la population. Plus en détail, nous utilisons la moyenne de l'échantillon comme estimation de la moyenne de la population.
- Nous voulons savoir à quel point notre estimation est proche de la valeur réelle. Ou, plus précisément, nous voulons savoir quelle devrait être la taille de l'intervalle autour de la moyenne de l'échantillon afin de pouvoir dire que la moyenne de la population se situe dans cet intervalle avec une certaine probabilité.
- Pour répondre à cette question, nous supposons que les valeurs dans la population sont distribuées selon une distribution normale avec une moyenne et un écart type connus.
- Ayant les paramètres de la distribution des valeurs dans la population, nous pouvons calculer la distribution de la moyenne de l'échantillon en fonction de la distribution de la population et de la taille de l'échantillon.
- Nous pouvons montrer que la distribution de la moyenne de l'échantillon est également une distribution normale avec la même moyenne que la distribution de la population et l'écart-type donné par la formule suivante , où est la taille de l'échantillon .
- En ayant la distribution de la moyenne de l'échantillon, nous pouvons facilement calculer la probabilité que la moyenne de l'échantillon soit séparée de la moyenne réelle par X. Ou, en d'autres termes, nous pouvons calculer la probabilité que la moyenne de la population se situe dans un intervalle donné autour de la moyenne de l'échantillon .
- C'est presque ce dont nous avons besoin. Le seul problème est que, dans des situations réelles, nous ne connaissons souvent pas l'écart-type de la distribution de la population (et c'est le paramètre qui détermine la façon dont notre moyenne d'échantillon est distribuée autour de la moyenne de la population).
- Ce que nous pouvons faire, c'est remplacer l'écart type de la population par l'écart type de l'échantillon. En d'autres termes, nous remplaçons le paramètre exact et inconnu par notre estimation approximative de celui-ci.
C'est donc là que je suis jusqu'à présent. En remplaçant la MST de la population par l'échantillon de MST, nous aggravons notre estimation de la distribution de la moyenne de l'échantillon. Et pour "compenser" cette "mauvaise" valeur des paramètres de la distribution, on change la forme de la distribution (on dit que ce n'est plus une distribution normale, c'est une t-distribution). Mais qu'est-ce qui est distribué exactement selon la distribution t? Lorsque nous connaissons la MST de la population, nous savons comment la moyenne de l'échantillon est répartie autour de la moyenne de la population. Maintenant, nous ne connaissons pas la MST de la population, mais cela ne change pas la distribution de la moyenne de l'échantillon autour de la moyenne de la population!
X_n
), nous parlons de «moyenne normalisée». Nous pouvons dire que la distribution de la moyenne standardisée est normale avec une moyenne nulle et des MST égales à 1. Non, nous avons défini une autre variable en remplaçant la population MST par l'échantillon STD et disons que cette nouvelle variable est distribuée selon la distribution t. D'ACCORD. La dernière chose que je ne comprends pas, c'est pourquoi nous ne remplaçons pas la moyenne de la population par la moyenne de l'échantillon. Si nous ne connaissons pas le sigma, nous ne connaissons probablement pas non plus le mu.