La distribution de vos données n'a pas besoin d'être normale, c'est la distribution d'échantillonnage qui doit être presque normale. Si la taille de votre échantillon est suffisamment grande, la distribution d'échantillonnage des moyennes de Landau Distribution devrait être presque normale, en raison du théorème de la limite centrale .
Cela signifie donc que vous devriez pouvoir utiliser t-test en toute sécurité avec vos données.
Exemple
Prenons cet exemple: supposons que nous ayons une population avec une distribution Lognormale avec mu = 0 et sd = 0,5 (cela ressemble un peu à Landau)
Nous échantillonnons donc 30 observations 5000 fois à partir de cette distribution en calculant à chaque fois la moyenne de l'échantillon
Et c'est ce que nous obtenons
Ça a l'air tout à fait normal, non? Si nous augmentons la taille de l'échantillon, c'est encore plus apparent
Code R
x = seq(0, 4, 0.05)
y = dlnorm(x, mean=0, sd=0.5)
plot(x, y, type='l', bty='n')
n = 30
m = 1000
set.seed(0)
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 30')
x = seq(0.5, 1.5, 0.01)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
n = 300
samp = rep(NA, m)
for (i in 1:m) {
samp[i] = mean(rlnorm(n, mean=0, sd=0.5))
}
hist(samp, col='orange', probability=T, breaks=25, main='sample size = 300')
x = seq(1, 1.25, 0.005)
lines(x, dnorm(x, mean=mean(samp), sd=sd(samp)))
Fondamentalement, un test t indépendant ou un test t à 2 échantillons est utilisé pour vérifier si les moyennes des deux échantillons sont significativement différentes. Ou, pour le dire autrement, s'il y a une différence significative entre les moyennes des deux échantillons.
Maintenant, les moyennes de ces 2 échantillons sont deux statistiques, qui selon CLT, ont une distribution normale, si suffisamment d'échantillons sont fournis. Notez que CLT fonctionne quelle que soit la distribution à partir de laquelle la statistique moyenne est construite.
Normalement, on peut utiliser un test z, mais si les variances sont estimées à partir de l'échantillon (car il est inconnu), une incertitude supplémentaire est introduite, qui est incorporée dans la distribution t. C'est pourquoi le test t à 2 échantillons s'applique ici.
la source