La formule de dans un test d'hypothèse est donnée par:
Lorsque augmente, la valeur augmente selon la formule ci-dessus. Mais pourquoi la valeur critique diminue- mesure que (qui est une fonction de ) augmente?
La formule de dans un test d'hypothèse est donnée par:
Lorsque augmente, la valeur augmente selon la formule ci-dessus. Mais pourquoi la valeur critique diminue- mesure que (qui est une fonction de ) augmente?
Ce sont deux phénomènes différents:
-statistique
En maintenant tout le reste constant, si augmente, la valeur doit augmenter comme une simple question d'arithmétique. Considérez la fraction dans le dénominateur, , si devient plus grand, alors deviendra également plus grand (quoique plus lentement), car la racine carrée est une transformation monotone. Puisque la racine carrée de est le dénominateur de cette fraction, à mesure qu'elle grandit, la fraction deviendra plus petite. Cependant, cette fraction est à son tour un dénominateur. En conséquence, à mesure que ce dénominateur devient plus petit, la deuxième fraction grossit. Ainsi, la valeur augmentera à mesure que augmentera . (En supposant, encore une fois, que et restent les mêmes.)
Qu'est-ce que cela signifie conceptuellement? Eh bien, plus nous avons de données / plus la taille de l'échantillon se rapproche de la taille de la population, moins la moyenne de l'échantillon aura tendance à différer de la moyenne de la population en raison d'une erreur d'échantillonnage (cf., la loi des grands nombres ). Avec une petite population finie, c'est facile à voir, mais bien que cela ne soit pas aussi intuitif, il en va de même si la population est infinie. Étant donné que la moyenne de l'échantillon () ne devrait pas fluctuer très loin de la valeur de référence (nulle), nous pouvons être plus confiants que la distance observée de la moyenne de l'échantillon par rapport au nul est parce que la valeur nulle n'est pas réellement la moyenne de la population à partir de laquelle l'échantillon a été tiré . Plus précisément, il devient de moins en moins probable d'avoir trouvé une moyenne d'échantillon aussi loin ou plus loin de la valeur nulle, si la valeur nulle était vraiment la moyenne de la population dont l'échantillon a été tiré.
-distribution
Lorsque vous regardez une table (par exemple, au dos d'un livre de statistiques), ce que vous regardez réellement est un tableau de valeurs critiques . C'est-à-dire, la valeur que la statistique observée doit être supérieure à pour que le test soit «significatif» à cet alpha. (En règle générale, ceux-ci sont répertoriés pour un petit nombre d'alphas possibles: .) Je soupçonne que si vous regardez attentivement ces tableaux, ils sont en fait penser en termes de degrés de liberté associés à la statistique en question. Notez que les degrés de liberté pour la statistique est une fonction de , étantpour un test deux groupes , ou pour un test un groupe (votre exemple semble être le dernier). Cela a à voir avec le fait que la distribution convergera vers une distribution normale standard lorsque les degrés de liberté approchent de l'infini.
La façon de comprendre cela conceptuellement est de réfléchir à la raison pour laquelle vous devez utiliser la distribution en premier lieu. Vous savez quelle est la valeur moyenne de référence qui vous intéresse et la moyenne de l'échantillon que vous avez observée. Si la population à partir de laquelle les échantillons ont été prélevés était normalement distribuée (ce que les gens supposent souvent implicitement), alors nous savons que la distribution d'échantillonnage de la moyenne sera également distribuée normalement. Alors, pourquoi s'embêter avec la distribution ? La réponse est que vous ne savez pas quel est l'écart-type de la population. (Si nous étions sûrs, nous utiliserions vraiment la distribution normale, c'est-à-dire le test au lieu du test .) Nous utilisons donc notre exemple d'écart-type, , comme proxy pour la valeur de population inconnue. Cependant, plus nous avons de données, plus nous pouvons être sûrs que est en fait approximativement la bonne valeur. Comme s'approche de la taille de la population (et / ou de l'infini), nous pouvons être sûrs que en fait exactement la bonne valeur. Ainsi, la distribution devient la distribution normale .
Eh bien, la réponse courte est que c'est ce qui tombe du calcul. La réponse longue serait de faire le calcul . Au lieu de cela, j'essaierai de reformuler l'explication de Gung selon laquelle ce sont deux choses différentes (bien que liées).3
Vous avez collecté un échantillon qui est normalement distribué avec une variance inconnue et vous voulez savoir si sa moyenne est différente d'une valeur spécifiée . Pour ce faire, vous devez calculer une valeur qui représente la «différence» de vos observations avec l'hypothèse que . Ainsi, la formule de la statistique vous avez présentée. La façon la plus intuitive de penser pourquoi cela augmente avec est probablement que vous avez plus de "confiance" que les choses sont différentes lorsque vous avez plus d'échantillons.X1...Xn 4 μ x¯=μ t 1 n
En poursuivant , cette valeur suit une distribution avec degrés de liberté. La façon de penser à cela est que la distribution est légèrement différente en fonction de la taille de votre échantillon. Vous pouvez voir des graphiques de cette distribution avec 2, 3, 5 et 20 df ci-dessous. Vous remarquerez qu'un df plus élevé a plus de masse au centre et moins dans la queue de la distribution (je n'ai aucun raisonnement intuitif pour expliquer pourquoi les distributions se comportent de cette façon, désolé). Le critiquet 2 n−1 t t -value est l'emplacement x où la zone sous la courbe est égale à une valeur quelque peu arbitraire de votre choix (traditionnellement 0,05). Ces valeurs sont marquées sur le graphique comme des points. Ainsi, pour la courbe verte (df = 5), la zone sous la courbe à gauche du point vert gauche = 0,025 et la zone sous la courbe à droite du point vert droit = 0,025, pour un total de 0,05.
C'est pourquoi les valeurs critiques diminuent avec l'augmentation des degrés de liberté - à mesure que df augmente, les valeurs critiques doivent se rapprocher de zéro pour garder la même zone sous la courbe. Et comme Gung l'a mentionné, lorsque df va vers , la courbe et les valeurs critiques approcheront celles d'une distribution normale standard.t ∞
Alors maintenant, vous avez votre valeur critique et votre statistique , et pouvez effectuer le test . Si votre statistique est supérieure à la valeur critique, vous pouvez alors déclarer que si était vraiment vrai, alors vous auriez observé votre échantillon moins de 5% (ou quel que soit le pourcentage arbitraire que vous avez choisi pour calculer la valeur critique pour) du temps.t t t x¯=μ
la source