Étant donné une taille d'échantillon suffisamment grande, un test montrera toujours un résultat significatif, sauf si la taille réelle de l'effet est exactement nulle. Pourquoi?

21

Je suis curieux d'une affirmation faite dans l'article de Wikipedia sur la taille de l'effet . Plus précisément:

[...] une comparaison statistique non nulle montrera toujours des résultats statistiquement significatifs à moins que la taille de l'effet de population soit exactement nulle

Je ne suis pas sûr de ce que cela signifie / implique, sans parler d'un argument pour le sauvegarder. Je suppose qu'après tout, un effet est une statistique, c'est-à-dire une valeur calculée à partir d'un échantillon, avec sa propre distribution. Est-ce à dire que les effets ne sont jamais dus à une variation aléatoire (ce que je comprends que cela signifie ne pas être significatif)? Considérons-nous alors simplement si l'effet est suffisamment fort - ayant une valeur absolue élevée?

Je considère l'effet que je connais le mieux: le coefficient de corrélation de Pearson r semble contredire cela. Pourquoi un serait-il statistiquement significatif? Si est petit, notre droite de régression r y = a x + b = r ( s yrr

y=ax+b=r(sysx)=ϵx+b

Pour small, proche de 0, un test F contiendra probablement un intervalle de confiance contenant 0 pour la pente. N'est-ce pas un contre-exemple?ϵ

gary
la source
10
Astuce: la clause avant la partie que vous avez citée est essentielle. " Compte tenu d'une taille d'échantillon suffisamment grande , une comparaison statistique non nulle montrera toujours des résultats statistiquement significatifs à moins que la taille de l'effet de population ne soit exactement nulle ..."
Kodiologue
@ Kodiologist: Mais, dans mon exemple, cela impliquerait-il que si la taille de l'échantillon était plus grande, alors r lui-même serait également plus grand, ou, au moins, l'expression serait plus grande si la taille de l'échantillon était plus grande? Je ne le vois pas. r(sy/sx)
gary
5
Si ce n'était pas vrai, ce serait une faille dans la méthode statistique. Si , une certaine taille d'échantillon est sûrement suffisamment grande pour détecter la différence. μ>μ0
John Coleman

Réponses:

26

À titre d'exemple simple, supposons que j'évalue votre taille en utilisant un certain mumbo statistique.

Vous avez toujours déclaré aux autres que vous mesuriez 177 cm (environ 5 pi 10 po).

Si je testais cette hypothèse (que votre taille est égale à 177 cm, ), et que je pourrais réduire suffisamment l'erreur dans ma mesure, alors je pourrais prouver que vous n'êtes pas en fait 177 cm. Finalement, si j'estime votre hauteur à suffisamment de décimales, vous dévieriez presque sûrement de la hauteur indiquée de 177,00000000 cm. Vous mesurez peut-être 177,02 cm; Je n'ai qu'à réduire mon erreur à moins de 0,02 pour découvrir que vous n'êtes pas à 177 cm.h=177

Comment réduire l'erreur dans les statistiques? Obtenez un plus grand échantillon. Si vous obtenez un échantillon suffisamment grand, l'erreur devient si petite que vous pouvez détecter les écarts les plus minuscules par rapport à l'hypothèse nulle.

Underminer
la source
2
Il s'agit d'une explication très claire et concise. Il est probablement plus utile de comprendre pourquoi cela se produit que les réponses plus mathématiques. Bien joué.
Personne le
1
Bien expliqué, mais je pense qu'il est également important de considérer qu'il existe des cas où la valeur indiquée est vraiment exacte. Par exemple, en mettant de côté des choses étranges qui se produisent dans la théorie des cordes, etc., une mesure du nombre de dimensions spatiales de notre univers (ce qui peut être fait) va donner 3, et peu importe la précision avec laquelle vous faites cette mesure, vous ne jamais trouver systématiquement des écarts statistiquement significatifs par rapport à 3. Bien sûr, si vous continuez à tester suffisamment de fois, vous obtiendrez des écarts simplement en raison de la variance, mais c'est un problème différent.
David Z
Probablement une question naïve mais si je prétends que je mesure 177 cm, le concept de chiffres significatifs ne signifie-t-il pas que je dis seulement que je suis entre 176,5 et 177,5? La réponse semble donner un bon concept théorique, c'est vrai, mais n'est-elle pas basée sur une fausse prémisse? Qu'est-ce que je rate?
JimLohse
Dans ce cas, la hauteur déclarée de 177 est analogue à l'hypothèse nulle en statistique. Dans les tests d'hypothèse traditionnels pour l'égalité, vous faites une déclaration d'égalité (par exemple ). Le fait est que, quelle que soit votre taille, je peux la réfuter en réduisant l'erreur à moins que l'hypothèse nulle ne soit EXACTEMENT vraie. J'ai utilisé la hauteur comme exemple facile à comprendre, mais ce concept est le même dans d'autres domaines (la substance x ne provoque pas de cancer, cette pièce est juste, etc.)μ=177
Underminer
13

Comme le souligne @Kodiologist, il s'agit vraiment de ce qui se passe pour les grands échantillons. Pour les petits échantillons, il n'y a aucune raison pour que vous ne puissiez pas avoir de faux positifs ou de faux négatifs.

Je pense que le test rend le cas asymptotique plus clair. Supposons que nous ayons X 1 , , X n iid N ( μ , 1 ) et que nous voulons tester H 0 : μ = 0 vs H A : μ 0 . Notre statistique de test est Z n = ˉ X n - 0zX1,,XniidN(μ,1)H0:μ=0HA:μ0

Zn=X¯n01/n=nX¯n.

doncZn=X¯nN(μ,1n). Nous nous intéressons àP(|Zn|α). P(|Zn|α)=P(Zn-α)+P(Znα)=1+Φ(-α-μZn=nX¯nN(μn,1)P(|Zn|α)

P(|Zn|α)=P(Znα)+P(Znα)
SoitYN(0,1)notre variable de référence. SousH0μ=0, nous avons doncP(|Zn|α)=1-P(-αYα)afin que nous puissions choisirαpour contrôler notre taux d'erreur de type I comme souhaité. Mais sousHAμ
=1+Φ(αμn)Φ(αμn).
YN(0,1)H0 μ=0P(|Zn|α)=1-P(-αOuiα)αHUNE donc P(|Zn|α)1+Φ(±)-Φ(±)=1 donc avec probabilité 1 nous rejetteronsH0siμ0(le±est dans le cas deμ<0, mais dans les deux cas, les infinis ont le même signe).μn0
P(|Zn|α)1+Φ(±)-Φ(±)=1
H0μ0±μ<0

μ 0μ01nHUNE1n

H0:ρ=ρ0HUNE:ρρ01

jld
la source
1
Nitpick: si , alors divergera vers au lieu de , non? μ<0 - Zn
Kodiologue
1
Bien, mais ce qui se passe dans le cas devrait dépendre du fait que "plus rapide" que , non? Je ne sais même pas comment vous «comparer» le taux de convergence pour une séquence de variables aléatoires et une séquence d'entiers - probablement le théorème de Slutsky ou quelque chose comme ça devrait être appliqué. ˉ Xp 0 μ=0X¯p0n
DeltaIV
1
@DeltaIV, à droite, si le taux de convergence était différent, il faudrait une mise à l'échelle différente pour obtenir une distribution nulle non dégénérée. Mais pour le présent exemple, root-n est le bon taux.
Christoph Hanck
1
0nX¯ converge vers une normale standard par le CLT, pas vers . 0
gars le
7

On peut soutenir que ce qu’ils ont dit est faux, si ce n’est pour une autre raison que leur utilisation de «cela arrive toujours ».

Je ne sais pas si c'est le noeud de la confusion que vous rencontrez , mais je le posterai parce que je pense que beaucoup le font et seront confus par ceci:

" se produit si est suffisamment grand"n Xn ne signifie PAS "Si , alors ".n > n 0 Xn>n0X

Cela signifie plutôt .limnPr(X)=1

Ce qu'ils disent littéralement se traduit par ce qui suit:

Pour toute taille d'échantillon supérieure à une taille minimale , le résultat de tout test non nul est garanti significatif si la taille réelle de l'effet n'est pas exactement nulle.n 0nn0

Ce qu'ils essayaient de dire, cependant, est le suivant:

Pour tout niveau de signification, à mesure que la taille de l'échantillon augmente, la probabilité qu'un test non nul donne un résultat significatif approche 1 si la taille réelle de l'effet n'est pas exactement nulle.

Il existe ici des différences cruciales:

  • Il n'y a aucune garantie. Vous êtes plus susceptible d'obtenir un résultat significatif avec un échantillon plus grand. Maintenant, ils pourraient esquiver une partie du blâme ici, car jusqu'à présent, ce n'est qu'un problème de terminologie. Dans un contexte probabiliste, il est entendu que l'expression "si n est assez grand alors X" peut également être interprétée comme signifiant "X devient de plus en plus vraisemblable à mesure que n grandit" .
    Cependant, cette interprétation sort de ma fenêtre dès qu'ils disent que cela se produit "toujours". La terminologie appropriée ici aurait été de dire que cela se produit " avec une forte probabilité " 1 .

  • Ceci est secondaire, mais leur formulation est source de confusion - cela semble impliquer que vous fixez la taille de l'échantillon pour qu'elle soit «suffisamment grande», puis l'énoncé reste vrai pour tout niveau de signification. Cependant, quelle que soit l'énoncé mathématique précis, cela n'a pas vraiment de sens: vous fixez toujours d'abord le niveau de signification, puis vous choisissez la taille de l'échantillon pour être suffisamment grande.
    Mais la suggestion selon laquelle cela peut être en quelque sorte l'inverse met malheureusement l' accent sur l' interprétation de "assez grand", ce qui aggrave encore le problème ci-dessus.n>n0

Mais une fois que vous comprenez la littérature, vous obtenez ce qu'ils essaient de dire.

(Note latérale: incidemment, c'est exactement l'un des problèmes constants que beaucoup de gens ont avec Wikipedia. Fréquemment, il n'est possible de comprendre ce qu'ils disent que si vous connaissez déjà le matériel, donc c'est seulement bon pour une référence ou comme un rappel , pas comme matériel d'auto-apprentissage.)

1 Pour les autres pédants (salut!), Oui, le terme a une signification plus spécifique que celle à laquelle je suis lié. Le terme technique le plus vague que nous voulons probablement ici est "asymptotiquement presque sûrement" . Voyez ici .

Mehrdad
la source
"la probabilité qu'un test non nul donne un résultat significatif approche 0 si la taille réelle de l'effet est exactement nulle" peut ne pas être tout à fait correcte: si le test a un niveau de signification alors la probabilité de produire un résultat significatif peut être ou à peu près à toutes les tailles d'échantillonααα
Henry
@Henry: Oh shoot, tu as raison! Je l'ai écrit si vite que je n'ai pas arrêté de penser. Merci beaucoup! Je l'ai corrigé. :)
Mehrdad
3

Mon exemple préféré est le nombre de doigts par sexe. La grande majorité des gens ont 10 doigts. Certains ont perdu des doigts à cause d'accidents. Certains ont des doigts supplémentaires.

Je ne sais pas si les hommes ont plus de doigts que les femmes (en moyenne). Toutes les preuves facilement disponibles suggèrent que les hommes et les femmes ont tous deux 10 doigts.

Cependant, je suis très confiant que si je faisais un recensement de tous les hommes et de toutes les femmes, j'apprendrais qu'un sexe a plus de doigts (en moyenne) que l'autre.

Emory
la source