Les grands ensembles de données sont-ils inappropriés pour les tests d'hypothèses?

129

Dans un article récent d' Amstat News , les auteurs (Mark van der Laan et Sherri Rose) ont déclaré: "Nous savons que pour des échantillons suffisamment grands, toute étude - y compris celles dans lesquelles l'hypothèse nulle de non-effet est vraie - déclarera une effet statistiquement significatif ".

Eh bien, moi, je ne le savais pas. Est-ce vrai? Cela signifie-t-il que le test d'hypothèse est sans valeur pour les grands ensembles de données?

hypothesis-testing sample-size dataset large-data Carlos Accioly
la source

10

+1: cette question expose généralement des points de vue intéressants.

user603

7

Vous trouverez plus de détails sur les grands ensembles de données à l' adresse stats.stackexchange.com/q/7815/919 . (

Ici, l'

1

fil connexe ?

Antoine

8

Si un grand échantillon qui vous fait penser les tests d'hypothèses était le mauvais outil, hypothèse alors le test ne répondait pas vraiment la bonne question à petits échantillons soit - qu'il était faux juste devenu plus évident à échantillons de grande taille, mais les mêmes considérations sont pertinentes . Si un résultat significatif avec une très petite taille d'effet vous fait dire "bon, ce n'est pas ce que je voulais, je voulais que ça me dise si c'était important", alors le test d'hypothèse était tout simplement le mauvais outil pour commencer. Il existe des outils plus adaptés (par exemple, intervalles de confiance, tests d'équivalence, etc.) pour ce type de problème.

Glen_b

91

Ce n'est pas vrai. Si l'hypothèse nulle est vraie, elle ne sera pas rejetée plus souvent pour les grands échantillons que pour les petits. Il existe un taux de rejet erroné qui est généralement réglé à 0,05 (alpha) mais il est indépendant de la taille de l'échantillon. Par conséquent, pris littéralement, la déclaration est fausse. Néanmoins, il est possible que dans certaines situations (même des champs entiers), toutes les valeurs nulles soient fausses. Par conséquent, elles seront toutes rejetées si N est suffisamment élevé. Mais est-ce une mauvaise chose?

Ce qui est vrai, c’est que des effets triviaux peu importants peuvent être considérés comme «significatifs» avec des échantillons de très grande taille. Cela ne veut pas dire que vous ne devriez pas avoir de telles tailles d'échantillons. Cela signifie que la façon dont vous interprétez votre résultat dépend de la taille de l'effet et de la sensibilité du test. Si vous avez une très petite taille d'effet et un test très sensible, vous devez reconnaître que la découverte statistiquement significative peut ne pas être significative ou utile.

Étant donné que certaines personnes ne croient pas qu'un test de l'hypothèse nulle, lorsque le zéro est vrai , a toujours un taux d'erreur égal au point de coupure sélectionné pour toute taille d'échantillon, voici une simulation simple pour Rprouver le point. Faites N aussi grand que vous le souhaitez et le taux d’erreurs de type I restera constant.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

John
la source

8

+1: en effet, les trois réponses ici sont logiquement cohérentes les unes avec les autres.

user603

1

Enfin, j’ai trouvé un désaccord de quelque chose qu’un professeur (non statistique) m’a dit il y a longtemps.

Jase

1

@ Sympa, non. Le fait que SE diminue à mesure que N augmente ne signifie pas que vous trouverez toujours un effet avec un grand N (voir simulation). Gardez à l'esprit qu'au fur et à mesure que la SE diminue, la qualité de l'estimation de l'effet augmente. S'il n'y a pas d'effet sur la population, il est beaucoup plus probable d'être proche de 0 et de ne montrer aucune différence. En fait, la distribution des valeurs p est plate quelle que soit la taille de l'échantillon chaque fois que la valeur null est vraie (écrivez votre propre simulation pour cela). Il n'y a pas de contradiction dans la réponse.

John

4

Alors vous auriez tort. Vous voudrez peut-être envisager de lire les autres réponses ici aussi. Étant donné que vous ne pouvez pas suivre la relation entre la simulation et les tests d’hypothèses, je suppose que je ne peux que souligner votre affirmation principale selon laquelle une erreur type diminue, t augmente et p diminue. Cela n’est vrai que si l’effet reste constant. Mais l'effet est un échantillon aléatoire et lorsque l'effet réel est 0, alors que N augmente, l'effet observé tend à diminuer. Par conséquent, même si N augmente, SE diminue, les valeurs de t n'augmenteront pas car le numérateur de la valeur de t sera également inférieur.

Jean

1

Le fait que rnorm ne puisse pas produire de nombre irrationnel est sans importance dans cet exemple. Même s'il ne tire pas exactement de la normale entre 0 et 1, la différence n'est pas normale pour les deux échantillons. Le taux d'erreur de type I est peut-être légèrement inférieur à 0,05, mais il devrait rester constant indépendamment de N. Et ce n'est pas le cas de toutes les simulations, car j'aurais pu choisir une discrète où ce n'est pas un problème. (Si vous vouliez vraiment soulever un problème ésotérique, vous devriez alors vous adresser au pseudo-aléa.)

John

31

Je suis d’accord avec les réponses qui ont été données, mais j’aimerais ajouter que la question pourrait peut-être être redirigée. Tester une hypothèse ou non est une question de recherche qui devrait, du moins en général, être indépendante de la quantité de données dont on dispose. Si vous avez vraiment besoin de tester une hypothèse, faites-le, et n'ayez pas peur de votre capacité à détecter de petits effets. Mais demandez-vous d’abord si cela fait partie de vos objectifs de recherche.

Maintenant, pour quelques quolibets:

Certaines hypothèses nulles sont absolument vraies par construction. Lorsque vous testez un générateur de nombres pseudo-aléatoires pour l'équidistribution, par exemple, et que PRG est réellement équidistribué (ce qui serait un théorème mathématique), le zéro reste valide. La plupart d'entre vous peuvent probablement penser à des exemples plus intéressants du monde réel issus de la randomisation dans des expériences où le traitement n'a aucun effet. (Je donnerais toute la littérature sur esp comme exemple. ;-)
Dans une situation où un "simple" zéro est testé par rapport à une alternative "composée", comme dans les tests t ou z classiques, il faut généralement une taille d'échantillon proportionnelle à pour détecter une taille d'effet de . Toute étude comporte une limite supérieure pratique, ce qui implique qu'il existe une limite inférieure pratique pour une taille d'effet détectable. Donc, théoriquement, der et Laan et Rose sont corrects, mais nous devons appliquer avec soin leur conclusion. $1/\epsilon^2$ $\epsilon$

whuber
la source

Tout cela n’est-il pas une question d’erreur de type I par rapport à une erreur de type II (ou puissance)? Si on fixe la probabilité d'erreur de type I ( ) à 0,05, alors, évidemment (sauf dans le cas discret), il sera de 0,05, que l'échantillon soit grand ou non. Mais pour une probabilité d'erreur de type I donnée, 0,05, par exemple, la puissance, ou la probabilité que vous détectiez l'effet quand il est présent, est plus grande pour les échantillons de grande taille.

α

$\alpha$

@fcop Vos commentaires, bien que corrects, semblent viser d'autres réponses. Ils manquent le but de celui-ci, qui est de suggérer que toutes les analyses statistiques ne doivent pas nécessairement être des tests d'hypothèses. Les erreurs de types I et II n’ont de sens que lors de la réalisation de tests d’hypothèses formelles.

whuber

le PO fait référence à une déclaration: '' Nous savons que pour des échantillons suffisamment grands, chaque étude, y compris celles dans lesquelles l'hypothèse nulle de non-effet est vraie, déclarera un effet statistiquement significatif. '' Donc, si vous testez, par exemple, contre puis dans les grands échantillons, la puissance est si élevée que vous «détectez» même de petites déviations par rapport à 1. Je pense donc que leur déclaration n'est pas correcte, mais que la puissance dans les grands échantillons vous permet détecter de très petites différences.

H_{0} : μ = 1

$H_0: \mu=1$

H_{1} : μ \neq 1

$H_1: \mu \ne 1$

@fcop Merci pour votre explication. Je suis d’accord avec votre raisonnement: lorsque la valeur NULL est vraie, alors même les plus grandes études trouveront un effet significatif avec une chance au plus égale à la taille de leur test - c’est-à-dire qu’elles auront peu de chance de trouver un effet significatif.

whuber

19

Les tests d'hypothèses se concentraient traditionnellement sur les valeurs de p pour en déduire une signification statistique lorsque alpha est inférieur à 0,05, ce qui constitue une faiblesse majeure. Et c’est-à-dire qu’avec une taille d’échantillon suffisamment grande, toute expérience peut éventuellement rejeter l’hypothèse nulle et détecter des différences négligeables qui se révèlent statistiquement significatives.

C'est la raison pour laquelle les sociétés pharmaceutiques structurent les essais cliniques pour obtenir l'approbation de la FDA avec de très grands échantillons. Le grand échantillon réduira l'erreur type à près de zéro. Cela, à son tour, augmentera artificiellement le t stat et abaissera d'autant la valeur p à près de 0%.

Je pense que dans les communautés scientifiques qui ne sont pas corrompues par des incitations économiques et par conséquent, les tests d'hypothèses de conflit d'intérêts s'éloignent de toute mesure de valeur p au profit d'une mesure de taille d'effet. En effet, l’unité de distance statistique ou de différenciation dans l’analyse de la taille de l’effet est l’écart type au lieu de l’erreur standard. De plus, l'écart type est complètement indépendant de la taille de l'échantillon. L’erreur type, par contre, dépend totalement de la taille de l’échantillon.

Donc, quiconque est sceptique quant au fait que les tests d'hypothèses atteignent des résultats statistiquement significatifs basés sur de grands échantillons et des méthodologies liées à la valeur p est juste d'être sceptique. Ils doivent réexécuter l'analyse en utilisant les mêmes données mais en utilisant à la place des tests statistiques Effect Size. Et puis observez si la taille d'effet est considérée comme matérielle ou non. Ce faisant, vous pourrez constater qu’un tas de différences statistiquement significatives sont associées à la taille de l’effet qui sont immatérielles. C'est ce que les chercheurs d'essais cliniques pensent parfois lorsqu'un résultat est statistiquement significatif mais non "cliniquement significatif". Ils entendent par là qu'un traitement peut être meilleur qu'un placebo, mais la différence est tellement marginale que cela ne ferait aucune différence pour le patient dans un contexte clinique.

Sympa
la source

1

Le grand échantillon d'une personne est le petit échantillon d'une autre. :)

Itérateur

3

Vous n'avez pas posé la mauvaise question alors? Peut-être que le processus d'approbation de la FDA devrait spécifier un gain plus important par rapport au placebo (peut-être lié aux coûts du médicament, y compris ses effets indésirables) au lieu de simplement exiger une signification statistique? Parce qu'il peut très bien y avoir une différence réelle, même si elle est minime, et cette différence s'est révélée être statistiquement significative, aussi petite qu'elle soit.

Emil Vikström

La FDA n'exige pas une "signification statistique". Ce serait absurde. Tout le monde dans l'industrie comprend ce que signifie "cliniquement significatif". La FDA évalue les preuves statistiques de l' efficacité du médicament, mesurées par ses paramètres cliniques, tels que la rémission, par rapport aux préoccupations en matière de santé et de sécurité. Veuillez lire les directives de la FDA avant de faire des assertions sans fondement.

Qwr

15

Un test d'hypothèse (fréquentiste), précisément, aborde la question de la probabilité des données observées ou serait plus vraisemblable, en supposant que l'hypothèse nulle soit vraie. Cette interprétation est indifférente à la taille de l'échantillon. Cette interprétation est valable que l’échantillon soit de taille 5 ou 1 000 000.

Une mise en garde importante est que le test ne concerne que les erreurs d'échantillonnage. Toute erreur de mesure, problème d'échantillonnage, couverture, erreur de saisie, etc. n'entre pas dans le champ d'erreur d'échantillonnage. À mesure que la taille de l'échantillon augmente, les erreurs non dues à l'échantillonnage deviennent plus influentes, car de petits écarts peuvent produire des écarts importants par rapport au modèle d'échantillonnage aléatoire. En conséquence, les tests de signification deviennent moins utiles.

Ce n'est en aucun cas une inculpation de test de signification. Cependant, nous devons faire attention à nos attributions. Un résultat peut être statistiquement significatif. Cependant, nous devons être prudents quant à la manière dont nous attribuons des attributions lorsque la taille de l'échantillon est grande. Cette différence est-elle due à notre processus de génération hypothétique par rapport à une erreur d'échantillonnage ou est-ce le résultat de plusieurs erreurs possibles non dues à l'échantillonnage qui pourraient influencer la statistique de test (que la statistique ne prend pas en compte)?

Une autre considération avec les grands échantillons est la signification pratique d'un résultat. Un test significatif pourrait suggérer (même si nous pouvons exclure les erreurs non dues à l'échantillonnage) une différence triviale au sens pratique. Même si ce résultat est improbable compte tenu du modèle d'échantillonnage, est-il significatif dans le contexte du problème? Avec un échantillon suffisamment important, une différence de quelques dollars peut suffire à produire un résultat statistiquement significatif lorsque vous comparez le revenu de deux groupes. Est-ce important dans un sens significatif? La signification statistique ne remplace pas le bon jugement et la connaissance de la matière.

En passant, le null n'est ni vrai ni faux. C'est un modèle. C'est une hypothèse. Nous supposons que la valeur NULL est vraie et évaluons notre échantillon en fonction de cette hypothèse. Si notre échantillon était peu probable compte tenu de cette hypothèse, nous accordons plus de confiance à notre alternative. S'interroger sur le point de savoir si un zéro est toujours vrai dans la pratique est une incompréhension de la logique du test de signification.

Brett
la source

3

Cela conforte l'argument en faveur d'une complexité accrue du modèle à mesure que la taille des échantillons devient importante - dans l'échantillon volumineux, l'erreur d'échantillonnage n'est plus la source dominante d'incertitude. Bien entendu, cela n’a «un sens» que dans un cadre bayésien, ce qui permet d’autres sources d’incertitude en plus des erreurs d’échantillonnage.

probabilitéislogic

13

Un point simple qui n’a pas été dit directement dans une autre réponse est qu’il n’est tout simplement pas vrai que "toutes les hypothèses nulles sont fausses".

La simple hypothèse qu'une pièce physique a une probabilité de têtes supérieure à 0,5, ok, c'est faux.

Mais l'hypothèse composée selon laquelle une pièce physique a une probabilité de têtes supérieure à 0,499 et inférieure à 0,501 peut être vraie. Si c'est le cas, aucun test d'hypothèse - quel que soit le nombre de lancers de pièces - ne pourra rejeter cette hypothèse avec une probabilité supérieure à (le test est lié à de faux positifs). $\alpha$

Pour cette raison, l'industrie médicale teste constamment des hypothèses de "non infériorité" - par exemple, un nouveau médicament anticancéreux doit montrer que la probabilité de survie sans progression de ses patients n'est pas inférieure de 3 points de pourcentage à celle d'un médicament existant. , à un certain niveau de confiance (le , généralement 0,05). $\alpha$

Keith Winstein
la source

9

Dans un certain sens, beaucoup d' hypothèses nulles sont [toujours] fausses (le groupe de personnes vivant dans des maisons avec des nombres impairs ne gagne jamais exactement la même chose que le groupe de personnes vivant dans des maisons avec des nombres pairs).

Dans le cadre fréquentiste, la question qui se pose est de savoir si la différence de revenu entre les deux groupes est supérieure à (où est le quantile de la distribution de la statistique de test sous la valeur nulle). De toute évidence, pour grandir sans limites, ce groupe devient de plus en plus facile à percer. $T_{\alpha}n^{-0.5}$ $T_{\alpha}$ $\alpha$ $n$

Ce n'est pas un défaut de tests statistiques. Cela découle simplement du fait que, sans autre information (a priori), nous devons prendre pour preuve un grand nombre de petites incohérences avec le null. Peu importe la gravité de ces incohérences.

Dans les grandes études, il devient alors intéressant de reformuler la question comme un test bayésien, c'est-à-dire se demander (par exemple) ce qui est . $\hat{P}(|\bar{\mu}_1-\bar{\mu}_2|^2>\eta|\eta, X)$

utilisateur603
la source

C'est bizarre ... intuitivement, cela semble contredire la loi des grands nombres.

Carlos Accioly

Carlos:> peux-tu être plus précis?

user603

Le LLN indique en gros que plus votre échantillon est grand, mieux il représente la distribution de probabilité "réelle". Dans votre exemple, plus j'examine le nombre de maisons, plus le nombre de maisons impaires sera proche de 50%. Cela semble donc bizarre que cela devienne plus facile pour vous de percer le groupe, car il se contracte proportionnellement à la racine carrée de . (Est-ce que j'ai un sens ici?)

n

$n$

Carlos Accioly

1

@Carlos - mais convergence ne signifie pas égalité; ceci n'est garanti que pour la limite d'infini inaccessible. Donc, il n'y a pas de contradiction ;-)

5

La réponse courte est non". La recherche sur les tests d'hypothèses dans le régime asymptotique d'observations infinies et d'hypothèses multiples a été très, très active ces 15 à 20 dernières années, en raison des applications de données de puces à ADN et de données financières. La réponse longue se trouve dans la page de cours de la Stat 329, "Inférence simultanée à grande échelle", enseignée en 2010 par Brad Efron. Un chapitre complet est consacré aux tests d'hypothèses à grande échelle.

gappy
la source

7

Je crois que le livre d'Efron se concentre sur un grand nombre de variables (et les multiples problèmes de test qui en résultent) et non sur la taille de l'échantillon.

Galit Shmueli

4

Les tests d'hypothèses pour des données volumineuses doivent prendre en compte le niveau de différence souhaité, plutôt que de déterminer s'il existe une différence ou non. Le chiffre H0 ne vous intéresse pas car l'estimation est exactement égale à 0. Une approche générale consisterait à vérifier si la différence entre l'hypothèse nulle et la valeur observée est supérieure à une valeur seuil donnée.

Un exemple simple avec le test T: Vous pouvez faire les hypothèses suivantes pour les grandes tailles d’échantillon, étant donné que vous avez des tailles d’échantillon et des écarts types égaux dans les deux groupes, et : donc $\bar{X_1} > \bar{X_2}$

T = \frac{\bar{X 1} - \bar{X 2} - δ}{\sqrt{\frac{S^{2}}{n}}} + \frac{δ}{\sqrt{\frac{S^{2}}{n}}} \approx N (\frac{δ}{\sqrt{\frac{S^{2}}{n}}}, 1)

$T=\frac{\bar{X1}-\bar{X2}-\delta}{\sqrt{\frac{S^2}{n}}}+\frac{\delta}{\sqrt{\frac{S^2}{n}}} \approx N(\frac{\delta}{\sqrt{\frac{S^2}{n}}},1)$

T = \frac{\bar{X 1} - \bar{X 2}}{\sqrt{\frac{S^{2}}{n}}} \approx N (\frac{δ}{\sqrt{\frac{S^{2}}{n}}}, 1)

$T=\frac{\bar{X1}-\bar{X2}}{\sqrt{\frac{S^2}{n}}} \approx N(\frac{\delta}{\sqrt{\frac{S^2}{n}}},1)$

comme votre hypothèse nulle implique: $H_0:\bar{X1}-\bar{X2} = \delta$

\frac{\bar{X 1} - \bar{X 2} - δ}{\sqrt{\frac{S^{2}}{n}}} \approx N (0, 1)

$\frac{\bar{X1}-\bar{X2}-\delta}{\sqrt{\frac{S^2}{n}}}\approx N(0,1)$

Ceci, vous pouvez facilement utiliser pour tester une différence significative et pertinente. Dans R, vous pouvez également utiliser le paramètre de non-centralité des distributions T pour généraliser ce résultat aux échantillons plus petits. Vous devez prendre en compte qu'il s'agit d'un test unilatéral, l'alternative est . $H_A$ $\bar{X1}-\bar{X2} > \delta$

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

Qui donne :

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100

Joris Meys
la source

n'y a-t-il pas une faute de frappe dans la première équation?

user603

Je ne le vois pas?

Joris Meys

4

"Cela signifie-t-il que le test d'hypothèse est sans valeur pour les grands ensembles de données?"

Non, ça ne veut pas dire ça. Le message général est que les décisions prises après la réalisation d’un test d’hypothèse doivent toujours tenir compte de la taille estimée de l’effet, et pas seulement de la valeur p. En particulier, dans les expériences avec des échantillons de très grande taille, cette nécessité de prendre en compte la taille de l'effet devient dramatique. Bien sûr, en général, les utilisateurs n'aiment pas cela car la procédure devient moins "automatique".

Considérons cet exemple de simulation. Supposons que vous ayez un échantillon aléatoire de 1 million d'observations d'une distribution normale standard,

n <- 10^6
x <- rnorm(n)

et un autre échantillon aléatoire de 1 million d'observations d'une distribution normale avec une moyenne égale à et une variance égale à un. $0.01$

y <- rnorm(n, mean = 0.01)

En comparant les moyennes des deux populations avec un test t au niveau de confiance canonique de , nous obtenons une valeur p minuscule d'environ . $95\%$ $2.5\times 10^{-14}$

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

Il est correct de dire que le test t "détecté" que les moyennes des deux populations sont différentes. Mais examinons le très court intervalle de confiance de pour la différence entre les deux populations signifie: . $95\%$ $[-0.013, -0.008]$

Une différence entre les deux moyennes de population de cet ordre de grandeur est-elle pertinente pour le problème particulier que nous étudions ou non?

Zen
la source

Je suis d'accord avec tout dans votre réponse sauf la première phrase, que je changerais en "Oui, cela veut dire généralement", car avec de grands échantillons d'un million environ, la taille de l'effet est si petite.

zbicyclist

Tout cela n’est-il pas une question d’erreur de type I par rapport à une erreur de type II (ou puissance)? Si on fixe la probabilité d'erreur de type I ( ) à 0,05, alors, évidemment (sauf dans le cas discret), il sera 0,05 si l'échantillon est volumineux ou non. Mais pour une probabilité d'erreur de type I donnée, 0,05, par exemple, la puissance, ou la probabilité que vous détectiez l'effet quand il est présent, est plus grande pour les échantillons de grande taille.

α

$\alpha$

3

Je pense que c'est un problème de la plupart des tests de signification ayant une classe non définie générale d'alternatives implicites à la valeur nulle, que nous ne connaissons jamais. Souvent , ces classes peuvent contenir une sorte d'hypothèse « chose sûre », dans lequel les données s'intègre parfaitement (ie une hypothèse de la forme où est le ième point de données). La valeur de la vraisemblance du journal est un exemple du test de signification qui possède cette propriété. $H_{ST}:d_{1}=1.23,d_{2}=1.11,\dots$ $d_{i}$

Mais on ne s’intéresse généralement pas à cette hypothèse certaine. Si vous réfléchissez à ce que vous voulez réellement faire avec le test d’hypothèse, vous allez bientôt reconnaître que vous ne devez rejeter l’hypothèse nulle que si vous avez quelque chose de mieux à remplacer. Même si votre null n'explique pas les données, il est inutile de les jeter, à moins que vous ne les remplaciez. Maintenant, voudriez-vous toujours remplacer le null par l'hypothèse "chose sûre"? Probablement pas, car vous ne pouvez pas utiliser cette hypothèse de «chose sûre» pour généraliser au-delà de votre ensemble de données. Ce n'est pas beaucoup plus que l'impression de vos données.

Donc, ce que vous devriez faire est de spécifier l'hypothèse sur laquelle vous seriez réellement intéressé à agir si elles étaient vraies. Faites ensuite le test approprié pour comparer ces alternatives les unes aux autres - et non à une catégorie d'hypothèses non pertinentes que vous savez être fausses ou inutilisables.

Prenons le cas simple de tester la moyenne normale. Maintenant, la vraie différence est peut-être minime, mais en adoptant une position similaire à celle de @ keith, nous testons simplement la moyenne à différentes valeurs discrètes qui nous intéressent. Ainsi, par exemple, nous pourrions avoir vs . Le problème est alors de regarder à quel niveau voulons-nous faire ces tests. Cela a un rapport avec l'idée de taille d'effet: à quel niveau de grain aurait une influence sur votre prise de décision? Cela peut nécessiter des étapes de taille ou $H_{0}:\mu=0$ $H_{1}:\mu\in\{\pm 1,\pm 2,\pm 3,\pm 4,\pm 5,\pm 6\}$ $0.5$ $100$ ou autre chose, en fonction de la signification du test et des paramètres. Par exemple, si vous compariez la richesse moyenne de deux groupes, est-ce que quelqu'un se soucierait de la différence de deux dollars, même si l'écart type était de 10 000 erreurs types? Je sais que je ne le ferais pas.

La conclusion est essentiellement que vous devez spécifier votre espace d’hypothèses - ces hypothèses qui vous intéressent réellement. Il semble que, dans le cas du Big Data, cela devienne une chose très importante à faire, tout simplement parce que vos données ont un pouvoir de résolution considérable. Il semble également qu'il soit important de comparer les hypothèses de même type - point à point, composé à composé - pour obtenir des résultats corrects.

probabilislogic
la source

3

Non, il est vrai que tous les tests d’hypothèses de points utiles sont cohérents et donneront ainsi un résultat significatif si seule la taille de l’échantillon est suffisamment grande et si un effet non pertinent existe. Pour surmonter cet inconvénient des tests d'hypothèses statistiques (déjà mentionnés dans la réponse de Gaetan Lion ci-dessus), il existe des tests de pertinence. Celles-ci sont similaires aux tests d'équivalence mais encore moins courantes. Pour un test de pertinence, la taille d'un effet minimum pertinent est pré-spécifiée. Un test de pertinence peut être basé sur un intervalle de confiance pour l'effet: si l'intervalle de confiance et la région de pertinence sont disjoints, vous pouvez rejeter la valeur null.

Cependant, van der Laan et Rose supposent dans leur déclaration que même les vraies hypothèses nulles sont testées dans des études. Si une hypothèse nulle est vraie, la probabilité de rejeter n'est pas supérieure à alpha, en particulier dans le cas d'échantillons volumineux et même mal spécifiée, je ne peux que constater que la distribution de l'échantillon est systématiquement différente de la distribution de la population,

Horst Grünbusch
la source

3

L'article que vous mentionnez a un point valable, en ce qui concerne les tests fréquentistes standard. C'est pourquoi il est très important de tester une taille d'effet donnée. Pour illustrer ceci, voici un anova entre 3 groupes, où le groupe B est légèrement différent des groupes A et C. essayez ceci dans r:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

Comme prévu, avec un plus grand nombre d'échantillons par test, la signification statistique du test augmente:

Lucas Fortini
la source

2

Je pense que ce qu'ils veulent dire, c'est que l'on fait souvent l'hypothèse de la densité de probabilité de l'hypothèse nulle qui a une forme «simple» mais ne correspond pas à la densité de probabilité réelle.

Maintenant, avec de petits ensembles de données, vous ne serez peut-être pas assez sensible pour voir cet effet, mais avec un assez grand nombre de données, vous rejetterez l'hypothèse nulle et conclurez qu'il y a un nouvel effet au lieu de conclure que votre hypothèse concernant l'hypothèse nulle est fausse.

Andre Holzner
la source

1

Je ne sais pas si Mark et Shern avaient votre point de vue en tête, mais juste pour reformuler votre argument, si le modèle pour les données sous la valeur null est «incorrect», vous rejetterez l'hypothèse nulle pour une assez grande quantité de données.

1

Tout cela n’est-il pas une question d’erreur de type I par rapport à une erreur de type II (ou puissance)? Si on fixe la probabilité d'erreur de type I ( ) à 0,05, alors, évidemment (sauf dans le cas discret), il sera 0,05 si l'échantillon est grand ou non. $\alpha$

Mais pour une probabilité d'erreur de type I donnée, 0,05, par exemple, la puissance ou la probabilité que vous détectiez l'effet lorsqu'il est présent (la probabilité de rejeter (= détecter l'effet) lorsque est vraie (= lorsque l'effet est là)), est plus grande pour les échantillons de grande taille. $H_0$ $H_1$

La puissance augmente avec la taille de l'échantillon (toutes choses égales par ailleurs).

Mais l'affirmation selon laquelle "nous savons que pour des échantillons de taille suffisante, toutes les études, y compris celles dans lesquelles l'hypothèse nulle de l'absence d'effet est vraie, déclarera un effet statistiquement significatif". est incorrect.

la source

Les grands ensembles de données sont-ils inappropriés pour les tests d'hypothèses?

Réponses: