Que faire lorsque les moyennes de deux échantillons sont significativement différentes mais que la différence semble trop petite pour être importante

13

J'ai deux échantillons ( dans les deux cas). Les moyennes diffèrent d'environ deux fois la std groupée. dev. La valeur résultante est d'environ 10. Bien qu'il soit bon de savoir que j'ai démontré de façon concluante que les moyennes ne sont pas les mêmes, cela me semble être dicté par le grand n. En regardant les histogrammes des données, je ne pense certainement pas qu'une telle valeur p soit vraiment représentative des données et pour être honnête, je ne me sens pas vraiment à l'aise de la citer. Je pose probablement la mauvaise question. Ce que je pense, c'est: ok, les moyens sont différents, mais est-ce vraiment important car les distributions partagent un chevauchement important?Tn70T

Est-ce là que les tests bayésiens sont utiles? Si oui, où est un bon point de départ, un peu de recherche sur Google n'a rien donné d'utile, mais je ne peux pas en posant la bonne question. Si c'est la mauvaise chose, quelqu'un a-t-il des suggestions? Ou s'agit-il simplement d'un point de discussion par opposition à une analyse quantitative?

Bowler
la source
Je veux juste ajouter à toutes les autres réponses que votre première affirmation est fausse: vous n'avez PAS démontré de façon concluante que les moyens sont différents . La valeur p d'un test t vous indique si la probabilité d'observer vos données ou des valeurs plus extrêmes est probable / improbable compte tenu de l'hypothèse nulle (qui pour le test t est , c'est-à-dire H 0 : {"Les moyens sont égaux"}), ce qui ne signifie pas que les moyens sont, en fait, différents . De plus, je suppose que vous avez également effectué un test F afin de tester l'égalité des variances avant de faire le test t de variance groupée, non? μA=μBH0
Néstor
Votre question est très bonne car elle fait apparaître une distinction importante et montre que vous pensez réellement à vos données plutôt que de chercher des étoiles sur une sortie statistique et de vous déclarer fait. Comme le soulignent plusieurs réponses, la signification statistique n'est pas la même chose que la signification . Et quand on y pense, ils ne peuvent pas l'être: comment une procédure statistique pourrait-elle savoir qu'une différence moyenne statistiquement significative de 0,01 signifie quelque chose dans le champ A, mais est insignifiante dans le champ B?
Wayne
Assez honnêtement, la langauge n'était pas parfaite, mais lorsque la valeur de p est comme celle que je reçois, j'ai tendance à ne pas être trop pointilleux sur les mots. J'ai fait un test F (et un tracé QQ). C'est assez proche pour le jazz, comme on dit.
Bowler
1
FWIW, si vos moyens sont séparés de 2 SD, cela me semble être une très grande différence. Cela dépendra de votre domaine, bien sûr, mais c'est une différence que les gens remarqueraient facilement à l'œil nu (par exemple, les hauteurs moyennes des hommes et des femmes américains âgés de 20 à 29 ans diffèrent d'environ 1,5 écart-type.) OMI, si les distributions ne ne se chevauchent pas du tout, vous n'avez pas vraiment besoin d'analyser les données; au minimum, w / aussi petit que 6, p sera <0,05 si les distributions ne se chevauchent pas. Np
gung - Rétablir Monica
Je suis d'accord que la différence est grande bien que totalement irrévérencieuse.
Bowler

Réponses:

12

Soit la moyenne de la première population et μ 2 la moyenne de la deuxième population. Il semble que vous ayez utilisé un test t à deux échantillons pour tester si μ 1 = μ 2 . Le résultat significatif implique que μ 1μ 2 , mais la différence semble être trop petite pour avoir de l'importance pour votre application.μ1μ2tμ1=μ2μ1μ2

Ce que vous avez rencontré est le fait que statistiquement significatif peut souvent être autre chose que significatif pour l'application . Bien que la différence puisse être statistiquement significative, elle peut ne pas être significative .

Les tests bayésiens ne résoudront pas ce problème - vous conclurez toujours qu'il existe une différence.

Il pourrait cependant y avoir une issue. Par exemple, pour une hypothèse unilatérale, vous pourriez décider que si est Δ unités supérieur à μ 2, alors ce serait une différence significative suffisamment importante pour votre application.μ1Δμ2

Dans ce cas, vous testeriez si au lieu de si μ 1 - μ 2 = 0 . La statistique t (en supposant des variances égales) serait alors T = ˉ x 1 - ˉ x 2 - Δμ1μ2Δμ1μ2=0tspest l'estimation de l'écart-type groupé. Dans l'hypothèse nulle, cette statistique estdistribuée entavecn1+n2-2degrés de liberté.

T=x¯1x¯2Δsp1/n1+1/n2
sptn1+n22

Un moyen facile de réaliser ce test consiste à soustraire de vos observations de la première population, puis à effectuer un test t à deux échantillons sur une seule face .Δt

MånsT
la source
8

Il est valable de comparer plusieurs approches, mais pas dans le but de choisir celle qui favorise nos désirs / croyances.

Ma réponse à votre question est: il est possible que deux distributions se chevauchent alors qu'elles ont des moyens différents, ce qui semble être votre cas (mais nous aurions besoin de voir vos données et votre contexte afin de fournir une réponse plus précise).

Je vais illustrer cela en utilisant quelques approches pour comparer les moyennes normales .

t

70N(10,1)N(12,1)t10

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

σ

entrez la description de l'image ici

μ

Pour une définition de la vraisemblance du profil et de la vraisemblance, voir 1 et 2 .

μnx¯Rp(μ)=exp[n(x¯μ)2]

Pour les données simulées, celles-ci peuvent être calculées dans R comme suit

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

μ1μ2

μ

(μ,σ)

π(μ,σ)1σ2

μ

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Encore une fois, les intervalles de crédibilité des moyens ne se chevauchent à aucun niveau raisonnable.

En conclusion, vous pouvez voir comment toutes ces approches indiquent une différence de moyenne significative (qui est le principal intérêt), malgré le chevauchement des distributions.

P(X<Y)0.8823825

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

J'espère que ça aide.

Communauté
la source
2
(+1) Merci pour une réponse vraiment utile sur les méthodes baysiennes. Le lien P (X <Y) répond également à un autre problème que je me posais dans la même analyse.
Bowler
7

Répondre à la bonne question

ok, les moyens sont différents mais est-ce vraiment important car les distributions partagent un chevauchement important?

Tout test qui demande si les moyennes de groupe sont différentes vous dira, si cela fonctionne bien, si les moyennes sont différentes. Il ne vous dira pas que les distributions des données elles-mêmes sont différentes, car c'est une question différente. Cette question dépend certainement de la question de savoir si les moyens sont différents, mais aussi de bien d'autres choses qui pourraient être (incomplètement) résumées comme variance, asymétrie et kurtosis.

Vous notez à juste titre que la certitude de l'emplacement des moyens dépend de la quantité de données dont vous disposez pour les estimer. Mais vous vous demandez si

comme une petite valeur de p est vraiment représentative des données

En effet, ce n'est pas le cas, du moins pas directement. Et c'est par conception. Il est représentatif (approximativement parlant) de la certitude que vous pouvez avoir qu'une paire particulière de statistiques d'échantillonnage des données (et non les données elles-mêmes) sont différentes.

Si vous vouliez représenter les données elles-mêmes d'une manière plus formelle qu'en affichant simplement les histogrammes et en tester les moments, alors peut-être qu'une paire de graphiques de densité pourrait être utile. Cela dépend plutôt de l'argument que vous utilisez pour faire le test.

Une version bayésienne

À tous ces égards, les «tests» de différence bayésienne et les tests T se comporteront de la même manière car ils essaient de faire la même chose. Les seuls avantages auxquels je peux penser pour utiliser une approche bayésienne sont: a) qu'il sera facile de faire le test permettant des variances éventuellement différentes pour chaque groupe, et b) qu'il se concentrera sur l'estimation de la taille probable de la différence de moyennes plutôt que de trouver une valeur de p pour un test de différence. Cela dit, ces avantages sont assez mineurs: par exemple, en b), vous pouvez toujours signaler un intervalle de confiance pour la différence.

Les guillemets ci-dessus sur «tests» sont délibérés. Il est certainement possible de faire des tests d'hypothèse bayésienne, et les gens le font. Cependant, je dirais que l'avantage comparatif de l'approche réside dans la mise au point d'un modèle plausible des données et la communication de ses aspects importants avec des niveaux d'incertitude appropriés.

conjugateprior
la source
3

Tout d'abord, ce n'est pas un problème pour épingler les tests fréquentistes. Le problème réside dans l'hypothèse nulle que les moyennes sont exactement égales. Par conséquent, si les populations diffèrent en termes de petite quantité et que la taille de l'échantillon est suffisamment grande, les chances de rejeter cette hypothèse nulle sont très élevées. Par conséquent, la valeur de p pour votre test s'est avérée très petite. Le coupable est le choix de l'hypothèse nulle. Choisissez d> 0 et supposez que l'hypothèse nulle est que les moyennes diffèrent de moins de d en valeur absolue de moins de d. Vous choisissez d pour que la différence réelle soit suffisamment grande pour être rejetée. Votre problème disparaît. Le test bayésien ne résout pas votre problème si vous insistez sur une hypothèse nulle d'égalité exacte des moyens.

Michael R. Chernick
la source
J'écrivais ma réponse en même temps que les deux autres.
Michael R. Chernick