Comment comparer la moyenne de deux échantillons dont les données correspondent aux distributions exponentielles

J'ai deux échantillons de données, un échantillon de référence et un échantillon de traitement.

L'hypothèse est que l'échantillon de traitement a une moyenne plus élevée que l'échantillon de référence.

Les deux échantillons ont une forme exponentielle. Étant donné que les données sont assez volumineuses, je n'ai que la moyenne et le nombre d'éléments pour chaque échantillon au moment où je vais exécuter le test.

Comment puis-je tester cette hypothèse? Je suppose que c'est super facile, et je suis tombé sur plusieurs références à l'utilisation du F-Test, mais je ne sais pas comment les paramètres sont mappés.

hypothesis-testing statistical-significance exponential Jonathan Dobbie
la source

Pourquoi n'avez-vous pas les données? Si les échantillons sont de très gros tests non paramétriques, cela devrait très bien fonctionner, mais il semble que vous essayez d'exécuter un test à partir des statistiques récapitulatives. Est-ce correct?

Mimshot

Les valeurs de référence et de traitement proviennent-elles du même ensemble de patients ou les deux groupes sont-ils indépendants?

Michael M

@Mimshot, les données sont en streaming, mais vous avez raison d'essayer d'exécuter un test à partir des statistiques récapitulatives. Cela fonctionne assez bien avec un test Z pour les données normales

Jonathan Dobbie

Dans ces circonstances, un test z approximatif est peut-être le meilleur que vous puissiez faire. Cependant, je me soucierais davantage de l'ampleur du véritable effet du traitement, et non de la signification statistique. Rappelez-vous qu'avec des échantillons suffisamment grands, tout petit effet vrai entraînera une petite valeur p.

Michael M

@janvier - bien que, si ses tailles d'échantillon sont suffisamment grandes, par le CLT, elles seront très proches de celles normalement distribuées. Dans l'hypothèse nulle, les variances seraient les mêmes (comme le sont les moyennes), donc, avec une taille d'échantillon suffisamment grande, un test t devrait fonctionner correctement; ce ne sera pas aussi bon que vous pouvez le faire avec toutes les données, mais ce serait quand même OK.

, par exemple, serait plutôt bien.

n_{1} = n_{2} = 100

$n_1 = n_2 = 100$

jbowman

Réponses:

Vous pouvez tester l'égalité des paramètres moyens par rapport à l'alternative selon laquelle les paramètres moyens sont inégaux avec un test de rapport de vraisemblance (test LR). (Cependant, si les paramètres moyens diffèrent et que la distribution est exponentielle, il s'agit d'un décalage d'échelle, pas d'un décalage d'emplacement.)

Pour un test unilatéral (mais seulement asymptotiquement dans le cas bilatéral), je crois que le test LR se révèle être équivalent au suivant (pour montrer que c'est en fait le même que le test LR pour le unilatéral) dans le cas où il faudrait montrer que la statistique LR était monotone en ): $\bar x/\bar y$

Disons que nous paramétrons la ème observation dans la première exponentielle comme ayant pdf et la ème observation dans le deuxième échantillon comme ayant pdf (sur les domaines évidents pour les observations et les paramètres). (Pour être clair, nous travaillons ici sous forme de moyenne et non sous forme de taux; cela n'affectera pas le résultat des calculs.) $i$ $1/\mu_x \exp(-x_i/\mu_x)$ $j$ $1/\mu_y \exp(-y_j/\mu_y)$

Puisque la distribution de est un cas particulier du gamma, , la distribution de la somme des , est distribuée ; de même que pour la somme des s, est . $X_i$ $\Gamma(1,\mu_x)$ $X$ $S_x$ $\Gamma(n_x,\mu_x)$ $Y$ $S_y$ $\Gamma(n_y,\mu_y)$

En raison de la relation entre les distributions gamma et les distributions khi-deux, il s'avère que est distribué . Le rapport de deux chi-carrés sur leurs degrés de liberté est F. D'où le rapport, $2/\mu_x S_x$ $\chi^2_{2n_x}$ . $\frac{\mu_y}{\mu_x}\frac{S_x/n_x}{S_y/n_y} \sim F_{2n_x,2n_y}$

Dans l'hypothèse nulle d'égalité des moyennes, alors, , et selon l'alternative bilatérale, les valeurs pourraient avoir tendance à être plus petites ou plus grandes qu'une valeur de la distribution nulle , vous avez donc besoin d'un test bilatéral. $\bar x/\bar y \sim F_{2n_x,2n_y}$

Simulation pour vérifier que nous n'avons pas commis d'erreur simple dans l'algèbre:

Ici, j'ai simulé 1000 échantillons de taille 30 pour et 20 pour partir d'une distribution exponentielle avec la même moyenne, et calculé la statistique du rapport des moyennes ci-dessus. $X$ $Y$

Vous trouverez ci-dessous un histogramme de la distribution résultante ainsi qu'une courbe montrant la distribution nous avons calculée sous le nul: $F$

exemple de distribution simulée de la statistique de rapport sous la valeur nulle

Exemple, avec discussion du calcul des valeurs p bilatérales :

Pour illustrer le calcul, voici deux petits échantillons de distributions exponentielles. L'échantillon X a 14 observations d'une population avec une moyenne de 10, l'échantillon Y a 17 observations d'une population avec une moyenne de 15:

x: 12.173  3.148 33.873  0.160  3.054 11.579 13.491  7.048 48.836 
   16.478  3.323  3.520  7.113  5.358

y:  7.635  1.508 29.987 13.636  8.709 13.132 12.141  5.280 23.447 
   18.687 13.055 47.747  0.334  7.745 26.287 34.390  9.596

Les moyennes d'échantillon sont respectivement 12,082 et 16,077. Le rapport des moyennes est de 0,7515

La zone à gauche est simple, car elle se trouve dans la queue inférieure (calculée en R):

 > pf(r,28,34) 
 [1] 0.2210767

Nous avons besoin de la probabilité pour l'autre queue. Si la distribution était symétrique à l'inverse, il serait simple de le faire.

Une convention courante avec le rapport des variances F-test (qui est pareillement à deux queues) est simplement de doubler la valeur p à une queue (effectivement ce qui se passe comme ici ; c'est aussi ce qui semble être fait dans R, par exemple ); dans ce cas, il donne une valeur de p de 0,44.

$\alpha/2$ $\alpha$

Glen_b -Reinstate Monica
la source

Je suppose que c'est juste moi qui est épais, mais d'où vient 0.7515?

Jonathan Dobbie

r = moyenne (x) / moyenne (y) = 0,7515 - c'est-à-dire "le rapport des moyennes"

Glen_b -Reinstate Monica

D'accord, génial. J'ai obtenu 0,67, mais cela est probablement dû à une erreur de saisie de données.

Jonathan Dobbie

J'ai fait la distinction entre les moyennes de la population et les moyennes de l'échantillon résultant plus clairement

Glen_b -Reinstate Monica

α

$\alpha$

\frac{α}{2}

$\frac{\alpha}{2}$

n_{X} Journal \frac{n_{X}}{\sum X_{je}} + n_{y} Journal \frac{n_{y}}{\sum y_{j}} - (n_{X} + n_{y}) Journal \frac{n_{X} + n_{y}}{\sum X_{je} + \sum y_{j}}

$n_x\log \frac{n_x}{\sum x_i} +n_y \log \frac{n_y}{\sum y_j} -(n_x+n_y)\log\frac{n_x+n_y}{\sum x_i +\sum y_j}$

n_{X} Journal (\frac{n_{X}}{n_{y}} + \frac{1}{r}) + n_{y} Journal (\frac{n_{y}}{n_{X}} + r) + n_{X} Journal \frac{n_{y}}{n_{X} + n_{y}} + n_{y} Journal \frac{n_{X}}{n_{X} + n_{y}}

$n_x\log\left(\frac{n_x}{n_y} + \frac{1}{r}\right) + n_y\log\left(\frac{n_y}{n_x}+r\right) + n_x\log\frac{n_y}{n_x+n_y} + n_y\log \frac{n_x}{n_x+n_y}$

r = \frac{\bar{x}}{\bar{y}}

$r=\frac{\bar{x}}{\bar{y}}$

r = 1

$r=1$

Pour effectuer le test de rapport de vraisemblance approprié pour une alternative bilatérale, vous pouvez toujours utiliser la distribution F; il suffit de trouver l'autre valeur du rapport des moyennes d'échantillon $r_\mathrm{ELR}$ $r_\mathrm{obs}$ $\Pr(R>r_\mathrm{ELR})$ $r_\mathrm{ELR}=1.3272$ $\Pr(R>r_\mathrm{ELR})=0.2142$ $0.4352$ $0.4315$

Mais doubler la valeur p unilatérale est peut-être le moyen le plus courant d'obtenir une valeur p bilatérale: cela revient à trouver la valeur du rapport des moyennes de l'échantillon $r_\mathrm{ETP}$ $\Pr(R>r_\mathrm{ETP})$ $\Pr(R<r_\mathrm{obs})$ $\Pr(R>r_\mathrm{ETP})$ $\mu_x > \mu_y$ $\mu_x < \mu_y$ $\mu_x > \mu_y$ $\mu_x < \mu_y$

Le code R suit:

x <- c(12.173, 3.148, 33.873, 0.160, 3.054, 11.579, 13.491, 7.048, 48.836,
       16.478, 3.323, 3.520, 7.113, 5.358)

y <- c(7.635, 1.508, 29.987, 13.636, 8.709, 13.132, 12.141, 5.280, 23.447, 
       18.687, 13.055, 47.747, 0.334,7.745, 26.287, 34.390, 9.596)

# observed ratio of sample means
r.obs <- mean(x)/mean(y)

# sample sizes
n.x <- length(x)
n.y <- length(y)

# define log likelihood ratio function
calc.llr <- function(r,n.x,n.y){
  n.x * log(n.x/n.y + 1/r) + n.y*log(n.y/n.x + r) + n.x*log(n.y/(n.x+n.y)) + n.y*log(n.x/(n.x+n.y))
}

# observed log likelihood ratio
calc.llr(r.obs,n.x, n.y) -> llr.obs

# p-value in lower tail
pf(r.obs,2*n.x,2*n.y) -> p.lo

# find the other ratio of sample means giving an LLR equal to that observed
uniroot(function(x) calc.llr(x,n.x,n.y)-llr.obs, lower=1.2, upper=1.4, tol=1e-6)$root -> r.hi

#p.value in upper tail
p.hi <- 1-pf(r.hi,2*n.x,2*n.y)

# overall p.value
p.value <- p.lo + p.hi

#approximate p.value
1-pchisq(2*llr.obs, 1)

Scortchi - Réintégrer Monica
la source