J'ai deux échantillons de données, un échantillon de référence et un échantillon de traitement.
L'hypothèse est que l'échantillon de traitement a une moyenne plus élevée que l'échantillon de référence.
Les deux échantillons ont une forme exponentielle. Étant donné que les données sont assez volumineuses, je n'ai que la moyenne et le nombre d'éléments pour chaque échantillon au moment où je vais exécuter le test.
Comment puis-je tester cette hypothèse? Je suppose que c'est super facile, et je suis tombé sur plusieurs références à l'utilisation du F-Test, mais je ne sais pas comment les paramètres sont mappés.
hypothesis-testing
statistical-significance
exponential
Jonathan Dobbie
la source
la source
Réponses:
Vous pouvez tester l'égalité des paramètres moyens par rapport à l'alternative selon laquelle les paramètres moyens sont inégaux avec un test de rapport de vraisemblance (test LR). (Cependant, si les paramètres moyens diffèrent et que la distribution est exponentielle, il s'agit d'un décalage d'échelle, pas d'un décalage d'emplacement.)
Pour un test unilatéral (mais seulement asymptotiquement dans le cas bilatéral), je crois que le test LR se révèle être équivalent au suivant (pour montrer que c'est en fait le même que le test LR pour le unilatéral) dans le cas où il faudrait montrer que la statistique LR était monotone en ):x¯/y¯
Disons que nous paramétrons la ème observation dans la première exponentielle comme ayant pdf 1 / μ x exp ( - x i / μ x ) et la j ème observation dans le deuxième échantillon comme ayant pdf 1 / μ y exp ( - y j / μ y ) (sur les domaines évidents pour les observations et les paramètres). (Pour être clair, nous travaillons ici sous forme de moyenne et non sous forme de taux; cela n'affectera pas le résultat des calculs.)i 1/μxexp(−xi/μx) j 1/μyexp(−yj/μy)
Puisque la distribution de est un cas particulier du gamma, Γ ( 1 , μ x ) , la distribution de la somme des X , S x est distribuée Γ ( n x , μ x ) ; de même que pour la somme des Y s, S y est Γ ( n y , μ y ) .Xi Γ(1,μx) X Sx Γ(nx,μx) Y Sy Γ ( ny, μy)
En raison de la relation entre les distributions gamma et les distributions khi-deux, il s'avère que est distribué χ 2 2 n x . Le rapport de deux chi-carrés sur leurs degrés de liberté est F. D'où le rapport, μ y2 / μXSX χ22 nX .μyμXSX/ nXSy/ ny∼ F2 nX, 2 ny
Dans l'hypothèse nulle d'égalité des moyennes, alors, , et selon l'alternative bilatérale, les valeurs pourraient avoir tendance à être plus petites ou plus grandes qu'une valeur de la distribution nulle , vous avez donc besoin d'un test bilatéral.X¯/ y¯∼ F2 nX, 2 ny
Simulation pour vérifier que nous n'avons pas commis d'erreur simple dans l'algèbre:
Ici, j'ai simulé 1000 échantillons de taille 30 pour et 20 pour Y à partir d'une distribution exponentielle avec la même moyenne, et calculé la statistique du rapport des moyennes ci-dessus.X Oui
Vous trouverez ci-dessous un histogramme de la distribution résultante ainsi qu'une courbe montrant la distribution nous avons calculée sous le nul:F
Exemple, avec discussion du calcul des valeurs p bilatérales :
Pour illustrer le calcul, voici deux petits échantillons de distributions exponentielles. L'échantillon X a 14 observations d'une population avec une moyenne de 10, l'échantillon Y a 17 observations d'une population avec une moyenne de 15:
Les moyennes d'échantillon sont respectivement 12,082 et 16,077. Le rapport des moyennes est de 0,7515
La zone à gauche est simple, car elle se trouve dans la queue inférieure (calculée en R):
Nous avons besoin de la probabilité pour l'autre queue. Si la distribution était symétrique à l'inverse, il serait simple de le faire.
Une convention courante avec le rapport des variances F-test (qui est pareillement à deux queues) est simplement de doubler la valeur p à une queue (effectivement ce qui se passe comme ici ; c'est aussi ce qui semble être fait dans R, par exemple ); dans ce cas, il donne une valeur de p de 0,44.
la source
Pour effectuer le test de rapport de vraisemblance approprié pour une alternative bilatérale, vous pouvez toujours utiliser la distribution F; il suffit de trouver l'autre valeur du rapport des moyennes d'échantillonrE L R ro b s Pr ( R > rE L R) rE L R= 1,3272 Pr ( R > rE L R) = 0,2142 0,4352 0,4315
Mais doubler la valeur p unilatérale est peut-être le moyen le plus courant d'obtenir une valeur p bilatérale: cela revient à trouver la valeur du rapport des moyennes de l'échantillonrE T P Pr ( R > rE T P) Pr ( R < ro b s) Pr ( R > rE T P) μX> μy μX< μy μX> μy μX< μy
Le code R suit:
la source