J'ai trois groupes de données, chacun avec une distribution binomiale (c'est-à-dire que chaque groupe a des éléments qui réussissent ou échouent). Je n'ai pas de probabilité de réussite prévue, mais je ne peux me fier qu'au taux de réussite de chacun comme approximation du taux de réussite réel. J'ai seulement trouvé cette question , qui est proche mais ne semble pas traiter exactement avec ce scénario.
Pour simplifier le test, disons simplement que j'ai 2 groupes (3 peuvent être étendus à partir de ce scénario de base).
- Essais du groupe 1: = 2455
- Essais du groupe 2: = 2730
- Succès du groupe 1: = 1556
- Succès du groupe 2: = 1671
Je n'ai pas de probabilité de réussite attendue, seulement ce que je sais des échantillons. Donc, mon taux de réussite implicite pour les deux groupes est:
- Taux de réussite du groupe 1: = 1556/2455 = 63,4%
- Taux de réussite du groupe 2: = 1671/2730 = 61,2%
Le taux de réussite de chacun des échantillons est assez proche. Cependant, la taille de mes échantillons est également assez grande. Si je vérifie le CDF de la distribution binomiale pour voir à quel point il est différent du premier (où je suppose que le premier est le test nul), la probabilité que le second puisse être atteint est très faible.
Dans Excel:
1-BINOM.DIST (1556,2455,61,2%, VRAI) = 0,012
Cependant, ceci ne tient pas compte de la variance du premier résultat, il suppose simplement que le premier résultat est la probabilité du test.
Existe-t-il un meilleur moyen de vérifier si ces deux échantillons de données sont réellement différents sur le plan statistique?
prop.test
:prop.test(c(1556, 1671), c(2455, 2730))
.Réponses:
La solution est un simple google away: http://en.wikipedia.org/wiki/Statistical_hypothesis_testing
Donc, vous souhaitez tester l'hypothèse nulle suivante contre l'alternative donnée
H A : p 1 ≠ p 2H0:p1=p2 contreHA:p1≠p2
Donc, il vous suffit de calculer la statistique de test qui est
où .p^= n1p^1+ n2p^2n1+ n2
Alors maintenant, dans votre problème, , , et p 2=0,612n1=2455n2=2730.p^1= 0,634 p^2= 0,612 n1= 2455 n2= 2730.
Une fois que vous avez calculé la statistique de test, il vous suffit de calculer la valeur de la région critique correspondante pour comparer également votre statistique de test. Par exemple, si vous testez cette hypothèse au niveau de confiance de 95%, vous devez comparer votre statistique de test à la valeur de la région critique de (pour ce test à deux queues).zα / 2= 1,96
Maintenant, si vous pouvez alors rejeter l'hypothèse nulle, sinon vous ne pourrez pas rejeter l'hypothèse nulle.z> zα / 2
Eh bien, cette solution fonctionne dans le cas où vous comparez deux groupes, mais elle ne se généralise pas au cas où vous souhaitez comparer trois groupes.
Vous pouvez toutefois utiliser un test de Chi Squared pour vérifier si les trois groupes ont des proportions égales, comme suggéré par @Eric dans son commentaire ci-dessus: "Cette question est-elle utile? Stats.stackexchange.com/questions/25299/ ... - Eric"
la source
En R, la réponse est calculée comme suit:
la source
Juste un résumé:
Les réponses de Dan et Abaumann suggèrent de tester sous un modèle binomial où l'hypothèse nulle est un modèle binomial unifié dont la moyenne est estimée à partir des données empiriques. Leurs réponses sont correctes en théorie, mais elles nécessitent une approximation utilisant la distribution normale car la distribution de la statistique de test ne suit pas exactement la distribution normale. Par conséquent, ce n'est correct que pour un échantillon de grande taille.
Mais la réponse de David indique un test non paramétrique utilisant le test de Fisher. Les informations sont ici: https://en.wikipedia.org/wiki/Fisher%27s_exact_test Et il peut être appliqué à des échantillons de petite taille mais difficile à calculer pour des échantillons de grande taille.
Quel test utiliser et à quel point vous faites confiance à votre valeur p est un mystère. Mais il y a toujours des biais dans le test à choisir.
la source
Votre statistique de test est , où .Z= p1^- p2^p^( 1 - p^) ( 1 / n1+ 1 / n2)√ p^= n1p1^+ n2p2^n1+ n2
Les régions critiques sont et pour le test à deux queues avec les ajustements habituels pour un un test à queue.Z> Φ- 1( 1 - α / 2 ) Z< Φ- 1( α / 2 )
la source
En Python, statsmodels a une fonction appelée
proportions_ztest
. Voici un exemple de son utilisation:Cela imprime:
la source
Original post: La réponse de Dan est en fait incorrecte, ne choque personne. Un test z est utilisé uniquement si vos données suivent une distribution normale standard. Dans ce cas, vos données suivent une distribution binomiale. Par conséquent, utilisez un test du khi-carré si votre échantillon est grand ou un test de Fisher si votre échantillon est petit.
Edit: Mon erreur, excuses à @Dan. Un test z est valide ici si vos variables sont indépendantes. Si cette hypothèse n'est pas satisfaite ou inconnue, un test z peut être invalide.
la source