Puis-je faire une analyse de puissance de test t pour des groupes de tailles inégales qui produit 2 n minimum différents?

9

Il est généralement simple de faire un Power Analysispour calculer le minimum sample size, en particulier dans R qui est mon environnement informatique statistique préféré.

Cependant, on me demande de mener une analyse de puissance qui est un peu différente de tout ce que j'ai fait ou auquel je peux trouver une référence en ligne. Je me demande si ce qu'on me demande est même possible / valide.

Le projet a essentiellement deux unequal groupsétats et l'hypothèse est que ces deux groupes sont significativement différents en termes de variable de résultat (qui est la durée des appels téléphoniques aux clients). Le groupe «contrôle» comprend 40 États et a produit environ 2 500 observations. Le groupe "test" compte environ 10 états et 500 observations.

Au départ, j'ai trouvé le groupe means+ pooled standard deviation, que j'ai utilisé pour calculer un Effect Size. Ensuite , j'ai utilisé un paquet appelé pwrdans Ret trouvé que je avais besoin d' une taille minimale de l' échantillon d'environ 135 observations par groupe, compte tenu de l' importance et .05 .8 pouvoir.

Cependant, ils ont rejeté ma réponse parce qu'ils veulent qu'un groupe soit beaucoup plus grand que l'autre comme c'est le cas actuellement, et ils s'attendent à deux nombres minimaux différents d'observations par groupe ou à un minimum de% de la population en termes de nombre d'États ou observations qui doivent entrer dans leur groupe "test".

Je vois des analyses de puissance pour deux échantillons de tests t (c'est-à-dire la fonction R pwr.t2n.test), mais je devrais spécifier au moins une des tailles d'échantillon alors qu'ils veulent que je leur dise la taille d'échantillon minimale pour les deux groupes (soit sous forme de nombres ou pourcentages) et cette fonction ne reflète pas les différences dans les écarts-types pour les deux groupes.

Est-ce possible ou est-ce que je leur dis simplement que cela ne fonctionne pas (c'est-à-dire que le mieux que je puisse faire est de leur dire que, compte tenu de l'une des tailles d'échantillon et d'un écart-type groupé, le deuxième groupe doit avoir au moins une certaine taille)?

Hack-R
la source

Réponses:

7

Vous pouvez effectuer des calculs de taille d'échantillon pour des tailles d'échantillon inégales.

Par exemple, vous pouvez décider que les n sont dans un certain rapport (par exemple, proportionnellement aux populations).

Il est alors possible de faire des calculs de puissance (au moins, vous pouvez simuler pour obtenir la puissance dans un ensemble de circonstances particulières, que vous soyez ou non capable de faire l'algèbre).

Le problème est qu'il est relativement inefficace de trouver des différences par rapport au même nombre total d'observations à des tailles d'échantillon égales.

Imaginez que vous disposiez d'un échantillon total de , avec une variance égale dans la population et une variance d'échantillon proche de la même, et que votre choix était entre une répartition 50-50 et une répartition 90-10 ( vs ).n=n1+n2n1=0.5nn1=0.9n

La statistique t à deux échantillons est:

t=X¯1X¯2spooled1n1+1n2

L'impact de la taille de l'échantillon est dans le terme .1/1n1+1n2

Si vous avez la répartition 50-50, c'est comme avoir un écart-type 40% plus petit; à un vous pouvez obtenir un effet sensiblement plus petit avec le partage pair.n1+n2

Si la taille d'échantillon combinée n'est pas une contrainte efficace, ce calcul peut cependant être inutile. Cela importe dans les cas où chaque observation a le même coût marginal, ce qui n'est pas toujours pertinent.

Glen_b -Reinstate Monica
la source
Merci! Donc, pour réaliser cela, je préfère simplement utiliser quelque chose comme pwr.t2n.test () dans R pour pratiquement toutes les combinaisons possibles étant donné une taille d'échantillon combinée, ou existe-t-il une meilleure façon de recommander cela pour calculer cela? Si vous utilisez une autre langue / package, je peux trouver comment traduire votre réponse en R. Dans les deux cas, merci pour votre solution.
Hack-R
Je ne comprends pas où tu veux en venir. Pour autant que je sache, vous n'avez pas la possibilité de vous diviser selon le ratio que vous souhaitez; mon exemple était d'illustrer l'effet des divisions inégales. Si vous avez une taille d'échantillon totale fixe, divisez-la aussi près de 50-50 que cela serait accepté. Si vous n'avez pas de taille d'échantillon totale fixe, vous optimisez en fonction de vos coûts et contraintes.
Glen_b -Reinstate Monica
L'étendue de mes informations est qu'elles ont actuellement ces deux groupes vraiment inégaux qui totalisent 3 000 observations dans 50 États américains. Ils demandent le nombre minimum d'observations par groupe et / ou le% qui devrait aller dans chaque groupe, en fonction des moyennes et des écarts types que j'obtiens des données. Je ne sais pas s'ils peuvent diviser les données 50-50 ou comme ils le souhaitent, mais j'allais leur montrer le minimum n dans le groupe 2 pour chaque valeur des n du groupe 1 et leur montrer également le coût des divisions autres que 50 -50, probablement en termes de puissance. Je pensais que c'était à peu près ce que vous proposiez?
Hack-R
Je vois. Vous pourriez certainement calculer quelque chose comme ça, mais vous n'auriez pas nécessairement besoin de le faire à tous les ; ces choses progressent assez bien. n
Glen_b -Reinstate Monica
1
@Glen: C'est pourquoi j'ai essayé de supprimer rapidement mon commentaire sur l'utilité (in) de at at dans l'analyse de durée. Mais tu étais encore plus rapide. Une autre préoccupation est la structure groupée des données. Mais votre réponse correspond exactement à la question.
Michael M
2

Tout d'abord, pourquoi supposez-vous des variances égales dans les deux groupes? S'il vous plaît, ne dites pas «parce que c'est pratique». Je doute sérieusement que les variances de groupe soient égales, même si dans le cas de tailles d'échantillon égales, ce n'est pas crucial. Vos degrés de liberté seront réduits, mais vous savez que vous en avez au moins 130, alors qui s'en soucie? Il y a des questions beaucoup plus importantes à résoudre.

Si vous allez autoriser (ou exiger) des tailles d'échantillon de groupe inégales, le problème n'aura pas de solution unique. Il y a deux inconnues ( et et une seule contrainte (la puissance doit être au moins .) Je ne pense pas que le problème puisse être résolu sans contrainte supplémentaire. Il y a deux possibilités évidentes. La première est d'en corriger une de la taille des échantillons (par exemple, les sponsors veulent au moins 300 observations du groupe I.) L'autre est de fixer le rapport (par exemple, parce que le groupe I est dix fois le nombre du groupe II, nous voulons ) Procédez maintenant à votre analyse de puissance.n1n2ϕn1=10n2

Dennis
la source
Comment ai-je supposé qu'il y avait des variances égales? Je sais qu'il n'y en a pas ... c'est pourquoi je posais des questions sur la possibilité d'utiliser les différents écarts-types pour chaque groupe pour effectuer un calcul, bien que la façon normale de faire une analyse de puissance soit d'utiliser des écarts-types groupés lorsque vous avez plus de 1 groupe.
Hack-R
@NerdLife: la variance groupée, que vous avez dit avoir utilisée, revient à supposer des variances égales. La façon "normale" de le faire est de supposer que , et dans ce cas, la mise en commun n'a pas d'importance pour la valeur de la statistique de test. L'OSL est affecté car les degrés de liberté changent entre et . Mais ces changements sont assez mineurs au-dessus de 30 df environ. n1=n2\n112(n11)
Dennis