On m'a donné un article rapportant une étude très similaire à celle que mon laboratoire souhaite mener. Mais, j'ai remarqué que pour la variable d'intérêt, la durée, les écarts-type sont plus grands que la moyenne ... puisque c'est une durée mesurée en minutes, elle ne peut jamais être négative et cela me semble très étrange. Cela s'est produit dans 2 études rapportées, en voici une.
Au-delà, c'est un design mixte. Contrôle v Traitement (entre les groupes) et Time1, Time2, Time3 (répétition des mesures). Voici les moyennes (SD), N> 200
Time1 Time2 Time3
Control 15.1 (14.6) 14.4 (14.8) 13.3 (15.7)
Treatment 14.8 (13.2) 10.0 (12.2) 8.2 (9.9)
... ils ont réalisé une ANOVA et ont rapporté un p <0,001.
On m'a demandé de l'utiliser comme base pour une analyse de puissance afin de déterminer la taille de l'échantillon pour notre étude. Je suis à peu près sûr que cela indique que les données ne sont pas normales ou ont des valeurs aberrantes et je ne me sens pas à l'aise de déterminer la taille de l'échantillon en fonction de cela. Suis-je juste loin de la base?
la source
Réponses:
Il est facilement possible que l'écart-type dépasse la moyenne avec des données non négatives ou strictement positives
Je décrirais le cas de vos données comme l'écart-type étant proche de la moyenne (toutes les valeurs ne sont pas plus grandes et celles qui sont plus grandes sont généralement proches). Pour les données non négatives, cela indique assez clairement que les données sont asymétriques (par exemple, la distribution gamma avec un coefficient de variation = 1 serait la distribution exponentielle, donc si les données étaient gamma, elles auraient l'air quelque part près exponentielles)
Cependant, avec ce type de taille d'échantillon, l'ANOVA peut ne pas être particulièrement affectée par cela; l'incertitude dans l'estimation de la variance groupée sera assez petite, nous pouvons donc considérer qu'entre le CLT (pour les moyennes) et le théorème de Slutsky (pour l'estimation de la variance sur le dénominateur), une ANOVA fonctionnera probablement assez bien, puisque vous '' ll aura un chi carré asymptotique, pour lequel l'ANOVA-F avec son grand dénominateur-degrés de liberté sera une bonne approximation. (c'est-à-dire qu'il devrait avoir une robustesse de niveau raisonnable, et comme les moyens ne sont pas si loin d'être constants, la puissance ne devrait pas être trop affectée par l'hétéroskédasticité)
Cela dit, si votre étude aura un échantillon de plus petite taille, vous feriez mieux de chercher à utiliser un test différent (peut-être un test de permutation, ou un autre adapté aux données asymétriques, peut-être basé sur un GLM). Le changement de test peut nécessiter une taille d'échantillon un peu plus grande que celle que vous obtiendriez pour une ANOVA droite.
Avec les données d'origine, vous pouvez effectuer une analyse de puissance sous un modèle / analyse approprié. Même en l'absence des données originales, on pourrait faire des hypothèses plus plausibles sur la distribution (peut-être une variété d'entre elles) et étudier toute la courbe de puissance (ou, plus simplement, juste le taux d'erreur de type I et la puissance quelle que soit la taille de l'effet présente un intérêt). Une variété d'hypothèses raisonnables pourrait être utilisée, ce qui donne une idée de la puissance qui peut être obtenue dans des circonstances plausibles et de la taille de l'échantillon qui pourrait devoir être plus grande.
la source
Vous avez raison de conclure que les données ne sont pas normales. Si les données étaient normales, nous nous attendrions à ce qu'environ 16% des observations soient inférieures à la moyenne moins l'écart-type. Avec une SD supérieure à la moyenne, ce nombre est négatif et vous déclarez qu'il ne peut pas y avoir de nombres négatifs, donc ce que vous voyez n'est pas cohérent avec les données normalement distribuées. Les valeurs SD sont possibles, mais uniquement si la distribution est très asymétrique (ce qui est courant dans les durées).
Je suis d'accord que choisir une taille d'échantillon en supposant que les données seront normales n'est pas une bonne idée, mais si vous pouvez en savoir plus sur le processus et trouver une bonne distribution asymétrique (une distribution gamma comme une possibilité) qui est une hypothèse raisonnable, vous pouvez ensuite l'utiliser pour déterminer la taille de l'échantillon.
la source