SD plus grande que la moyenne, échelle non négative

9

On m'a donné un article rapportant une étude très similaire à celle que mon laboratoire souhaite mener. Mais, j'ai remarqué que pour la variable d'intérêt, la durée, les écarts-type sont plus grands que la moyenne ... puisque c'est une durée mesurée en minutes, elle ne peut jamais être négative et cela me semble très étrange. Cela s'est produit dans 2 études rapportées, en voici une.

Au-delà, c'est un design mixte. Contrôle v Traitement (entre les groupes) et Time1, Time2, Time3 (répétition des mesures). Voici les moyennes (SD), N> 200

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

... ils ont réalisé une ANOVA et ont rapporté un p <0,001.

On m'a demandé de l'utiliser comme base pour une analyse de puissance afin de déterminer la taille de l'échantillon pour notre étude. Je suis à peu près sûr que cela indique que les données ne sont pas normales ou ont des valeurs aberrantes et je ne me sens pas à l'aise de déterminer la taille de l'échantillon en fonction de cela. Suis-je juste loin de la base?

Curieuse
la source
Êtes-vous sûr que ce sont des intervalles de confiance SD et non à 95%, ce qui pourrait être plus comme 3 * SD Il semble que ces SD soient à peu près de la même taille que les moyens. Il est vraiment difficile de dire quelle est la taille de l'échantillon car nous ne savons pas quels effets ont été inclus dans ces erreurs ni même quelle est la statistique. S'il ne s'agissait que de statistiques de comptage, c'est-à-dire la distribution de Poisson, la moyenne sur l'écart-type devrait être comme 1 / Sqrt (N). Cependant, cela impliquerait N = 1 (ou quelques-uns au plus). Pouvez-vous nous donner plus d'informations sur ces statistiques?
Dave31415
De plus, la distribution normale a une moyenne et un écart-type complètement indépendants les uns des autres. Je pense que vous vouliez peut-être parler de la distribution de Poisson.
Dave31415
2
Avec des durées non négatives, je m'attends généralement à une distribution asymétrique. Des écarts-type comparables à la moyenne sont parfaitement possibles et en aucun cas surprenants. Quelle distribution est mieux supposée pour les autres calculs ne peut pas être conseillée sans plus d'informations, mais je ne choisirais pas Poisson comme première estimation, mais plutôt gamma ou log-normal.
Nick Cox
Comme le note @NickCox, avec des durées, je serais surpris si la SD n'était pas plus grande que la moyenne (s'il n'y avait pas de censure). Vous pourriez également considérer la distribution de Weibull. L'analyse de puissance devra probablement être basée sur la simulation. Sur une note différente, je suppose qu'une ANOVA n'était pas valide avec des données comme ça.
gung - Réintégrer Monica
1
Pour un ensemble de données de nombres non négatifs, le coefficient de variation - le rapport de l'écart-type à la moyenne - peut prendre des valeurs aussi grandes que avec la valeur maximale se produisant dans le cas extrême lorsque tous les nombres sont sauf un (voir cette question pour plus de détails). Ainsi, l'écart type dépassant la moyenne ne doit pas être considéré comme un cas exceptionnel nécessitant de nombreuses explications. nO(n)0
Dilip Sarwate

Réponses:

5

Il est facilement possible que l'écart-type dépasse la moyenne avec des données non négatives ou strictement positives

Je décrirais le cas de vos données comme l'écart-type étant proche de la moyenne (toutes les valeurs ne sont pas plus grandes et celles qui sont plus grandes sont généralement proches). Pour les données non négatives, cela indique assez clairement que les données sont asymétriques (par exemple, la distribution gamma avec un coefficient de variation = 1 serait la distribution exponentielle, donc si les données étaient gamma, elles auraient l'air quelque part près exponentielles)

Cependant, avec ce type de taille d'échantillon, l'ANOVA peut ne pas être particulièrement affectée par cela; l'incertitude dans l'estimation de la variance groupée sera assez petite, nous pouvons donc considérer qu'entre le CLT (pour les moyennes) et le théorème de Slutsky (pour l'estimation de la variance sur le dénominateur), une ANOVA fonctionnera probablement assez bien, puisque vous '' ll aura un chi carré asymptotique, pour lequel l'ANOVA-F avec son grand dénominateur-degrés de liberté sera une bonne approximation. (c'est-à-dire qu'il devrait avoir une robustesse de niveau raisonnable, et comme les moyens ne sont pas si loin d'être constants, la puissance ne devrait pas être trop affectée par l'hétéroskédasticité)

Cela dit, si votre étude aura un échantillon de plus petite taille, vous feriez mieux de chercher à utiliser un test différent (peut-être un test de permutation, ou un autre adapté aux données asymétriques, peut-être basé sur un GLM). Le changement de test peut nécessiter une taille d'échantillon un peu plus grande que celle que vous obtiendriez pour une ANOVA droite.

Avec les données d'origine, vous pouvez effectuer une analyse de puissance sous un modèle / analyse approprié. Même en l'absence des données originales, on pourrait faire des hypothèses plus plausibles sur la distribution (peut-être une variété d'entre elles) et étudier toute la courbe de puissance (ou, plus simplement, juste le taux d'erreur de type I et la puissance quelle que soit la taille de l'effet présente un intérêt). Une variété d'hypothèses raisonnables pourrait être utilisée, ce qui donne une idée de la puissance qui peut être obtenue dans des circonstances plausibles et de la taille de l'échantillon qui pourrait devoir être plus grande.

Glen_b -Reinstate Monica
la source
4

Vous avez raison de conclure que les données ne sont pas normales. Si les données étaient normales, nous nous attendrions à ce qu'environ 16% des observations soient inférieures à la moyenne moins l'écart-type. Avec une SD supérieure à la moyenne, ce nombre est négatif et vous déclarez qu'il ne peut pas y avoir de nombres négatifs, donc ce que vous voyez n'est pas cohérent avec les données normalement distribuées. Les valeurs SD sont possibles, mais uniquement si la distribution est très asymétrique (ce qui est courant dans les durées).

Je suis d'accord que choisir une taille d'échantillon en supposant que les données seront normales n'est pas une bonne idée, mais si vous pouvez en savoir plus sur le processus et trouver une bonne distribution asymétrique (une distribution gamma comme une possibilité) qui est une hypothèse raisonnable, vous pouvez ensuite l'utiliser pour déterminer la taille de l'échantillon.

Greg Snow
la source