Puis-je faire au test si j'ai peu ou pas de variance dans un groupe?

8

J'ai 4 groupes que je compare à un critère. Dans l'un de mes groupes, tous les participants ont répondu de la même manière sur chaque point, c'est-à-dire qu'il n'y a pas de variance.

Comment gérer cela dans mon ANOVA?

Aussi, que dois-je en faire dans le test que je lance en le comparant à un critère car je n'obtiendrai pas de terme d'erreur? Si j'inclus un participant que je ne suis pas sûr d'inclure dans mon élève, la variance n'est pas totalement uniforme avec 1 observation différente sur 37 mais quand je l'exécute, elle n'est pas significative car la variance est trop petite.

Je comprends qu'il n'y a rien que je puisse faire en termes de calcul. Je demande comment on le gère conceptuellement.

Emilie
la source

Réponses:

2

Si vous supposez que les variances sont les mêmes pour chaque groupe, vous pouvez obtenir une estimation de variance groupée et travailler avec elle pour construire des tests t pour les différences par paires. Mais ce ne serait pas une bonne hypothèse à moins que toutes les variances soient petites et que celle avec toutes les valeurs identiques ne soit qu'une occurrence fortuite. Si vous ne pouvez pas le faire, vous n'avez aucun moyen d'estimer la variance pour ce groupe et vous ne pouvez pas analyser la variance ou tout test t impliquant ce groupe comme l'une des paires comparées.

Michael R. Chernick
la source
(+1) Me rappelle une réponse de G Jay Kerns sur ce site à une autre question qui finit par avoir une distribution de données comme l'OP le décrit.
Andy W
6

Voici quelques observations à ajouter aux réponses existantes. Je pense qu'il est important de réfléchir conceptuellement à la raison pour laquelle vous obtenez un groupe avec une variance nulle.

Effets de plancher et de plafond

D'après mon expérience en psychologie, cet exemple revient le plus souvent quand il y a un plancher ou un plafond sur une échelle, et vous avez certains groupes qui se situent au milieu de l'échelle et d'autres qui tombent à l'extrême. Par exemple, si votre variable dépendante est la proportion d'éléments corrects sur cinq questions, alors vous pourriez constater que votre groupe «intelligent» obtient 100% correct ou que votre «groupe clinique» obtient 0% correct.

Dans ce cas:

  • Vous voudrez peut-être vous rabattre sur les tests ordinaux non paramétriques si vous n'avez aucune variance dans l'un de vos groupes.
  • Bien que cela ne vous aide peut-être pas après coup, vous voudrez peut-être également réfléchir conceptuellement à une meilleure utilisation d'une mesure différente qui n'aurait pas d'effets de plancher ou de plafond. Dans certains cas, cela n'a pas d'importance. Par exemple, le point de l'analyse peut avoir été de montrer qu'un groupe pouvait effectuer une tâche et un autre ne pouvait pas. Dans d'autres cas, vous souhaiterez peut-être modéliser les différences individuelles dans tous les groupes, auquel cas vous devrez peut-être une échelle qui ne souffre pas des effets de plancher ou de plafond.

Très petit groupe

Un autre cas où vous ne pouvez obtenir aucune variance de groupe est celui où vous avez un groupe avec une très petite taille d'échantillon (par exemple, ), généralement en combinaison avec une variable dépendante qui est assez discrète.n<5

Dans ce cas, vous pouvez être plus enclin à mettre au hasard le manque de variance et à procéder à un test t standard.

Jeromy Anglim
la source
3

Il y a quelques années, j'aurais entièrement souscrit à la réponse de @Michael Chernick.

Cependant, j'ai réalisé récemment que certaines implémentations du test t sont extrêmement robustes à l'inégalité des variances. En particulier, dans R, la fonction t.testa un paramètre par défaut var.equal=FALSE, ce qui signifie qu'elle ne repose pas simplement sur une estimation groupée de la variance. Au lieu de cela, il utilise les degrés de liberté approximatifs de Welch-Satterthwaite , qui compense les variances inégales.

Voyons un exemple.

set.seed(123)
x <- rnorm(100)
y <- rnorm(100, sd=0.00001)
# x and y have 0 mean, but very different variance.
t.test(x,y)
Welch Two Sample t-test

data:  x and y 
t = 0.9904, df = 99, p-value = 0.3244
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.09071549  0.27152946 
sample estimates:
    mean of x     mean of y 
 9.040591e-02 -1.075468e-06

Vous pouvez voir que R prétend effectuer le test t de Welch et non le test t de Student . Ici, le degré de liberté est supposé être 99, même si chaque échantillon a une taille 100, donc ici la fonction teste essentiellement le premier échantillon par rapport à la valeur fixe 0.

Vous pouvez vérifier vous-même que cette implémentation donne des valeurs de p correctes ( c'est-à-dire uniformes) pour deux échantillons avec des variances très différentes.

Maintenant, c'était pour un test t à deux échantillons. Ma propre expérience avec l'ANOVA est qu'elle est beaucoup plus sensible à l'inégalité des variances. Dans ce cas, je suis entièrement d'accord avec @Michael Chernick.

gui11aume
la source
Si cette approche est essentiellement la même que la comparaison du premier groupe avec zéro, alors pourquoi ne pas simplement soustraire la valeur observée du groupe invariable des autres valeurs et les comparer à zéro? En d'autres termes, il suffit de faire un test t à un échantillon en utilisant la seule estimation de variabilité disponible. Cela semblerait conceptuellement plus simple que d'utiliser le test de Welch-Scatterthwaite.
Michael Lew
Absolument raison @Michael Lew. Mon exemple n'était pas très didactique car c'est un cas extrême. Le test t de Welch est utile dans les cas limites, comme lorsque l'échantillon présente une variance 4 fois plus petite. Je voulais simplement souligner que l'approche est cohérente dans la limite.
gui11aume
3

Dans certaines circonstances, il peut être possible de calculer une limite supérieure sur ce que pourrait être la variance pour la population, puis d'utiliser cette variance dans quelque chose comme un test t avec des variances inégales.

Par exemple, si vous avez demandé à 10 élèves choisis au hasard dans une école de 100 élèves quelle est leur journée préférée en mars et qu'ils ont tous répondu le 15, vous savez que la plus grande variance que vous pourriez avoir pour la population étudiante est la variance pour 10 valeurs de 15, 45 valeurs de 1 et 45 valeurs de 31, soit 204,6364.

Une variance plus importante devrait rendre la détection d'une différence plus difficile, de sorte qu'un test t utilisant cette limite supérieure de la variance serait prudent dans la détection d'une différence. Cela signifie que vous seriez sûr d'une différence significative résultant d'un test t utilisant la limite supérieure de la variance, mais si vous ne trouviez pas de différence significative, vous ne sauriez pas grand-chose, car une différence significative serait toujours compatible avec certaines des plus petites variations possibles.

Bien sûr, il peut ne pas y avoir beaucoup de situations où vous pouvez réellement comprendre cela, mais cela pourrait être possible.

Jdub
la source