Je suis un peu confus en ce qui concerne le coefficient de corrélation intraclasse et l'ANOVA unidirectionnelle. Si je comprends bien, les deux vous indiquent à quel point les observations au sein d'un groupe sont similaires à celles des autres groupes.
Quelqu'un pourrait-il expliquer cela un peu mieux, et peut-être expliquer la ou les situations dans lesquelles chaque méthode est plus avantageuse?
Réponses:
Les deux méthodes reposent sur la même idée, celle de décomposer la variance observée en différentes parties ou composants. Cependant, il existe des différences subtiles entre les éléments et / ou les évaluateurs comme effets fixes ou aléatoires. En plus de dire quelle partie de la variabilité totale s'explique par le facteur entre (ou à quel point l'écart entre s'écarte de la variance résiduelle), le test F ne dit pas grand-chose. Au moins, cela vaut pour une ANOVA unidirectionnelle où nous supposons un effet fixe (et qui correspond à l'ICC (1,1) décrit ci-dessous). D'un autre côté, l'ICC fournit un indice borné lors de l'évaluation de la fiabilité de la notation pour plusieurs évaluateurs "échangeables", ou de l'homogénéité entre les unités analytiques.
Nous faisons généralement la distinction suivante entre les différents types de ICC. Cela découle des travaux fondateurs de Shrout et Fleiss (1979):
Cela correspond aux cas 1 à 3 dans leur tableau 1. Une distinction supplémentaire peut être faite selon que nous considérons que les notations observées sont la moyenne de plusieurs notations (elles sont appelées ICC (1, k), ICC (2, k), et ICC (3, k)) ou non.
En somme, vous devez choisir le bon modèle (unidirectionnel vs bidirectionnel), et cela est largement discuté dans l'article de Shrout et Fleiss. Un modèle unidirectionnel a tendance à produire des valeurs plus petites que le modèle bidirectionnel; de même, un modèle à effets aléatoires donne généralement des valeurs inférieures à un modèle à effets fixes. Un ICC dérivé d'un modèle à effets fixes est considéré comme un moyen d'évaluer la cohérence des évaluateurs (car nous ignorons la variance des évaluateurs), tandis que pour un modèle à effets aléatoires, nous parlons d'une estimation de l' accord des évaluateurs (que les évaluateurs soient interchangeables ou non). Seuls les modèles bidirectionnels intègrent l'interaction évaluateur x sujet, ce qui pourrait être intéressant lorsque vous essayez de démêler des modèles de notation atypiques.
L'illustration suivante est facilement copier / coller de l'exemple de
ICC()
la psych ensemble (données proviennent de Shrout et Fleiss, 1979). Les données consistent en 4 juges (J) évaluant 6 sujets ou cibles (S) et sont résumées ci-dessous (je suppose qu'elles sont stockées sous la forme d'une matrice R nomméesf
)Cet exemple est intéressant car il montre comment le choix du modèle peut influencer les résultats, donc l'interprétation de l'étude de fiabilité. Les 6 modèles ICC sont les suivants (il s'agit du tableau 4 du document de Shrout et Fleiss)
Comme on peut le voir, considérer les évaluateurs comme des effets fixes (donc ne pas essayer de généraliser à un plus grand nombre de évaluateurs) donnerait une valeur beaucoup plus élevée pour l'homogénéité de la mesure. (Des résultats similaires pourraient être obtenus avec le package irr (
icc()
), bien que nous devions jouer avec les différentes options pour le type de modèle et l'unité d'analyse.)Que nous apprend l'approche ANOVA? Nous devons ajuster deux modèles pour obtenir les carrés moyens pertinents:
Pas besoin de regarder le test F, seuls les EM sont intéressants ici.
Maintenant, nous pouvons assembler les différentes pièces dans un tableau ANOVA étendu qui ressemble à celui montré ci-dessous (c'est le tableau 3 dans le papier de Shrout et Fleiss):
(source: mathurl.com )
où les deux premières rangées proviennent du modèle unidirectionnel, tandis que les deux suivantes proviennent de l'ANOVA bidirectionnelle.
Il est facile de vérifier toutes les formules dans l'article de Shrout et Fleiss, et nous avons tout ce dont nous avons besoin pour estimer la fiabilité d'une seule évaluation . Qu'en est-il de la fiabilité de la moyenne des évaluations multiples (quelle est souvent la quantité d'intérêt pour les études inter-évaluateurs)? D'après Hays et Revicki (2005), il peut être obtenu à partir de la décomposition ci-dessus en changeant simplement la MS totale considérée dans le dénominateur, à l'exception du modèle à effets aléatoires bidirectionnel pour lequel nous devons réécrire le rapport des MS.
Encore une fois, nous constatons que la fiabilité globale est plus élevée lorsque l'on considère les évaluateurs comme des effets fixes.
Références
la source