Coefficient de corrélation intraclasse vs test F (ANOVA unidirectionnelle)?

10

Je suis un peu confus en ce qui concerne le coefficient de corrélation intraclasse et l'ANOVA unidirectionnelle. Si je comprends bien, les deux vous indiquent à quel point les observations au sein d'un groupe sont similaires à celles des autres groupes.

Quelqu'un pourrait-il expliquer cela un peu mieux, et peut-être expliquer la ou les situations dans lesquelles chaque méthode est plus avantageuse?

souffler
la source
S'il vous plaît, prenez le temps de regarder la fiabilité ou les balises inter-évaluateurs . L'ICC est basé sur un tableau ANOVA, mais l'idée est simplement d'analyser les composantes de la variance plutôt que de produire une statistique de test unique avec des propriétés de distribution connues, comme le test F. Quelle application avez-vous en tête?
chl
@chl Je cherche à analyser les scores individuels pour les données groupées. J'ai vu quelques articles examinant les différences entre les scores des parents et des enfants, utilisant la CPI pour dire s'il y avait une différence significative dans les réponses des parents par rapport aux enfants. Je pense que la CPI est ce que je veux ici, mais comme je l'ai mentionné, je ne comprends pas vraiment la différence entre les deux. J'hésite à en demander plus, mais connaissez-vous de bonnes références (de base)? Mon expérience en statistiques s'est arrêtée à la régression linéaire et j'ai l'impression de poser des questions qui ne sont pas bien formulées. Je vous remercie.
blép
Il semble que vous ayez associé des données. Lorsque vous envisagez des groupes séparés (parents vs enfants) et utilisez un ICC pour rapporter la fiabilité des scores, vous jetez une partie des informations, à savoir si les évaluations des parents et de leurs parents agissent de manière cohérente. Vos deux ICC ne vous diront que si les deux séries de scores, supposées indépendantes, sont "fiables", dans le sens où une partie importante de la variance pourrait être expliquée par l'effet de l'évaluateur. (...)
chl
(...) En somme, si vous voulez montrer que les évaluations parentales sont plus fiables que celles des enfants, alors utiliser ICC est très bien; si, d'autre part, vous voulez étudier comment les évaluations parentales sont liées aux évaluations des enfants, vous pouvez recourir à un autre type d'analyse (précisément, l'analyse des données dyadiques).
chl

Réponses:

17

Les deux méthodes reposent sur la même idée, celle de décomposer la variance observée en différentes parties ou composants. Cependant, il existe des différences subtiles entre les éléments et / ou les évaluateurs comme effets fixes ou aléatoires. En plus de dire quelle partie de la variabilité totale s'explique par le facteur entre (ou à quel point l'écart entre s'écarte de la variance résiduelle), le test F ne dit pas grand-chose. Au moins, cela vaut pour une ANOVA unidirectionnelle où nous supposons un effet fixe (et qui correspond à l'ICC (1,1) décrit ci-dessous). D'un autre côté, l'ICC fournit un indice borné lors de l'évaluation de la fiabilité de la notation pour plusieurs évaluateurs "échangeables", ou de l'homogénéité entre les unités analytiques.

Nous faisons généralement la distinction suivante entre les différents types de ICC. Cela découle des travaux fondateurs de Shrout et Fleiss (1979):

  • Modèle à effets aléatoires unidirectionnel , ICC (1,1): chaque élément est évalué par différents évaluateurs qui sont considérés comme échantillonnés à partir d'un plus grand nombre d'évaluateurs potentiels, donc ils sont traités comme des effets aléatoires; l'ICC est alors interprété comme le% de la variance totale expliquée par la variance sujets / items. C'est ce qu'on appelle la cohérence ICC.
  • Modèle à effets aléatoires bidirectionnel , ICC (2,1): les deux facteurs - les évaluateurs et les éléments / sujets - sont considérés comme des effets aléatoires, et nous avons deux composantes de variance (ou carrés moyens) en plus de la variance résiduelle; nous supposons en outre que les évaluateurs évaluent tous les éléments / sujets; l'ICC donne dans ce cas le% de variance attribuable aux évaluateurs + articles / sujets.
  • Modèle mixte bidirectionnel , ICC (3,1): contrairement à l'approche unidirectionnelle, les évaluateurs sont ici considérés comme des effets fixes (pas de généralisation au-delà de l'échantillon en question) mais les éléments / sujets sont traités comme des effets aléatoires; l'unité d'analyse peut être la note individuelle ou la note moyenne.

Cela correspond aux cas 1 à 3 dans leur tableau 1. Une distinction supplémentaire peut être faite selon que nous considérons que les notations observées sont la moyenne de plusieurs notations (elles sont appelées ICC (1, k), ICC (2, k), et ICC (3, k)) ou non.

En somme, vous devez choisir le bon modèle (unidirectionnel vs bidirectionnel), et cela est largement discuté dans l'article de Shrout et Fleiss. Un modèle unidirectionnel a tendance à produire des valeurs plus petites que le modèle bidirectionnel; de même, un modèle à effets aléatoires donne généralement des valeurs inférieures à un modèle à effets fixes. Un ICC dérivé d'un modèle à effets fixes est considéré comme un moyen d'évaluer la cohérence des évaluateurs (car nous ignorons la variance des évaluateurs), tandis que pour un modèle à effets aléatoires, nous parlons d'une estimation de l' accord des évaluateurs (que les évaluateurs soient interchangeables ou non). Seuls les modèles bidirectionnels intègrent l'interaction évaluateur x sujet, ce qui pourrait être intéressant lorsque vous essayez de démêler des modèles de notation atypiques.

L'illustration suivante est facilement copier / coller de l'exemple de ICC()la psych ensemble (données proviennent de Shrout et Fleiss, 1979). Les données consistent en 4 juges (J) évaluant 6 sujets ou cibles (S) et sont résumées ci-dessous (je suppose qu'elles sont stockées sous la forme d'une matrice R nommée sf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

Cet exemple est intéressant car il montre comment le choix du modèle peut influencer les résultats, donc l'interprétation de l'étude de fiabilité. Les 6 modèles ICC sont les suivants (il s'agit du tableau 4 du document de Shrout et Fleiss)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

Comme on peut le voir, considérer les évaluateurs comme des effets fixes (donc ne pas essayer de généraliser à un plus grand nombre de évaluateurs) donnerait une valeur beaucoup plus élevée pour l'homogénéité de la mesure. (Des résultats similaires pourraient être obtenus avec le package irr ( icc()), bien que nous devions jouer avec les différentes options pour le type de modèle et l'unité d'analyse.)

Que nous apprend l'approche ANOVA? Nous devons ajuster deux modèles pour obtenir les carrés moyens pertinents:

  • un modèle à sens unique qui ne considère que le sujet; cela permet de séparer les cibles notées (MS entre groupes, BMS) et d'obtenir une estimation du terme intra-erreur (WMS)
  • un modèle bidirectionnel qui considère sujet + évaluateur + leur interaction (quand il n'y a pas de répétitions, ce dernier terme sera confondu avec les résidus); cela permet d'estimer l'effet principal de l'évaluateur (JMS) qui peut être pris en compte si nous voulons utiliser un modèle à effets aléatoires (c'est-à-dire que nous l'ajouterons à la variabilité totale)

Pas besoin de regarder le test F, seuls les EM sont intéressants ici.

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

Maintenant, nous pouvons assembler les différentes pièces dans un tableau ANOVA étendu qui ressemble à celui montré ci-dessous (c'est le tableau 3 dans le papier de Shrout et Fleiss):


(source: mathurl.com )

où les deux premières rangées proviennent du modèle unidirectionnel, tandis que les deux suivantes proviennent de l'ANOVA bidirectionnelle.

Il est facile de vérifier toutes les formules dans l'article de Shrout et Fleiss, et nous avons tout ce dont nous avons besoin pour estimer la fiabilité d'une seule évaluation . Qu'en est-il de la fiabilité de la moyenne des évaluations multiples (quelle est souvent la quantité d'intérêt pour les études inter-évaluateurs)? D'après Hays et Revicki (2005), il peut être obtenu à partir de la décomposition ci-dessus en changeant simplement la MS totale considérée dans le dénominateur, à l'exception du modèle à effets aléatoires bidirectionnel pour lequel nous devons réécrire le rapport des MS.

  • Dans le cas de ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS), la fiabilité globale est calculée comme (BMS-WMS) /BMS=0.443.
  • Pour l'ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N), la fiabilité globale est (N • (BMS-EMS)) / (N • BMS + JMS-EMS) = 0,620.
  • Enfin, pour l'ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS), nous avons une fiabilité de (BMS-EMS) /BMS=0.909.

Encore une fois, nous constatons que la fiabilité globale est plus élevée lorsque l'on considère les évaluateurs comme des effets fixes.

Références

  1. Shrout, PE et Fleiss, JL (1979). Corrélations intraclasses: Utilisées pour évaluer la fiabilité des évaluateurs . Bulletin psychologique , 86, 420-3428.
  2. Hays, RD et Revicki, D. (2005). Fiabilité et validité (y compris réactivité). Dans Fayers, P. et Hays, RD (éd.), Assessing Quality of Life in Clinical Trials , 2e éd., Pp. 25-39. Oxford University Press.
chl
la source