Comment effectuer la fiabilité inter-évaluateurs avec plusieurs évaluateurs, différents évaluateurs par participant et les changements possibles au fil du temps?

8

Les participants ont été notés deux fois, les 2 notes étant séparées de 3 ans. Pour la plupart des participants, les évaluations ont été faites par différents évaluateurs, mais pour certains (<10%), le même évaluateur a effectué les deux évaluations. Il y avait au total 8 évaluateurs, dont 2 notés aux deux moments.

Maintenant, étant donné que les notes étaient d'un aspect de la capacité avec une valeur hypothétique "correcte", alors un accord absolu entre les évaluateurs est plus intéressant que la cohérence. Cependant, puisque les notes ont été prises à 3 ans d'intervalle, il pourrait y avoir eu (et probablement eu) un réel changement dans la capacité.

  • Quel serait le meilleur test de fiabilité dans ce cas?
  • Je penche vers une corrélation intra-classe, mais ICC1 est-il le mieux que je puisse faire avec ces données?
Joyce
la source

Réponses:

5

Comment comptez-vous tenir compte du fait que certaines évaluations ont été faites par le même évaluateur? Du haut de ma tête, je ne peux penser à aucune mesure qui en tienne compte quand ce n'est pas toujours fait. Après tout, si vous comparez deux fois le même évaluateur, vous recherchez la cohérence; si vous comparez deux évaluateurs, vous cherchez un accord. Ainsi, lorsque vous dites que vous souhaitez évaluer la «fiabilité», ce que vous cherchez à évaluer n'est pas totalement clair.

Si vous pensez que le niveau d'aptitude des sujets a probablement changé, il est également important de réfléchir à la manière dont vous pouvez en tenir compte. Avez-vous des mesures d'étalon-or pour comparer les évaluateurs?

Donc, en résumé, avant de pouvoir évaluer la fiabilité des évaluateurs, vous devez répondre à deux questions clés:

  • Comment pouvez-vous quantifier et corriger le changement entre les points temporels attribués à des changements légitimes de capacité, au lieu d'une mauvaise cohérence dans la notation?
  • Êtes-vous principalement intéressé par la fréquence à laquelle les évaluateurs sont d'accord les uns avec les autres ou par la cohérence avec laquelle ils appliquent les notes?
TARehman
la source
Merci pour votre réponse, TARehman. Comme vous dites, c'est un mix. Je pense que je devrai diviser l'échantillon entre ceux qui ont été notés par le même évaluateur et ceux qui ne l'ont pas été. Ensuite, je vais exécuter une analyse distincte sur les deux (intra et inter-fiabilité, respectivement). Quant au problème du changement réel, je ne pense pas qu'il existe un moyen
Joyce
Il me semble que si vous les divisez, vous pourriez être en mesure d'agréger le score final en une méta-fiabilité, mais un tel plan est semé d'embûches méthodologiques. Je pense qu'ICC sera votre meilleure option. À quoi ressemblent vos chiffres (combien de notes, d'individus, etc. - nous savons que vous avez 8 évaluateurs)?
TARehman
Donc, pour chaque individu n = 800, il y a 2 évaluations. Il y avait 5 évaluateurs notés à t1 et 5 à t2 (8 au total, avec 2 notés à la fois t1 et t2). 100 individus ont été évalués par le même évaluateur aux deux moments et 700 avaient des évaluateurs différents. Je ne peux pas déterminer quel ICC serait le plus approprié ici ...
Joyce
Eh bien, il semble que vous pouvez résoudre l'un des deux points ci-dessus en ignorant les 100 personnes qui ont été notées par le même évaluateur aux deux points dans le temps. Cela répond au moins à la question de savoir ce qui vous intéresse: à quelle fréquence ils sont d'accord les uns avec les autres ou avec quelle cohérence ils appliquent les notes. Parce que vous n'avez aucun moyen de contrôler le changement attendu des valeurs au fil du temps, je ne sais toujours pas comment vous
aborderez
Modifié pour ajouter: Vous pouvez trouver la discussion de Wikipédia sur cet aspect de la CPI à titre illustratif: en.wikipedia.org/wiki/… . En particulier, il indique qu'il peut être "utilisé pour évaluer la cohérence, ou la conformité, des mesures effectuées par plusieurs observateurs mesurant la même quantité". Étant donné que les évaluateurs dans ce cas ne mesurent pas la même quantité, l'ICC peut ne pas être bien adapté à votre situation.
TARehman