Fiabilité inter-évaluateur avec de nombreux évaluateurs qui ne se chevauchent pas

8

J'ai un ensemble de données de plus de 11 000 éléments distincts, chacun étant classé sur une échelle nominale par au moins 3 évaluateurs différents sur Mechanical Turk d' Amazon .

88 évaluateurs différents ont rendu des jugements pour la tâche, et aucun évaluateur n'a rendu plus de 800 jugements. La plupart ont fourni beaucoup moins que cela.

Ma question est la suivante:

Je voudrais calculer une certaine mesure de la fiabilité inter-évaluateur pour les notes, quelque chose de mieux qu'un simple examen du consensus. Je crois cependant que Fleiss Kappa, qui est la mesure que je connais le mieux, nécessiterait un groupe cohérent de évaluateurs pour l'ensemble des éléments, et je ne peux donc pas utiliser Fleiss Kappa pour vérifier le TRI avec mes données. Est-ce correct? Y a-t-il une autre méthode que je pourrais utiliser?

Tout conseil serait très apprécié!

Judd Antin
la source
1
Bienvenue sur le site! Des questions similaires ont été posées auparavant avec ces balises - avez-vous vérifié si une solution de travail peut être trouvée parmi celles-ci?
StasK
1
Merci! J'ai bien vérifié. Je n'ai trouvé qu'une seule question directement pertinente , mais elle n'a reçu aucune réponse.
Judd Antin

Réponses:

2

Si vous avez juste besoin de vous convaincre (plutôt que de rapporter un numéro pour une autre partie), vous pouvez adapter un modèle hiérarchique / mixte croisé, les éléments et les évaluateurs étant deux effets aléatoires. La corrélation intraclasse pour les évaluateurs est alors [variance de l'effet aléatoire des évaluateurs] / [variance de l'effet aléatoire des évaluateurs + variance de l'effet aléatoire des articles + (variance de la distribution logistique =π2/3)]. Une implémentation spécifique dépend de la plate-forme de calcul que vous utilisez; la valeur par défaut sur CV est R, vous utiliserez donc nlmeavec, mais vous pouvez avoir quelque chose de différent comme SPSS ou Stata.

StasK
la source
2

Découvrez l'alpha de Krippendorff. Il présente plusieurs avantages par rapport à d'autres mesures telles que le Kappa de Cohen, le Kappa de Fleiss, l'alpha de Cronbach: il résiste aux données manquantes (dont je suppose que c'est la principale préoccupation que vous avez); il est capable de traiter avec plus de 2 évaluateurs; et il peut gérer différents types d'échelles (nominales, ordinales, etc.), et il tient également compte des accords fortuits mieux que certaines autres mesures comme le Kappa de Cohen.

Le calcul de l'alpha de Krippendorff est pris en charge par plusieurs logiciels statistiques, notamment R (par le package irr), SPSS, etc.

Voici quelques articles pertinents, qui discutent de l'alpha de Krippendorff, y compris ses propriétés et sa mise en œuvre, et le comparent avec d'autres mesures:

  1. Hayes, AF et Krippendorff, K. (2007). Répondre à l'appel pour une mesure de fiabilité standard pour le codage des données. Méthodes et mesures de communication, 1 (1), 77-89.

  2. Krippendorff, K. (2004). Fiabilité de l'analyse de contenu: quelques idées fausses et recommandations courantes. Recherche en communication humaine, 30 (3), 411-433. doi: 10.1111 / j.1468-2958.2004.tb00738.x

  3. Chapitre 3 dans Krippendorff, K. (2013). Analyse de contenu: une introduction à sa méthodologie (3e éd.): Sage.

Il y a quelques documents techniques supplémentaires sur le site Web de Krippendorff

ynagar
la source